最新AIニュース

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

ゼロからRAGシステムへ:成功と失敗 | Andros Fenollosa

  • 1TBの技術文書を対象にローカルLLMベースの社内RAGシステムを構築した
  • ChromaDB・LlamaIndex・Ollamaを組み合わせ、54GBのベクトルDBを完成させた
  • バッチ処理・チェックポイント・エラー耐性の実装が大規模RAG構築の鍵になる
Pickup

テーブルからどれだけの精度を引き出せるか?

  • 数表の補間精度は次数を上げるほど良くなるわけではない
  • 数表の誤差δを下回る精度は得られず、高次補間はむしろ誤差を増やす
  • 対数・正弦・ベッセル関数の例から最適な補間次数の見極め方がわかる
Pickup

リアルタイムRLでComposerを改善する

  • 実際の推論トークンを学習シグナルに使う「リアルタイムRL」でComposerを改善
  • 5時間ごとに新チェックポイントをリリースし、編集維持率や応答速度が向上
  • 報酬ハッキングへの対策を重ね、特定組織向けの特化も目指している
Cursor Blog

エージェント型政府の台頭

  • 米政府機関の82%がすでにAIエージェントを導入済み
  • インターネット普及より大きな変革と見る政府リーダーが56%に上る
  • 政府DX推進の方向性や優先領域の把握に活用できる
Salesforce

勝利を手にした弁護士

  • 弁護士や医師などの専門家がAIでアプリを6日間で開発しハッカソンで優勝
  • デモの正確さより、更新・監査・説明できる仕組みが実用化に不可欠
  • 専門知識をガバナンス付き契約として管理するCANONICの活用が有効
Pickup

ARC-AGI-3

  • AIエージェントの知能を測る新しい対話型ベンチマーク「ARC-AGI-3」が公開
  • 静的なパズルではなく、環境内での経験学習や長期計画能力を評価する
  • APIやツールキットで自作AIエージェントを組み込み、テストできる
Pickup

Model Specへのアプローチ:その内側

  • モデルの行動指針を定めた「Model Spec」の背景と構造を公開
  • 指示の優先順位を定める「Chain of Command」で安全性と自由を両立
  • 公開文書として批判・改善の議論に活用できる
OpenAI News

モノレポのサイズを削減して開発者の生産性を向上させる

  • 87GBのモノレポを20GBに77%削減し、クローン時間を1時間以上から15分未満に短縮
  • Gitのパス末尾16文字に基づくデルタ圧縮の仕組みが、i18nのディレクトリ構造と相性が悪く肥大化を招いていた
  • リポジトリをプロダクションインフラと同様に扱い、監視と段階的なロールアウトで安全に改善できる
Dropbox