Artificial Analysis

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

Gemini 3.1 Pro プレビュー:新たなAIリーダー

  • Gemini 3.1 Pro Previewは、AI性能評価指標でClaude Opus 4.6を上回り、リーダーとなりました。
  • 推論、知識、コーディング能力が向上し、誤った回答(ハルシネーション)が大幅に減少しました。
  • 費用対効果が高く、特に複雑な課題において、Gemini 3.1 Pro Previewは活用価値があります。

Gemini 3.1 Pro プレビュー:知っておくべきことすべて

  • Gemini 3.1 Pro Previewは、AI評価指標でClaude Opus 4.6を上回り、AI性能でGoogleが再びリーダーになった。
  • Gemini 3.1 Pro Previewは、推論、知識、コーディング能力が向上し、誤った情報を生成する頻度が減少している。
  • Gemini 3.1 Pro Previewは、競合モデルよりコストが安く、特にコーディングと知識の分野で活用価値が高い。

Sonnet 4.6 - 知っておくべきことすべて

  • Claude Sonnet 4.6は、AI性能指標でGPT-5.2と同等、Opus 4.6に次ぐ2位となった。
  • Sonnet 4.6は、特にエージェント関連のタスクでOpus 4.6を上回り、コストパフォーマンスに優れる。
  • Sonnet 4.6はトークン消費量が以前より増加しているが、API等で利用可能で、実用性の高いモデル。

AA-WER v2.0:音声認識精度のベンチマーク

  • AA-WER v2.0は、音声認識(STT)の精度を測る指標を改善したもので、特に音声エージェント向けの新しいデータセット「AA-AgentTalk」が含まれる。
  • 新しいデータセットと既存データの修正により、より現実的な音声でSTTモデルを評価し、データ汚染のリスクを減らすことに重点を置いている。
  • この指標は、開発者が適切なSTTモデルを選び、AI研究者がモデルの性能を理解することで、音声AI技術の向上に役立つ。

Claude Sonnet 4.6 - GDPval-AAで新たなリーダーに

  • Claude Sonnet 4.6が、知識仕事の自動化テスト「GDPval-AA」でAnthropic Opus 4.6をわずかに上回る結果。
  • Sonnet 4.6は前モデルよりトークン使用量とコストが増加したが、性能は大幅に向上した。
  • GDPval-AAのテスト結果は、モデルが現実の仕事でどれだけ活躍できるかの指標となる。

MiniMax-M2.5:知っておくべき全てのこと

  • MiniMax-M2.5は、MiniMax-M2.1から性能が向上したモデルである。
  • エージェント能力は向上したが、誤った情報を生成する率が高くなった。
  • MiniMax-M2.5はAPIで利用でき、トークン効率が良いモデルの一つである。

GLM-5 - 知っておくべき全てのこと

  • GLM-5は新しいオープンウェイトモデルで、性能評価でGLM-4.7を上回った。
  • GLM-5は経済的価値の高い作業で高い評価を得て、幻覚の抑制も改善された。
  • 読者は、Z AIのAPIや他のAPIを通じてGLM-5を活用できる。

Opus 4.6:知っておくべきすべて

  • Claude Opus 4.6が、10の評価項目で構成されるAI指標で1位を獲得した。
  • Opus 4.6は、特にエージェント機能、コーディング、科学的推論で優れる。
  • 開発者は、新しい「適応的思考」モードでモデルの思考力を調整し、長文処理を活用できる。

Opus 4.6が、エージェントによる現実世界の知識タスクで首位に立つ

  • Claude Opus 4.6は、知識仕事の性能を測るGDPval-AAでGPT-5.2(xhigh)を150ポイント上回るElo 1606を達成。
  • Claude Opus 4.6は前モデルよりトークン使用量が増加したが、GPT-5.2(xhigh)よりは少なく、コストは最も高い。
  • 読者は、Claude Opus 4.6の視覚理解力や、より洗練されたアウトプットの例から、その価値を理解できる。