Artificial Analysis

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

Artificial Analysis

AA-Briefcaseにおけるタスクごとの時間計測

  • 長期的な知識業務を測定する独自指標AA-Briefcaseで、各モデルの1タスクあたりの処理時間が比較された
  • 精度と速度のバランスでは、GPT-5.5(xhigh)がOpus 4.8の約半分の11分でトップ5入りし効率面で際立つ
  • 処理時間の大半は出力の長さや推論速度が占め、ツール実行の比重は約12%にとどまる
Artificial Analysis

Artificial Analysis スピーチ・トゥ・スピーチ インデックスの発表

  • 音声会話AIモデルを総合評価する新指標「Speech to Speech Index」が公開された
  • 総合首位はGPT-Realtime-2(High)の77.2%で、速度・コスト・性能のバランスにモデル間で明確な差がある
  • 特に自律タスク処理の難易度が高く、全モデルが53%未満にとどまっており、この領域が今後の課題となっている
Artificial Analysis

AA-Briefcaseの発表:フロンティアナレッジワーク評価

  • AA-Briefcaseは、データサイエンスや戦略など4分野・91タスクで構成された実務型AIエージェント評価指標で、Claude Fable 5が総合首位となった。
  • 最高性能モデルでも全条件を満たすタスクはわずか3%で、現状のAIは複雑な実務知識作業に対し依然限界がある。
  • タスク1件あたりのコストは最大800倍以上の差があり、性能とコストのバランスが実用選択の重要な判断軸となっている。
Artificial Analysis

GLM-5.2が、Artificial Analysis Intelligence Indexにおける最新のトップオープンウェイトモデルに

  • Z aiのGLM-5.2が、オープンウェイトモデルの中で知性指標スコア51の首位となった
  • 前世代のGLM-5.1より11点高く、科学的推論や実務エージェント性能で大幅に向上している
  • コストは1タスクあたり約0.46ドルと競合より高めだが、同水準の知性を持つモデルの中では最安となっている
Artificial Analysis

Artificial Analysis インテリジェンス インデックス v4.1:エージェント型ワークロードへのシフト

  • AIモデルの総合評価指標「Intelligence Index」がv4.1に更新され、自律的なタスクを重視した内容に刷新された
  • 現時点で利用可能な最高性能モデルはClaude Opus 4.8(スコア56)で、GPT-5.5(スコア55)がそれに続く
  • DeepSeek V4 Pro(スコア44)は1タスクあたり0.04ドルと、上位の有料モデルに比べ20〜45倍安く、コスト面で際立った存在となっている