Artificial Analysis

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

Artificial Analysis

AA-Briefcaseにおけるタスクごとの時間計測

長期的な知識業務を測定する独自指標AA-Briefcaseで、各モデルの1タスクあたりの処理時間が比較された
精度と速度のバランスでは、GPT-5.5（xhigh）がOpus 4.8の約半分の11分でトップ5入りし効率面で際立つ
処理時間の大半は出力の長さや推論速度が占め、ツール実行の比重は約12%にとどまる

Artificial Analysis

Artificial Analysis スピーチ・トゥ・スピーチインデックスの発表

音声会話AIモデルを総合評価する新指標「Speech to Speech Index」が公開された
総合首位はGPT-Realtime-2（High）の77.2%で、速度・コスト・性能のバランスにモデル間で明確な差がある
特に自律タスク処理の難易度が高く、全モデルが53%未満にとどまっており、この領域が今後の課題となっている

Artificial Analysis

AA-Briefcaseの発表：フロンティアナレッジワーク評価

AA-Briefcaseは、データサイエンスや戦略など4分野・91タスクで構成された実務型AIエージェント評価指標で、Claude Fable 5が総合首位となった。
最高性能モデルでも全条件を満たすタスクはわずか3%で、現状のAIは複雑な実務知識作業に対し依然限界がある。
タスク1件あたりのコストは最大800倍以上の差があり、性能とコストのバランスが実用選択の重要な判断軸となっている。

Artificial Analysis

GLM-5.2が、Artificial Analysis Intelligence Indexにおける最新のトップオープンウェイトモデルに

Z aiのGLM-5.2が、オープンウェイトモデルの中で知性指標スコア51の首位となった
前世代のGLM-5.1より11点高く、科学的推論や実務エージェント性能で大幅に向上している
コストは1タスクあたり約0.46ドルと競合より高めだが、同水準の知性を持つモデルの中では最安となっている

Artificial Analysis

Artificial Analysis インテリジェンスインデックス v4.1：エージェント型ワークロードへのシフト

AIモデルの総合評価指標「Intelligence Index」がv4.1に更新され、自律的なタスクを重視した内容に刷新された
現時点で利用可能な最高性能モデルはClaude Opus 4.8（スコア56）で、GPT-5.5（スコア55）がそれに続く
DeepSeek V4 Pro（スコア44）は1タスクあたり0.04ドルと、上位の有料モデルに比べ20〜45倍安く、コスト面で際立った存在となっている

Artificial Analysis

AA-AgentPerf初の結果：エージェント時代のためのハードウェアベンチマーク

AIエージェント向けの新しい推論ベンチマーク「AA-AgentPerf」を公開
1メガワットあたりの同時エージェント数を主要指標とし、実際の性能を測定
ハードウェア購入者がエージェント用途の機器選定に活用できる

Artificial Analysis

ガードレールモデルの安全性、拒否率、レイテンシのベンチマーク評価

複数のガードレールモデルを3つのデータセットで性能比較した
安全なコンテンツを誤拒否せず、危険なコンテンツを検出するバランスが重要
用途に応じて検出優先か誤拒否低減優先かを選ぶことが推奨される

Artificial Analysis

Claude Fable 5、Artificial Analysis Intelligence Indexで第1位を獲得してローンチ

Claude Fable 5がAIベンチマークで総合1位を獲得
推論精度・エージェント作業・知識の正確さで他社モデルを上回る
API利用は入力$10/出力$50（100万トークン）で、高性能だがコストも高い

Artificial Analysis

Claude Fable 5: 初の公開Mythosクラスモデル

AnthropicがClaude Fable 5を一般公開
実務タスクのベンチマークで1位を獲得
有害クエリの安全機能と代替モデルの切り替え機能を搭載

Artificial Analysis

North Mini Code: CohereのコーディングにフォーカスしたスモールMoEモデル

コーディング特化の小型AIモデル「North Mini Code」をリリース
コーディング性能は同サイズ帯でトップクラスだが、非コーディング作業は苦手
処理速度が速くApache 2.0で公開され、実務に導入しやすい

Artificial Analysis

MiniMax-M3: オープンウェイトモデルの先駆け、ウェイトのリリース時期について

MiniMax初のマルチモーダルモデル「M3」をリリース
画像・動画入力と100万トークンの文脈処理に対応
約10日以内に重みが公開予定で、オープン系モデル最高水準になる見込み

Artificial Analysis

NVIDIA Nemotron 3 Ultra リリース：高速、高性能、そしてオープン

NVIDIAが新しい大規模オープンモデル「Nemotron 3 Ultra」を公開
米国製オープンモデル最高の知能スコアを持ちつつ毎秒400トークン超の高速推論を実現
エージェント作業や推論タスクで速度と精度を両立したい開発者に有用

Artificial Analysis

Fun-Realtime-TTS: Artificial Analysisリーダーボードで首位を獲得した新しいテキスト音声変換モデル

AlibbaのFun-Realtime-TTSが音声合成ランキング1位を獲得
Googleを上回るEloスコアで、価格は100万文字あたり約27ドル
APIで利用可能で、音声クローンや多言語対応など機能が豊富

Artificial Analysis

MAI-Transcribe-1.5: 精度と速度のパレートフロンティアをリードする新しい音声テキスト変換モデル

MicrosoftがAI音声文字起こしモデル「MAI-Transcribe-1.5」を公開
精度上位10モデルの中で最速の約276倍速を実現
1,000分あたり6ドルで利用でき、43言語に対応

Artificial Analysis

AA-WER Streaming: 新しい音声テキスト変換ストリーミングベンチマーク

ストリーミング音声認識モデルの精度と速度を測る新ベンチマーク「AA-WER Streaming」を公開
CartesiaとElevenLabsが高精度、Deepgramが最速でトップクラスの性能を示した
自分の用途に合わせて精度・速度・価格のバランスで最適モデルを選べる

Artificial Analysis

Nemotron 3 Ultraが発表：高速で米国トップクラスのオープンウェイト知能

NVIDIAが550Bパラメータの大規模モデルNemotron 3 Ultraを発表
米国オープンモデル最高スコアを記録し、速度も毎秒300トークン超を達成
高性能かつ高速なオープンモデルを求める開発者の選択肢が広がった

Artificial Analysis

Claude Opus 4.8が、Artificial Analysis Intelligence Indexおよびナレッジワーク、ターミナル使用、科学的推論のベンチマークでトップに立つ

Claude Opus 4.8がAIベンチマーク総合1位を獲得
実務作業と科学的推論の両面で大幅に性能が向上
価格は据え置きのまま、実用・研究用途で最有力候補になった

Artificial Analysis

MiniCPM5-1B: 最高峰の10億パラメータオープンウェイトモデル

OpenBMBが1BパラメータのAIモデル「MiniCPM5-1B」を公開
同規模モデル最高の知性スコア17.9を達成し、出力トークンも少ない
小型モデル選びの新基準として参考にできる

Artificial Analysis

Cursor's Composer 2.5: Coding Agent Indexで3位、競合より約10〜60倍低コスト

CursorがComposer 2.5をリリースし、コーディング性能が大幅に向上
1タスク約0.07ドルで60点超えエージェント中最安値を実現
コスト重視の開発環境に最適な選択肢として活用できる

Artificial Analysis

Cohereが、Command Aリリースから1年以上を経てオープンウェイトモデルCommand A+を発表

CohereのCommand A+がリリースされ、性能評価で中堅クラスに位置づけ
幻覚（誤情報生成）が最も少なく、速度も281トークン/秒と高速
科学的推論とコーディングは苦手で、用途を選んで活用すべき