Artificial AnalysisAA-Briefcaseにおけるタスクごとの時間計測長期的な知識業務を測定する独自指標AA-Briefcaseで、各モデルの1タスクあたりの処理時間が比較された精度と速度のバランスでは、GPT-5.5(xhigh)がOpus 4.8の約半分の11分でトップ5入りし効率面で際立つ処理時間の大半は出力の長さや推論速度が占め、ツール実行の比重は約12%にとどまる
Artificial AnalysisArtificial Analysis スピーチ・トゥ・スピーチ インデックスの発表音声会話AIモデルを総合評価する新指標「Speech to Speech Index」が公開された総合首位はGPT-Realtime-2(High)の77.2%で、速度・コスト・性能のバランスにモデル間で明確な差がある特に自律タスク処理の難易度が高く、全モデルが53%未満にとどまっており、この領域が今後の課題となっている
Artificial AnalysisAA-Briefcaseの発表:フロンティアナレッジワーク評価AA-Briefcaseは、データサイエンスや戦略など4分野・91タスクで構成された実務型AIエージェント評価指標で、Claude Fable 5が総合首位となった。最高性能モデルでも全条件を満たすタスクはわずか3%で、現状のAIは複雑な実務知識作業に対し依然限界がある。タスク1件あたりのコストは最大800倍以上の差があり、性能とコストのバランスが実用選択の重要な判断軸となっている。
Artificial AnalysisGLM-5.2が、Artificial Analysis Intelligence Indexにおける最新のトップオープンウェイトモデルにZ aiのGLM-5.2が、オープンウェイトモデルの中で知性指標スコア51の首位となった前世代のGLM-5.1より11点高く、科学的推論や実務エージェント性能で大幅に向上しているコストは1タスクあたり約0.46ドルと競合より高めだが、同水準の知性を持つモデルの中では最安となっている
Artificial AnalysisArtificial Analysis インテリジェンス インデックス v4.1:エージェント型ワークロードへのシフトAIモデルの総合評価指標「Intelligence Index」がv4.1に更新され、自律的なタスクを重視した内容に刷新された現時点で利用可能な最高性能モデルはClaude Opus 4.8(スコア56)で、GPT-5.5(スコア55)がそれに続くDeepSeek V4 Pro(スコア44)は1タスクあたり0.04ドルと、上位の有料モデルに比べ20〜45倍安く、コスト面で際立った存在となっている
Artificial AnalysisAA-AgentPerf初の結果:エージェント時代のためのハードウェアベンチマークAIエージェント向けの新しい推論ベンチマーク「AA-AgentPerf」を公開1メガワットあたりの同時エージェント数を主要指標とし、実際の性能を測定ハードウェア購入者がエージェント用途の機器選定に活用できる
Artificial Analysisガードレールモデルの安全性、拒否率、レイテンシのベンチマーク評価複数のガードレールモデルを3つのデータセットで性能比較した安全なコンテンツを誤拒否せず、危険なコンテンツを検出するバランスが重要用途に応じて検出優先か誤拒否低減優先かを選ぶことが推奨される
Artificial AnalysisClaude Fable 5、Artificial Analysis Intelligence Indexで第1位を獲得してローンチClaude Fable 5がAIベンチマークで総合1位を獲得推論精度・エージェント作業・知識の正確さで他社モデルを上回るAPI利用は入力$10/出力$50(100万トークン)で、高性能だがコストも高い
Artificial AnalysisClaude Fable 5: 初の公開MythosクラスモデルAnthropicがClaude Fable 5を一般公開実務タスクのベンチマークで1位を獲得有害クエリの安全機能と代替モデルの切り替え機能を搭載
Artificial AnalysisNorth Mini Code: CohereのコーディングにフォーカスしたスモールMoEモデルコーディング特化の小型AIモデル「North Mini Code」をリリースコーディング性能は同サイズ帯でトップクラスだが、非コーディング作業は苦手処理速度が速くApache 2.0で公開され、実務に導入しやすい
Artificial AnalysisMiniMax-M3: オープンウェイトモデルの先駆け、ウェイトのリリース時期についてMiniMax初のマルチモーダルモデル「M3」をリリース画像・動画入力と100万トークンの文脈処理に対応約10日以内に重みが公開予定で、オープン系モデル最高水準になる見込み
Artificial AnalysisNVIDIA Nemotron 3 Ultra リリース:高速、高性能、そしてオープンNVIDIAが新しい大規模オープンモデル「Nemotron 3 Ultra」を公開米国製オープンモデル最高の知能スコアを持ちつつ毎秒400トークン超の高速推論を実現エージェント作業や推論タスクで速度と精度を両立したい開発者に有用
Artificial AnalysisFun-Realtime-TTS: Artificial Analysisリーダーボードで首位を獲得した新しいテキスト音声変換モデルAlibbaのFun-Realtime-TTSが音声合成ランキング1位を獲得Googleを上回るEloスコアで、価格は100万文字あたり約27ドルAPIで利用可能で、音声クローンや多言語対応など機能が豊富
Artificial AnalysisMAI-Transcribe-1.5: 精度と速度のパレートフロンティアをリードする新しい音声テキスト変換モデルMicrosoftがAI音声文字起こしモデル「MAI-Transcribe-1.5」を公開精度上位10モデルの中で最速の約276倍速を実現1,000分あたり6ドルで利用でき、43言語に対応
Artificial AnalysisAA-WER Streaming: 新しい音声テキスト変換ストリーミングベンチマークストリーミング音声認識モデルの精度と速度を測る新ベンチマーク「AA-WER Streaming」を公開CartesiaとElevenLabsが高精度、Deepgramが最速でトップクラスの性能を示した自分の用途に合わせて精度・速度・価格のバランスで最適モデルを選べる
Artificial AnalysisNemotron 3 Ultraが発表:高速で米国トップクラスのオープンウェイト知能NVIDIAが550Bパラメータの大規模モデルNemotron 3 Ultraを発表米国オープンモデル最高スコアを記録し、速度も毎秒300トークン超を達成高性能かつ高速なオープンモデルを求める開発者の選択肢が広がった
Artificial AnalysisClaude Opus 4.8が、Artificial Analysis Intelligence Indexおよびナレッジワーク、ターミナル使用、科学的推論のベンチマークでトップに立つClaude Opus 4.8がAIベンチマーク総合1位を獲得実務作業と科学的推論の両面で大幅に性能が向上価格は据え置きのまま、実用・研究用途で最有力候補になった
Artificial AnalysisMiniCPM5-1B: 最高峰の10億パラメータオープンウェイトモデルOpenBMBが1BパラメータのAIモデル「MiniCPM5-1B」を公開同規模モデル最高の知性スコア17.9を達成し、出力トークンも少ない小型モデル選びの新基準として参考にできる
Artificial AnalysisCursor's Composer 2.5: Coding Agent Indexで3位、競合より約10〜60倍低コストCursorがComposer 2.5をリリースし、コーディング性能が大幅に向上1タスク約0.07ドルで60点超えエージェント中最安値を実現コスト重視の開発環境に最適な選択肢として活用できる
Artificial AnalysisCohereが、Command Aリリースから1年以上を経てオープンウェイトモデルCommand A+を発表CohereのCommand A+がリリースされ、性能評価で中堅クラスに位置づけ幻覚(誤情報生成)が最も少なく、速度も281トークン/秒と高速科学的推論とコーディングは苦手で、用途を選んで活用すべき