Opus 4.7: 知っておくべきすべてのことClaude Opus 4.7がAIベンチマークで首位タイを獲得実務的なエージェント作業で他社を上回り、幻覚も25ポイント減少同価格で性能向上しており、API等で今すぐ利用できる2026-04-18Artificial Analysis
32B未満のオープンウェイトQwen3.5 27BとGemma 4 31BがGPT-5レベルの性能を達成推論能力は高いが、事実知識の正確さではGPT-5に大きく劣るMacBookでも動作可能で、個人・小規模環境でも高性能AIを使える2026-04-14Artificial Analysis
Artificial Analysisの新しいデザインAIベンチマークサイト「Artificial Analysis」がブランドを刷新400以上のモデルと50以上の実行環境を評価する規模に成長モデル選定や開発の参考にできる独立系情報源として活用できる2026-04-10Artificial Analysis
Muse Spark: 知っておくべきすべてのことMetaがMuse Sparkをリリースし、知能指数52でトップ5入り推論や視覚認識が高水準で、トークン効率も優れているAPIは近日公開予定で、Meta AIやInstagram等にも統合される2026-04-09Artificial Analysis
Sarvam 105BとSarvam 30B:知っておくべきすべてのことインドがゼロから開発した大規模AIモデル「Sarvam 105B」と「Sarvam 30B」を公開Apache 2.0ライセンスで無料公開され、エージェント系タスクで一部競合を上回る米中以外の国産AIモデルの選択肢が増えつつある2026-04-03Artificial Analysis
MAI-Transcribe-1:知っておくべきすべてのこと音声文字起こしモデル「MAI-Transcribe-1」をリリース精度ランキング4位・処理速度は音声の69倍速で高速Azure Speechで公開プレビュー中、1000分あたり6ドルで利用可能2026-04-03Artificial Analysis
MiniMax M2.7:知っておくべきすべてのことMiniMaxがM2.5の1ヶ月後に新モデルM2.7をリリースGLM-5と同等の性能をGLM-5比3分の1以下のコストで実現コスパ重視のAPI利用者にとって有力な選択肢になる2026-03-26Artificial Analysis
MiMo-V2-Pro: 知っておくべきすべてのことXiaomiがMiMo-V2-Proを公開、知能指数49を記録コスト効率が高く、幻覚率30%と同クラスモデルより精度が高いAPIのみ提供で、低コストかつ高精度なモデルの選択肢として有望2026-03-24Artificial Analysis
NVIDIA Nemotron 3 VoiceChat: 会話的ダイナミクスと音声推論の比較における、オープンウェイト領域の最先端NVIDIAの音声会話モデルNemotron 3 VoiceChatを公開会話の自然さと推論力の両方でトップ3入りする唯一のオープンモデル商用モデルとの差は大きいが、オープンな選択肢として活用できる2026-03-17Artificial Analysis
NVIDIA Nemotron 3 Super:オープンで効率的なインテリジェンスの新たなリーダーNVIDIAが新型AIモデルNemotron 3 Superを公開しました。特殊な構造により、高い知能を保ちながら高速に動作します。開発手法が公開されており、文書の解析やコード作成を効率化します。2026-03-12Artificial Analysis
Qwen3.5 小型モデル:知っておくべきことのすべてアリババがQwen3.5の小型AIモデル4種類を新たに公開した。100億規模以下のモデルで世界最高レベルの知能と推論性能を持つ。高度な推論や画像認識をスマホなどの身近な端末で利用できる。2026-03-06Artificial Analysis
Gemini 3.1 Pro プレビュー:新たなAIリーダーGemini 3.1 Pro Previewは、AI性能評価指標でClaude Opus 4.6を上回り、リーダーとなりました。推論、知識、コーディング能力が向上し、誤った回答(ハルシネーション)が大幅に減少しました。費用対効果が高く、特に複雑な課題において、Gemini 3.1 Pro Previewは活用価値があります。2026-02-20Artificial Analysis
Gemini 3.1 Pro プレビュー:知っておくべきことすべてGemini 3.1 Pro Previewは、AI評価指標でClaude Opus 4.6を上回り、AI性能でGoogleが再びリーダーになった。Gemini 3.1 Pro Previewは、推論、知識、コーディング能力が向上し、誤った情報を生成する頻度が減少している。Gemini 3.1 Pro Previewは、競合モデルよりコストが安く、特にコーディングと知識の分野で活用価値が高い。2026-02-20Artificial Analysis
Sonnet 4.6 - 知っておくべきことすべてClaude Sonnet 4.6は、AI性能指標でGPT-5.2と同等、Opus 4.6に次ぐ2位となった。Sonnet 4.6は、特にエージェント関連のタスクでOpus 4.6を上回り、コストパフォーマンスに優れる。Sonnet 4.6はトークン消費量が以前より増加しているが、API等で利用可能で、実用性の高いモデル。2026-02-19Artificial Analysis
AA-WER v2.0:音声認識精度のベンチマークAA-WER v2.0は、音声認識(STT)の精度を測る指標を改善したもので、特に音声エージェント向けの新しいデータセット「AA-AgentTalk」が含まれる。新しいデータセットと既存データの修正により、より現実的な音声でSTTモデルを評価し、データ汚染のリスクを減らすことに重点を置いている。この指標は、開発者が適切なSTTモデルを選び、AI研究者がモデルの性能を理解することで、音声AI技術の向上に役立つ。2026-02-18Artificial Analysis
Claude Sonnet 4.6 - GDPval-AAで新たなリーダーにClaude Sonnet 4.6が、知識仕事の自動化テスト「GDPval-AA」でAnthropic Opus 4.6をわずかに上回る結果。Sonnet 4.6は前モデルよりトークン使用量とコストが増加したが、性能は大幅に向上した。GDPval-AAのテスト結果は、モデルが現実の仕事でどれだけ活躍できるかの指標となる。2026-02-18Artificial Analysis
Qwen3.5-397B-A17B:知っておくべき全てのことAlibabaは、新しい言語モデル「Qwen3.5-397B-A17B」をリリースした。このモデルは、テキストと画像の両方を扱え、以前のモデルより性能が向上した。読者は、性能向上とコスト効率の良い「Qwen3.5」を活用できる。2026-02-18Artificial Analysis
MiniMax-M2.5:知っておくべき全てのことMiniMax-M2.5は、MiniMax-M2.1から性能が向上したモデルである。エージェント能力は向上したが、誤った情報を生成する率が高くなった。MiniMax-M2.5はAPIで利用でき、トークン効率が良いモデルの一つである。2026-02-14Artificial Analysis
GLM-5 - 知っておくべき全てのことGLM-5は新しいオープンウェイトモデルで、性能評価でGLM-4.7を上回った。GLM-5は経済的価値の高い作業で高い評価を得て、幻覚の抑制も改善された。読者は、Z AIのAPIや他のAPIを通じてGLM-5を活用できる。2026-02-12Artificial Analysis
Opus 4.6:知っておくべきすべてClaude Opus 4.6が、10の評価項目で構成されるAI指標で1位を獲得した。Opus 4.6は、特にエージェント機能、コーディング、科学的推論で優れる。開発者は、新しい「適応的思考」モードでモデルの思考力を調整し、長文処理を活用できる。2026-02-07Artificial Analysis