MiniMax M2.7:知っておくべきすべてのことMiniMaxがM2.5の1ヶ月後に新モデルM2.7をリリースGLM-5と同等の性能をGLM-5比3分の1以下のコストで実現コスパ重視のAPI利用者にとって有力な選択肢になる2026-03-26Artificial Analysis
MiMo-V2-Pro: 知っておくべきすべてのことXiaomiがMiMo-V2-Proを公開、知能指数49を記録コスト効率が高く、幻覚率30%と同クラスモデルより精度が高いAPIのみ提供で、低コストかつ高精度なモデルの選択肢として有望2026-03-24Artificial Analysis
NVIDIA Nemotron 3 VoiceChat: 会話的ダイナミクスと音声推論の比較における、オープンウェイト領域の最先端NVIDIAの音声会話モデルNemotron 3 VoiceChatを公開会話の自然さと推論力の両方でトップ3入りする唯一のオープンモデル商用モデルとの差は大きいが、オープンな選択肢として活用できる2026-03-17Artificial Analysis
NVIDIA Nemotron 3 Super:オープンで効率的なインテリジェンスの新たなリーダーNVIDIAが新型AIモデルNemotron 3 Superを公開しました。特殊な構造により、高い知能を保ちながら高速に動作します。開発手法が公開されており、文書の解析やコード作成を効率化します。2026-03-12Artificial Analysis
Qwen3.5 小型モデル:知っておくべきことのすべてアリババがQwen3.5の小型AIモデル4種類を新たに公開した。100億規模以下のモデルで世界最高レベルの知能と推論性能を持つ。高度な推論や画像認識をスマホなどの身近な端末で利用できる。2026-03-06Artificial Analysis
Gemini 3.1 Pro プレビュー:新たなAIリーダーGemini 3.1 Pro Previewは、AI性能評価指標でClaude Opus 4.6を上回り、リーダーとなりました。推論、知識、コーディング能力が向上し、誤った回答(ハルシネーション)が大幅に減少しました。費用対効果が高く、特に複雑な課題において、Gemini 3.1 Pro Previewは活用価値があります。2026-02-20Artificial Analysis
Gemini 3.1 Pro プレビュー:知っておくべきことすべてGemini 3.1 Pro Previewは、AI評価指標でClaude Opus 4.6を上回り、AI性能でGoogleが再びリーダーになった。Gemini 3.1 Pro Previewは、推論、知識、コーディング能力が向上し、誤った情報を生成する頻度が減少している。Gemini 3.1 Pro Previewは、競合モデルよりコストが安く、特にコーディングと知識の分野で活用価値が高い。2026-02-20Artificial Analysis
Sonnet 4.6 - 知っておくべきことすべてClaude Sonnet 4.6は、AI性能指標でGPT-5.2と同等、Opus 4.6に次ぐ2位となった。Sonnet 4.6は、特にエージェント関連のタスクでOpus 4.6を上回り、コストパフォーマンスに優れる。Sonnet 4.6はトークン消費量が以前より増加しているが、API等で利用可能で、実用性の高いモデル。2026-02-19Artificial Analysis
AA-WER v2.0:音声認識精度のベンチマークAA-WER v2.0は、音声認識(STT)の精度を測る指標を改善したもので、特に音声エージェント向けの新しいデータセット「AA-AgentTalk」が含まれる。新しいデータセットと既存データの修正により、より現実的な音声でSTTモデルを評価し、データ汚染のリスクを減らすことに重点を置いている。この指標は、開発者が適切なSTTモデルを選び、AI研究者がモデルの性能を理解することで、音声AI技術の向上に役立つ。2026-02-18Artificial Analysis
Claude Sonnet 4.6 - GDPval-AAで新たなリーダーにClaude Sonnet 4.6が、知識仕事の自動化テスト「GDPval-AA」でAnthropic Opus 4.6をわずかに上回る結果。Sonnet 4.6は前モデルよりトークン使用量とコストが増加したが、性能は大幅に向上した。GDPval-AAのテスト結果は、モデルが現実の仕事でどれだけ活躍できるかの指標となる。2026-02-18Artificial Analysis
Qwen3.5-397B-A17B:知っておくべき全てのことAlibabaは、新しい言語モデル「Qwen3.5-397B-A17B」をリリースした。このモデルは、テキストと画像の両方を扱え、以前のモデルより性能が向上した。読者は、性能向上とコスト効率の良い「Qwen3.5」を活用できる。2026-02-18Artificial Analysis
MiniMax-M2.5:知っておくべき全てのことMiniMax-M2.5は、MiniMax-M2.1から性能が向上したモデルである。エージェント能力は向上したが、誤った情報を生成する率が高くなった。MiniMax-M2.5はAPIで利用でき、トークン効率が良いモデルの一つである。2026-02-14Artificial Analysis
GLM-5 - 知っておくべき全てのことGLM-5は新しいオープンウェイトモデルで、性能評価でGLM-4.7を上回った。GLM-5は経済的価値の高い作業で高い評価を得て、幻覚の抑制も改善された。読者は、Z AIのAPIや他のAPIを通じてGLM-5を活用できる。2026-02-12Artificial Analysis
Opus 4.6:知っておくべきすべてClaude Opus 4.6が、10の評価項目で構成されるAI指標で1位を獲得した。Opus 4.6は、特にエージェント機能、コーディング、科学的推論で優れる。開発者は、新しい「適応的思考」モードでモデルの思考力を調整し、長文処理を活用できる。2026-02-07Artificial Analysis
Opus 4.6が、エージェントによる現実世界の知識タスクで首位に立つClaude Opus 4.6は、知識仕事の性能を測るGDPval-AAでGPT-5.2(xhigh)を150ポイント上回るElo 1606を達成。Claude Opus 4.6は前モデルよりトークン使用量が増加したが、GPT-5.2(xhigh)よりは少なく、コストは最も高い。読者は、Claude Opus 4.6の視覚理解力や、より洗練されたアウトプットの例から、その価値を理解できる。2026-02-06Artificial Analysis