Artificial Analysis

AIの最新動向を毎日お届け。要点だけをシンプルに。

→ 注目トピックはこちら

[お知らせ] iOS版をリリースしました🎉

32B未満のオープンウェイト

  • Qwen3.5 27BとGemma 4 31BがGPT-5レベルの性能を達成
  • 推論能力は高いが、事実知識の正確さではGPT-5に大きく劣る
  • MacBookでも動作可能で、個人・小規模環境でも高性能AIを使える

Artificial Analysisの新しいデザイン

  • AIベンチマークサイト「Artificial Analysis」がブランドを刷新
  • 400以上のモデルと50以上の実行環境を評価する規模に成長
  • モデル選定や開発の参考にできる独立系情報源として活用できる

Gemini 3.1 Pro プレビュー:新たなAIリーダー

  • Gemini 3.1 Pro Previewは、AI性能評価指標でClaude Opus 4.6を上回り、リーダーとなりました。
  • 推論、知識、コーディング能力が向上し、誤った回答(ハルシネーション)が大幅に減少しました。
  • 費用対効果が高く、特に複雑な課題において、Gemini 3.1 Pro Previewは活用価値があります。

Gemini 3.1 Pro プレビュー:知っておくべきことすべて

  • Gemini 3.1 Pro Previewは、AI評価指標でClaude Opus 4.6を上回り、AI性能でGoogleが再びリーダーになった。
  • Gemini 3.1 Pro Previewは、推論、知識、コーディング能力が向上し、誤った情報を生成する頻度が減少している。
  • Gemini 3.1 Pro Previewは、競合モデルよりコストが安く、特にコーディングと知識の分野で活用価値が高い。

Sonnet 4.6 - 知っておくべきことすべて

  • Claude Sonnet 4.6は、AI性能指標でGPT-5.2と同等、Opus 4.6に次ぐ2位となった。
  • Sonnet 4.6は、特にエージェント関連のタスクでOpus 4.6を上回り、コストパフォーマンスに優れる。
  • Sonnet 4.6はトークン消費量が以前より増加しているが、API等で利用可能で、実用性の高いモデル。