Gemini 3.1 Pro・Claude Sonnet 4.6・GPT-5.2を実タスクで比較してみた

矢野哲平2026-02-23

"chatgpt-ads"
"microsoft-copilot-compare"

こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、AI各社の最新モデルを実際のタスクで比較した結果について触れます。

先週、GoogleとAnthropicから新しいAIモデルが立て続けに発表されました。そこで、Gemini・Claude・ChatGPTの現時点での最新モデルを、私が普段の業務で使っているタスクで比較してみました。この記事を読むことで、現時点のAI各社のモデル事情をまとめてキャッチアップできると思います。

この記事で解説するポイントは、主に次の3つです。

新しくリリースされたGoogleのGemini 3.1 Pro
同じくリリースされたAnthropicのClaude Sonnet 4.6
これらのモデルを実際のタスクで比較検証した結果

Morning AI

AI専門のニュースアプリ。毎朝、世界のAIトレンドを日本語で。

4.7・App Store — 無料

iOS版

先週何が起きたか

ちょうど先週、GoogleとAnthropicから新しいモデルがリリースされました。GoogleはGemini 3.1 Pro、AnthropicはClaude Sonnet 4.6です。1週間のうちに2社が新モデルを発表したので、界隈が少しざわつきました。

嬉しいことに、これらの新モデルは無料プランの人も使えます。GeminiやClaudeのチャット画面を開けば、すぐに試せます。

現時点の各社モデルを整理

一旦、現時点のAI各社のモデルを整理します。

まずOpenAI（ChatGPT）はGPT-5.2です。厳密にはコーディングに特化したGPT-5.3 Codexも2月にリリースされていますが、一般的なチャットで使えるモデルはGPT-5.2です。

次にGoogleは先週、Gemini 3.1 Proを発表しました。Chatbot ArenaというAIの比較ランキングサイトでは、このGemini 3.1 Proが1位に輝いています。2位がAnthropicの最上位モデルClaude Opus 4.6、3位がGemini 3 Proという順です。かなり高性能なモデルで、Google公式の説明によると、ChatGPTやClaudeの最上位モデルに比べてコストが半分で済むとされています。ここでいうコストは、プログラムからこれらのモデルを操作したときのAPI料金を指します。

そしてAnthropicも同じく先週、Claude Sonnet 4.6をリリースしました。このモデルは100万トークンまで対応し、より長い会話や大量のテキストを処理できるようになりました。Anthropicは大きいモデル順にOpus・Sonnet・Haikuの3つを保有しており、今回はちょうど中間のSonnetが4.5から4.6にバージョンアップした形です。Geminiも3から3.1に上がっており、各社ともバージョンを細かく刻んでいる印象です。

整理すると、各社の現時点の最新モデルは次の通りです。

提供元	最新モデル
OpenAI（ChatGPT）	GPT-5.2
Google（Gemini）	Gemini 3.1 Pro
Anthropic（Claude）	Claude Sonnet 4.6

どのようなタスクで比較したか

これら3つのモデルを、複数のタスクで比較してみました。厳密にはモデルサイズの違いなどで完全に同条件とはいきませんが、この3つはAPIで操作した場合のコストがほぼ同じで、いずれも直近リリースのモデルということで比較対象としました。

世の中にはさまざまなベンチマークがありますが、今回は私が実際に業務で使っているタスクで比較しました。

ニュース記事から私の興味に沿ったタイトルをピックアップするタスク
ニュース記事を要約するタスク
誤字脱字の修正タスク
スライドを作成するタスク

比較結果

ピックアップ

まずは、私の興味の度合いをAIに情報として渡し、興味を示すであろうニュース記事をピックアップしてもらうタスクです。情報収集の場面でAIに取捨選択を任せたいときに役立ちます。

結論を言うと、GPT-5.2が一番精度が高く、GeminiとClaudeは同じスコアでした。ただし、その差も誤差の範囲でした。

要約

次は、英語のニュース記事を日本語の要約にまとめるタスクです。元の英語記事を私が読み込み、内容をうまく抽出してわかりやすく仕上げているかという観点で評価しました。各AIごとに5回ずつ要約を作らせて確認しています。

結論は、Gemini、Claude、ChatGPTの順番でした。GeminiとClaudeは僅差です。ChatGPTのGPT-5.2は要約に集中しすぎて、全体像がわかりづらくなっている印象を受けました。

誤字脱字

次は誤字脱字の修正タスクです。検知するだけでなく、テキストを正しい状態に書き直すところまで含めました。

結論は、ChatGPT、Claude、Geminiの順番でした。どのAIも誤字脱字は検知するのですが、GeminiとClaudeは書き直しの段階で関係ない箇所まで勝手に書き換えてしまう現象が確認されました。たとえば、もともと「2026年」と書いていたのに、修正後の文章で「2024年」になっている、といった具合です。各10回繰り返すとまれにこうしたミスが起こり、特にGeminiで多く見られました。ChatGPTでも確認されましたが、発生確率は最も低かったです。

スライドの作成

最後はスライド作成のタスクです。Web上で閲覧できるスライドを作ってもらいました。

結論は、Claude、Gemini、ChatGPTの順番でした。やはりClaudeはデザイン系のタスクが強いという印象で、この点は感覚的なズレもありませんでした。

総括：AIは複数使いがおすすめ

以上、4つのタスクで比較しました。整理すると次の通りです。

興味に沿ったニュースのピックアップ：GPT-5.2
英語記事の日本語要約：GeminiかClaude
誤字脱字の検知と書き直し：ChatGPT
スライド作成：Claude

結構ばらけましたね。このことからも、AIは複数使いがおすすめだと改めて思います。

海外のAIモデル比較ランキングや分析を見ても、評価はばらけている印象です。たとえばArtificial Analysisというサイトでは、Gemini 3.1 Pro Previewを「OpenAIとAnthropicの最先端モデルの半分以下のコストで動かせる」「10個の評価項目のうち6項目でトップ」と高く評価する一方で、「実世界のタスクに焦点を当てたベンチマークでは以前と同様トップではなく、Claude Sonnet 4.6やClaude Opus 4.6、GPT-5.2には依然として及ばない」とも述べています。

つまり、良いベンチマークもあればそうでないものもある、ということです。私の検証でも同じような印象を受けました。すべてのタスクで他を上回る唯一無二のモデルは、現状ないのだと思います。各モデルがそれぞれのタスクで得意・不得意を持っている。だからこそ、AIは複数使ったほうが良さそうです。

AIモデルの比較・評価のアプローチ

最後に、こうした比較・評価のアプローチについて少し補足します。

今回の比較は、手動でチャット画面に入力して行ったわけではありません。Claude Codeというプログラミングに特化したAIエージェントのツールを使い、AIとプログラムを組み合わせて比較作業を簡略化しました。ClaudeのツールについてはClaudeの魅力を語るでも詳しく触れています。

世の中にはプロンプトやモデルを比較できるツールがたくさんありますが、その選択肢のひとつとして、Claude CodeやCodex CLI、Gemini CLIを使ってみるのも面白いです。手動でチャット画面に入力してテストすると作業が大変になるので、AIエージェントとプログラムを組み合わせて比較作業を担当してもらう、という使い方ができます。

まとめ

最後に、今回のポイントをまとめます。

先週、GoogleからGemini 3.1 Pro、AnthropicからClaude Sonnet 4.6が発表された
比較ランキングサイトChatbot ArenaではGemini 3.1 Proが1位に輝いている
実際に複数タスクで比較したところ、Gemini 3.1 Proが全タスクで最優秀というわけではなかった。タスクによって順位は変わるので、特定のモデルに絞らず、タスクに応じて使い分けるのがおすすめ

今回の結果から、具体的には次のような使い分けがおすすめです。