こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、立て続けに登場した3つの新しいAIモデルを比較します。

ほんの1週間ほどの間に、OpenAIからGPT-5とgpt-oss、AnthropicからClaude Opus 4.1が発表されました。特にGPT-5はOpenAIの久々のメジャーアップデートということで、非常に注目を集めています。

この記事では、これら3モデルの概要を整理したうえで、私自身がコーディング・画像認識・スライド作成・営業メール・文章校正・デザインという6つのタスクで実際に比較した結果を共有します。話すポイントは次の3つです。

  1. OpenAIの最新モデル GPT-5 について
  2. 同じくOpenAIが公開したオープンウェイトモデル gpt-oss について
  3. Anthropicの最新モデル Claude Opus 4.1 について

GPT-5について

まずGPT-5から見ていきます。夏に登場すると噂されていましたが、思ったより早く発表されました。名前のとおり、これまで使ってきたGPT-4oやGPT-4.1の後継モデルです。

ありがたいことに、無料ユーザーも有料ユーザーも誰でも使えます。すでに触ってみた方も多いと思います。海外でも評価は割れていて、すごく良いというポジティブな声もあれば、期待したほどではないというネガティブな声もあります。

私もいろいろなタスクで使ってみましたが、まずシンプルに回答速度が速いと感じました。AIの回答速度は業務効率に直結するので、レスポンスが速いだけでも使い勝手は大きく変わります。

今回の発表で良かったのが、モデルの統一です。これまではGPT-4o、GPT-4.1、o3、o4-miniなど多くのモデルが乱立し、どれを使えばいいのか迷う場面が多くありました。GPT-5からはシンプルにGPT-5一本に統一されています。

さらにGPT-5には、質問に応じてAI側がモデルを切り替える機能が搭載されました。これまでは「この質問は複雑だから推論モデルを使おう」「これは簡単だから通常モデルでいい」と人間が切り替えていましたが、GPT-5からはシンキングモードを使うかどうかをAIが自動で判断してくれます。OpenAIは次のように説明しています。

GPT‑5 は、コーディング、数学、データ分析、科学など、より長い思考が求められる場面では、回答前に自動で推論を行い、最適な回答を導き出します。そのため、どのモデルを使うかを意識しなくても、常に丁寧で専門的レベルの回答を受け取れます。

もちろん、引き続き人間側でシンキングモードと通常モードを選ぶこともできます。プロンプトに「think hard」と入力すれば、意図的にシンキングモードで回答を生成させることも可能です。

性能面では、コーディング、文章作成、ヘルスケア関連の質問など、あらゆるタスクで以前のモデルより高度な回答ができるとされています。コンテキストウィンドウは40万トークン。これはAIの短期記憶のようなもので、どれだけ長い指示や会話を保持できるかを示す値です。Claude Opus 4.1が20万トークン、GoogleのGemini 2.5 Proが100万トークンなので、ちょうど2番手という立ち位置です。

価格面でも安く、API経由で使う場合の料金はGPT-4oやGPT-4.1よりも安く設定されています。精度が高くてコストも安いので、GPT-5を使わない選択肢はほぼないと言っていいと思います。公式によると、ハルシネーション(AIが誤った回答を出すこと)もかなり低減されているとのことです。

Claude Opus 4.1について

次はClaude Opus 4.1です。AnthropicというClaudeを開発している会社のモデルで、CEOは元OpenAIの上級メンバーであるダリオ・アモデイ氏です。

今回のモデルはClaude Opus 4のアップグレード版です。Anthropicは小さい順にHaiku、Sonnet、Opusという3つのモデルを展開していて、その最上位モデルが4から4.1に上がった形です。

Claude Opus 4.1が得意とするのは、基本的にコーディングを伴うエージェント系のタスクです。AnthropicはClaude Codeというプログラミングに特化したツールも出していて、やはりプログラミング系のタスクはClaudeが強いという印象があります。

利用できるのは有料プラン以上の方です。GPT-5と違って無料プランでは使えない点に注意してください。

gpt-ossについて

最後はgpt-ossです。これは個人的に驚いたニュースでした。gpt-ossは、OpenAIが公開したオープンウェイトの言語モデルです。設計図の一部が公開されていて、誰でも自分の環境にダウンロードして動かせます。発表されたのはgpt-oss-120bとgpt-oss-20bの2つです。

120bは個人でマシンを用意するのは難しいですが、20bの小さいモデルなら手元のパソコンにもインストールできます。OpenAIによると、120bはo4-mini、20bはo3-miniに匹敵する性能とのことです。

OpenAIはGPT-2まではモデルを公開していましたが、GPT-3以降は公開をやめ、「OpenAIなのにオープンじゃない」と言われることもありました。今回、久々にオープンウェイトモデルを投入してきた形です。

GPT-5があるのにわざわざ使う理由があるのか、と思うかもしれませんが、業務によってはgpt-ossが活躍します。たとえば金融機関や機密情報を扱う会社では、AIを使いたくても使えないケースがあります。そうした場合でも、自前でマシンさえ用意すればo4-miniやo3-mini級のモデルを、外部にデータを送信せずに動かせます。機密情報を扱うタスクはgpt-oss、それ以外はGPT-5、という使い分けができるわけです。ローカルでAIを動かす考え方についてはローカルLLMとは?も参考にしてください。

ただし、gpt-ossを使うにはマシンへのセッティングが必要で、ChatGPTのサイトにアクセスすればすぐ使えるGPT-5とはハードルが違う点には注意が必要です。

6つのタスクで比較してみた

この3モデルを、6つのタスクで実際に比較してみました。GPT-5とgpt-ossを同じ土俵で比べるのは本来フェアではないのですが、せっかくの機会なので一緒に並べてみます。

コーディング

まずはコーディング。具体的にはChrome拡張機能の開発で、少ない指示からこちらが求める機能を満たすコードを書けるかを見ました。結論として、Claude Opus 4.1だけが要件をクリアし、GPT-5とgpt-ossは実装できませんでした。やはりコーディングはClaudeが強いです。

画像認識からのエラー解決

次はiPhoneアプリのエラー解決です。エラー画面のスクリーンショットを渡して、解決方法を教えてもらうタスクで、GPT-5とClaude Opus 4.1を比較しました。これはGPT-5のほうが精度が良かったです。画像認識を絡めるとGPT-5に分があるのかもしれません。

スライド作成

スライドの中のテキストコンテンツを、お題どおりに、読み手にとって分かりやすく生成できるかを見ました。結果はClaude、GPT-5、gpt-ossの順。意外だったのは、gpt-ossでもなかなか良いコンテンツを生成してくれた点です。会社の機密情報を扱ったコンテンツ作成には、gpt-ossという選択肢もありかもしれません。

営業メール

営業メール作成では、どのモデルも精度の高い回答を生成してくれました。GPT-5とClaude Opus 4.1は甲乙つけがたく、gpt-ossも文面としては悪くないものの、上位2つには一歩譲るという印象です。今の最新モデルだと、メール作成については人間が書いたかAIが書いたか、ほぼ見分けがつかないレベルだと思います。

文章校正

文章の誤字脱字を指摘するタスクでは、GPT-5が最も精度が高かったです。これは従来どおりの結果で、文章校正はClaudeよりChatGPTのほうが得意だと感じます。ここでもgpt-ossが健闘しました。外部に送信できない文章の校正に、gpt-ossを使うのもありだと思います。

ちなみに、文章校正やアイデア出しのようなタスクは、1つのモデルだけを使うより複数のモデルを併用したほうが精度が上がります。今回GPT-5を使った校正でも、すべての間違いを拾えたわけではありませんでした。私がよくやるのは、同じプロンプトをChatGPTとGeminiの両方に投げてダブルチェックさせる方法です。Geminiも文章校正が得意なので、見落としを補い合えます。

デザイン

最後はデザイン系のタスクで、ダッシュボードのデザインとあるWebサービスの公式サイト作成を依頼しました。ここはClaudeのほうが精度が高かったです。コーディングやデザイン関連はやはりClaudeが強い、という鉄板の結果でした。

実際に試した正直な感想

6つのタスクを比較して感じたのは、GPT-5は確かに精度が良くなっているものの、かつてGPT-3からGPT-4に上がったときのような衝撃まではなかった、ということです。こちらの期待値が高すぎたのかもしれません。とはいえ、速度の改善と、より安いコストでの提供は、使う側として非常にありがたい変化です。

実は、Claude Opus 4.1はGPT-5に比べて約7〜10倍ほどコストが高いんですね。そう考えると、GPT-5のコストパフォーマンスはかなり良いと言えます。

そしてgpt-ossも、意外と精度が高いと感じました。マシンさえ用意すれば誰でも動かせるというのは大きなことで、機密情報の取り扱いやコスト面で可能性のあるモデルだと思います。

なお、AnthropicはClaude Opus 4.1の公開時に、次のような気になる発言もしています。

今後数週間のうちに、モデルに大幅な改良を加えたリリースを予定しています。

8月から9月あたりに、Claude 4.5あたりの新モデルを投入してくる可能性は大いにありそうです。Googleもまだ動きは見せていませんが、順当にいけばGemini 3のような新モデルを公開してくるでしょう。各社の競争はますます激しくなりそうです。

まとめ

最後に今回のポイントをまとめます。

  1. 一般的なタスクではGPT-5がおすすめ。無料ユーザーでも使えて高速に動作します
  2. コーディングのタスクにはClaude Opus 4.1がおすすめ。メール作成やスライド資料など文章作成にも活躍します
  3. 機密情報を扱い、外部にデータを送信したくないタスクでは、gpt-ossの使用も検討してみてください

gpt-ossは自分で環境構築するハードルが少し高いですが、その分セキュリティとコストの面で独自の強みがあります。手元でAIを動かす方法に興味がある方はローカルLLMの記事を、GPT-5をうまく使いこなすコツはGPT-5のプロンプト改善もあわせてご覧ください。