こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、OpenAIが新しく公開した「GPT-5.4」について触れます。

先週、OpenAIは新モデルの公開やExcel向け機能の発表など、いろいろな動きを見せました。この記事では、直近のOpenAIのニュースで何が起きたのか、そして実際にGPT-5.4を触ってGeminiやClaudeと比較した検証結果をお伝えします。

この記事で解説するポイントは、主に次の3つです。

  1. 新しく公開されたGPT-5.4について
  2. GPT-5.4の検証結果について
  3. 最近のOpenAIの動向について

GPT-5.4のニュース

先週、OpenAIからGPT-5.4というモデルが発表されました。これまで使っていたGPT-5.3のバージョンが1つ上がった形です。

公式の説明からGPT-5.4の特徴を挙げると、次の通りです。

  • GPT-5.4 thinkingではWeb調査も強化されている
  • コンピュータ操作能力を備えた初の汎用モデルで、コンピュータを操作するタスクも高精度でこなす
  • これまでで最も効率的なリーズニングモデルで、GPT-5.2と比べて問題解決に使うトークン数を大幅に削減している

つまり、AIにタスクを与えて思考しながら回答を導くケースで、思考過程のトークン消費を効率化できているということです。また、スプレッドシートやスライド、ドキュメントの作成・編集能力も向上しているとのことで、ベンチマークの平均スコアはGPT-5.2の68.4%に対しGPT-5.4は87.5%に達したと報告されています。OpenAIが公開している比較資料を見ても、一見してGPT-5.4のほうが明らかに良い仕上がりだと分かります。

誰が使えるのか

GPT-5.4は現時点では有料プランのみで、プラス・チーム・プロプランで使えます。あとはAPI経由(プログラムからChatGPTを操作する仕組み)でも利用できます。ChatGPTの最上位プランProでは、さらに高性能なGPT-5.4 Proも使えます。Proプランは月額200ドル、現在のレートで月額3万1000円ほどなので、なかなか高いですよね。

有料プランに入っていないけれどGPT-5.4を触ってみたい、という人にはAPI経由での利用がおすすめです。月額制ではなく使った分だけの課金なので、ちょっとしたテストなら数円から数十円、100円いかないぐらいで済みます。やり方も簡単で、OpenAIのプラットフォームにアクセスしてクレジットカードを登録し、5ドルや10ドルをチャージして、チャット画面でモデルをGPT-5.4やGPT-5.4 Proに変更するだけです。GPT-5.4を使うためだけに月額数千円払う必要はなく、こちらのほうがコストを抑えられます。

ユーザーの評価

GPT-5.4がどう評価されているかを英語圏中心に調べたところ、印象としてはポジティブな評価が多かったです。特にエンジニアやコーディングのタスクで満足したという声が目立ちました。一方で、過剰に思考してしまう、生成が遅いというネガティブな意見もありました。

生成が遅いという点は、GPT-5.4からというより以前から指摘されている内容です。私もコーディングのタスクでは、ClaudeやGeminiに比べてChatGPTは遅いと感じることが多いです。ただ、一番求めているのは回答精度なので、ミスの少ない回答を導いてくれるなら、ここは許容範囲かなと思っています。

検証結果

私は、GPT-5.4、Gemini 3.1 Pro、Claude Sonnet 4.6で比較してみました。各モデルの基本的な立ち位置はGemini 3.1 Pro・Claude Sonnet 4.6・GPT-5.2を比較してみたでも整理しています。

まずはチャットでの1ターンタスク

最初に行ったのが、ワンターンのタスクの検証です。これはチャット上で人間が指示し、それに対してAIが回答するだけのタスクで、AIに自動で進めてもらうエージェント的なタスクではありません。

このとき、私には一つの仮説がありました。「チャット上の1ターンだけのタスクでは、GPT-5.4の性能はそんなに良くないだろう」というものです。というのも、GPT-5.4を評価していない人はチャットで指示するだけの使い方が多く、評価している人はAIエージェントのように自律的に思考を重ねるタスクで使っている人が多いように見えたからです。

結果、その仮説は当たりで、1ターンのタスクではGPT-5.4の強みをあまり発揮できませんでした。各タスクの結果は次の通りです。

  • ニュースのピックアップ:Claudeが一番精度が高く、ChatGPTとGeminiは同じ結果
  • 要約:GeminiとClaudeの評価が高く、ChatGPTは最低スコア。集約に集中しすぎて簡潔にしすぎている印象だった
  • 誤字脱字の発見:これもあまり良い結果ではなかった

要約に関しては、主観的に見てもGPT-5.4が最も悪かったです。SNSでも「GPT-5.4は創造性が求められるタスクではGeminiやClaudeに比べて弱い」という意見を見かけました。当初予想していた通り、チャットだけのタスクではGPT-5.4の性能を発揮しづらい、というのが正直な感想です。

次にAIエージェント的なタスク

続いて、AIエージェントのような振る舞いをさせて比較しました。

最初に行ったのがWebサイトの作成です。「アプリ開発の会社のホームページを作成してください」と指示し、ChatGPT・Claude・Geminiの3モデルで実施しました。エージェントがデザインの策定からファイル作成まで一貫して行います。スピードはGemini、Claude、ChatGPTの順で、やはりChatGPTはやや遅いと感じました。仕上がったデザインの良さは、Claude、Gemini、ChatGPTの順番でした。スライド作成などでもChatGPTは創造性が求められるタスクが苦手な印象があったので、ここは違和感がありません。

次に、既存アプリのプロジェクト全体を読み込ませて改善案を提案させるタスクです。「アプリの初回起動で画面がより速く表示されるよう、パフォーマンス改善の提案があれば教えてください」と各AIに質問しました。結果はChatGPTが一番精度が高かったです。デザイン系や1ターンのタスクでは振るわなかったGPT-5.4が、ここでは本領を発揮した感じでした。

面白い実験もしてみました。各AIに改善案をレポートとして提出させ、今度はそのレポートを各AIに読み込ませて、どの提案が一番良いかを評価させたのです。GPTが書いたレポートをClaudeやGeminiに評価させ、Claudeのレポートを他社に評価させる、という具合です。結果、全AIが「ChatGPTのレポートが一番良い」と評価しました。これは人間の私が見ても同じように感じました。

さらに、プロジェクト全体を読み込ませてセキュリティリスクを指摘させるタスクでも、ChatGPTが一番精度が高く、ClaudeやGeminiが漏らしていた視点を指摘してくれました。

最後に経路を変えて、プログラミングではなく画面操作のガイドをさせるタスクも試しました。新しくユーザーが触る画面の操作を、スクリーンショットを渡しながらガイドしてもらうものです。これに関してはClaudeが使いやすく、「痒いところに手が届く」という感覚でした。

結論:1ターンは苦手、エージェント的な使い方で本領発揮

いろいろなタスクで試した現時点の感想をまとめます。

GPT-5.4は、チャットのような1ターンのタスクや、デザイン系・創造性が求められるタスクでは実力を発揮しないと感じました。よく言えば指示に忠実、悪く言えば創造性に乏しい、という印象です。一方で、AIエージェント的な使い方、とりわけプログラミングのタスクでは進化を発揮します。プロジェクト全体を俯瞰したパフォーマンス改善提案やセキュリティリスクのチェックでは、ClaudeやGeminiより回答精度が高いと感じました。ただし、回答生成のスピードはClaudeやGeminiより劣ります。

私は普段、ClaudeをAIエージェント的に使っています。回答精度と生成速度のバランスが良いからです。ただClaudeは少し突っ走ってしまう傾向があり、誤りや漏れが出ることもあります。そこをGPT-5.4でじっくり検証して補う、という使い方が良さそうだと感じました。実際、Claudeで解決できなかったエラーをChatGPTに頼んだら解決できた、という経験は何度もあります。GPT-5.4になって、このアプローチがさらに強化されたように感じます。

普段のタスクはClaudeでサクサク進め、書類やコードを入念にチェックしたいここぞという場面でGPT-5.4を使う。たとえば1日の作業を終えてデスクを離れるときに「このプロジェクトを入念にチェックしておいて」とタスクを振っておけば、生成スピードの遅さは気になりません。寝る前にAIに仕事を振って、寝ている間に処理してもらう。こうしたエージェント的な使い方をすれば、スピードの問題は許容範囲です。なお、こうした使い方をするには、OpenAIのCodexのようなツールを使います。手元のパソコンのファイルをAIが作成・編集・削除できる、AIエージェントを常駐させるツールで、ClaudeならClaude Code、GeminiならGemini CLIが該当します。

ちなみに、AIにかかる費用は単なるサブスク料金ではなく、24時間仕事をお願いできる優秀なアシスタントを雇う費用、と捉えることもできます。Claudeの100ドルプランとChatGPTの上位プランを合わせて月額3万円ほどと考えると高く感じますが、プログラミングも資料作りも情報調査も24時間こなせるアシスタントだと思えば、見方は変わってきます。

気付き:比較テストのやり方も変わっていく

今回の比較で感じたのは、AI各社の新モデルがAIエージェント的な振る舞いを前提に設計されているため、従来のようなチャット上の1ターンタスクの比較では本来のポテンシャルを測りにくくなってきている、という点です。今後は、チャットの比較ではなくエージェント的なタスクで比較するほうへシフトしていく必要があると感じました。1ターンの比較に比べてコストはかかりますが、そこは必要経費と割り切るしかなさそうです。

その他のニュース

最後に、GPT-5.4以外の細かいニュースにも触れておきます。

ひとつがChatGPT for Excelです。その名の通りChatGPTでExcelを操作する機能で、自然な会話からExcelを作成・編集できます。現時点ではアメリカ・カナダ・オーストラリアの有料プランユーザーにベータ版として提供されており、いずれ日本にも来ると思います。

もうひとつがCodex Securityです。システムの脆弱性の発見や検証を行うAIエージェントで、OpenAIは「アプリケーションセキュリティエージェント」と紹介しています。AIを使ってコードを書くとセキュリティが心配になることがありますよね。そうしたときに使えそうです。Codex Web経由でPro・Enterprise・Business・Edu向けにリサーチプレビューが展開され、来月には無料で利用できるとのことです。バイブコーディングでプログラムを書いている人は、ぜひチェックしてみてください。

まとめ

最後に、今回のポイントをまとめます。

  1. 最新モデルGPT-5.4が公開された。有料プランのみ利用できる
  2. チャットのような1ターンのタスクや創造性を求められるタスクでは、強みを発揮しづらい
  3. 一方で、コーディングのタスクでは強みを発揮する。パフォーマンス改善の提案やセキュリティリスクの調査では、他社モデルより高い精度で回答してくれた

新しいモデルが出るたびに得意・不得意は変わります。引き続き、実タスクでの比較を続けていきたいと思います。