OpenAI o3-proが公開、6つのタスクで試した正直な感想

矢野哲平2025-06-16

こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、OpenAIから公開された推論モデル「o3-pro」を実際に試した、正直な感想について触れます。

海外の掲示板を見ると「現時点で全AIの最高モデル」という評価もあります。ただ、AIモデルは市場の評価を参考にしつつも、やはり自分で触ってみないとわからない部分があります。そこで、6つのタスクでo3-proを試した正直なレビューをお届けします。

この記事で解説するポイントは、主に次の3つです。

OpenAI o3-proとは何なのか
6つのタスクで試した感想
同時に発表されたo3の値下げ

Morning AI

AI専門のニュースアプリ。毎朝、世界のAIトレンドを日本語で。

4.7・App Store — 無料

iOS版

OpenAI o3-proとは

o3-proは、OpenAIから発表された、現時点での同社の最新モデルです。OpenAIの評価を引用すると、次のようにあります。

専門家の評価では、レビュー担当者は一貫して OpenAI o3-pro を o3 よりも高く評価しており、科学、教育、プログラミング、データ分析、執筆などの主要な分野でパフォーマンスが向上していることが強調されています。

これまでChatGPTの最高モデルはo3でしたが、それをあらゆる分野で上回ってきている、というわけです。Web検索やファイルの分析、画像の推論、Pythonの実行、メモリを使ったパーソナライズな応答が可能で、いわば全部盛りです。特にWeb検索が使えるのは大きく、情報収集系のタスクで活躍してくれます。

ここで、OpenAIのモデルを整理しておきます。現時点でChatGPTには大きく分けて2種類のモデルがあります。

GPT系のモデル（GPT-4o、GPT-4.1など）：一般的なタスクに向いている
oが頭につく推論モデル（o1、o3など）：AIが試行を重ねて回答を導き出す

OpenAIのモデルの命名はわかりにくいと不評ですが、ひとまず「一般タスク向けのGPT系」と「頭にoがつく推論モデル」の2つがある、と覚えておけば大丈夫です。

o3-proは高い

o3-proを一言で言うと、現時点では「高い」です。

利用するにはProプランへの加入が必要で、これが月額約3万円。月額約3000円のPlusプランでは利用できません。

APIから使う場合も高額です。入力が100万トークンあたり20ドル、出力が100万トークンあたり80ドル。たとえばGoogleのGemini 2.5 Proは入力100万トークンあたり1.25ドル、出力100万トークンあたり10ドルなので、Geminiに比べると8倍から15倍ほどの金額になります。

もちろん性能が圧倒的に優れていれば、この価格差は許容範囲です。では実際にどれだけ違うのか。ここからレビューに入ります。

6つのタスクで試した感想

今回は、メールの作成、文章校正、プログラミング、マーケティング戦略、競合向けの戦略、画像からの情報抽出、という6つのタスクを試しました。

先に総評を言うと、確かに精度は高かったです。ただ、金額の面と、回答までの応答速度がネックでした。応答にものすごく時間がかかるんですね。

o3-proは、内部で思考を長く重ねてより精度の高い回答を導き出すモデルなので、時間がかかるのは仕様です。とはいえ、人がパソコンの前でAIとやり取りするタスクでは、応答速度はやはり重要になります。AIの自動化のように、人が画面の前で待たない用途なら問題になりませんが、対話的に使うには少し厳しいと感じました。

メール作成は微妙

まずメール作成。これは正直微妙でした。営業を想定したメールを作成したのですが、これを受け取って反応する人は少ないだろうな、という出来でした。メール作成なら、Claude 4のほうがおすすめです。

文章校正は精度が高い

次に文章校正。誤字脱字や誤りを発見するタスクです。これは時間こそかかったものの、精度は高かったです。さすが推論モデルの最高峰という印象でした。書類のチェックや、インターネットにもつながるのでファクトチェックを任せてもよいと思います。

プログラミングは微妙

次にプログラミング。これも正直微妙でした。私が試した範囲では、Gemini 2.5 Proのほうが精度が高かったです。

あるコードのタスクを試しました。一発出しでは他のAIがなかなか成功しないもので、唯一Gemini 2.5 Proだけが一発で成功しました。o3-proはダメでした。エラー箇所を指摘して修正を依頼しても、自信満々で修正後のコードを上げてきたものの、それでも動きませんでした。

マーケティング戦略は説得力がある

次にマーケティング戦略。仮のプロダクトを設定し、どう販売戦略を立てるかを考えてもらいました。これは結構説得力があり「そういうアプローチもあるか」と思わせてくれました。マーケティングや企画系のタスクは得意な印象です。

競合向けの戦略も説得力がある

その流れで、競合向けの戦略も考えてもらいました。まずDeep Researchで仮の競合を調査します。「〇〇という製品について、創業年・創業者・ビジネスモデル・使われている技術・市場の評価などを詳しく調査してください」と指示します。

そのリサーチレポートをそのままo3-proに渡し「この会社は弊社の競合です。この競合に勝てる戦略を考えてください」と依頼しました。出てきた戦略はかなり説得力がありました。戦略系のタスクは頼りになると思います。

画像からの情報抽出は詳細

最後に画像からの情報抽出。OCR的な使い方や、画像を説明させる使い方を試しました。これも精度が高かったです。

余談ですが、最近、名刺管理の自動化ツールを作りました。スマホで名刺を撮影すると、会社名・氏名・役職・住所・連絡先などを抽出して、そのままGoogleスプレッドシートに登録される、というものです。APIと自動化ツールを組み合わせれば簡単にできるので、AI自動化の入門プロジェクトにおすすめです。

ただ、画像認識のタスクは精度が高い一方で、o3-proはコストが高く、気軽に使えるかというとnoです。この用途なら、GPT-4.1のような安いモデルでも十分な性能があります。

総評

6つのタスクを試した結果、良いタスクもあれば、期待ほど精度が出ないタスクもありました。使っていきたい気持ちはあるものの、やはりコストと応答速度がネックです。現時点では、無理に3万円払ってまで使わなくてもいいかな、というのが正直なところです。

海外の掲示板でも意見は分かれていて「使ったけど、うーん」という人もいれば「最高」と評価する人もいます。タスクによって評価が変わるのだと思います。ある書き込みに「間違いなく史上最高のモデルだけど、多くの人はうまく使いこなせない」とあって、妙に納得してしまいました。

同時に発表されたo3の値下げ

ここからは、o3-proと同時に発表された「o3の値下げ」についてです。個人的には、こちらのニュースのほうが嬉しかったです。

oがつくモデルは基本的に高額なのですが、Proではない通常のo3のAPI価格が安くなりました。具体的には、Claude 4 SonnetやGemini 2.5 Proよりも若干安くなるくらいまで下がっています。

推論系のモデルが安くなると、APIで自動化するときに値段を気にせず組み込めるようになります。つまり、より精度の高いモデルをAI自動化のワークフローに導入しやすくなる、ということです。

近年は他のモデルも安く提供されていて、特にGoogleのGeminiは低価格です。自社でAIを使って業務効率化をする際のコストも下がってきているので、これは私たちユーザーにとって嬉しいニュースだと思います。なお、コストやセキュリティを重視するなら、ローカルLLMという選択肢も合わせて検討する価値があります。