Grok 4がリリース、ChatGPT・Geminiと実際に比較してみた

こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、新しくリリースされたAIモデル「Grok 4」について触れます。

Grok 4は、イーロン・マスク率いるxAIという会社が開発・公開したモデルです。日本ではChatGPT、Gemini、Claudeが有名ですが、このGrokもチェックしておきたいAIだと思います。この記事では、主に次の3つのポイントを解説します。

Grok 4の概要
Grok 4と他のAIモデルの比較（ChatGPTのo3、GoogleのGemini 2.5 Proと比較した結果）
Grokの今後の展開

Grok 4の概要

まず「そもそもGrokって何?」という方のために、概要から説明します。

イーロン・マスクは、テスラやX(旧Twitter)など複数の会社を経営していますが、その中の一つにxAIというAI企業があります。そこが開発しているAIモデルがGrokです。直近までGrok 3というモデルでしたが、今回バージョンアップしてGrok 4になりました。Grok 3が今年2月末に出てから約5か月での新バージョンなので、アップデートのスパンもかなり早いですね。

xAIの発表によると、Grok 4はベンチマークでChatGPTやGeminiなど他社モデルを上回る性能を出しているとされています。自社発表なので差し引いて考える必要はありますが、具体的にはChatGPTのo3、GoogleのGemini 2.5 Proよりも良い成績を出しているそうです。イーロン・マスクは「あらゆる分野で、ほぼ全ての大学院生より賢い」とまで主張しています。あわせて音声会話機能も強化されました。ChatGPTやGeminiにあるようなAIとの音声会話が、Grokのアプリ版からも試せます。発表の詳細はxAIの公式アナウンスにまとまっています。

Grok 4の使い方

Grok 4を使うには、いくつかの経路がありますが、どれも料金は高めです。

X(旧Twitter)から使う場合: 月額6,080円のプレミアムプラスに加入が必要
Grok単体のサイトから使う場合: 月額30ドル(現在のレートで約4,400円)のスーパーGrokプランに加入が必要
さらに上位の月額300ドル(約4万4,000円)のプランに加入すると、より高性能なGrok 4 Heavyが使える

ChatGPTの有料プランが20ドルなので、それと比べるとやはり割高です。

「とりあえず試してみたい」という方には、OpenRouterというプラットフォーム経由での利用をおすすめします。OpenRouterは、一つのAPIキーから複数のモデルを使えるサービスです。本来はChatGPTならChatGPT、GeminiならGeminiとモデルごとにAPIキーを発行する必要がありますが、OpenRouterならこれ一つで色々なモデルを使えます。Grokも含まれており、リリースされたばかりのGrok 4も早速使えるようになっています。

つまり、月額プランに加入しなくても、OpenRouterを使えば従量課金でGrok 4を試せるわけです。手順は3ステップです。

GoogleログインなどでOpenRouterにログインする
クレジットカードを登録して、使う分だけお金をチャージする
Grok 4のモデルを選択してチャットを利用する

1ドルほどチャージしておけば、けっこうテストできます。チャット画面からそのまま試せる手軽さがメリットです。なお、公式からGrok 4のAPIも公開されています。OpenRouterのような従量課金の仕組みはローカルLLMを含むモデル比較にも便利なので、覚えておくと役立ちます。

他モデルとの比較

実際に私もGrok 4を試してみました。ここからは、Grok 4・ChatGPTのo3・Gemini 2.5 Proを同じプロンプトで比較した結果を紹介します。比較したのは次の5つのタスクで、すべて日本語のプロンプトで行いました。

コーディングエラーの解決
Chrome拡張機能の開発
文章校正
情報収集
メール作成

個人的には、Grokは日本語のタスクがあまり得意ではないだろうと思っていました。ですが、中にはChatGPTやGeminiより良いと感じる場面もありました。

コーディングエラーの解決

iOSアプリの開発中に遭遇したエラーを解決できるか試しました。結論を言うと、解決できたのはo3だけでした。Grok 4とGemini 2.5 Proは解決できませんでした。

もちろんこの結果だけで「コーディングのエラー解決はo3が一番強い」とは言えませんが、私の実験範囲ではo3が良かったです。

余談ですが、AIでタスクを進めていて壁にぶつかったら、チャットをリフレッシュしたりプロンプトを変えたりする前に、思い切ってAIモデルそのものを変えてみるのもおすすめです。私はメインでGemini 2.5 Proをコーディングに使っていますが、どうしても解決できないエラーをo3に渡したら一発で解けた、という経験があります。逆にo3で解けなかったものがGemini 2.5 Proであっさり解けることもあります。だからこそ、普段から複数のAIモデルを使う習慣をつけておくのがおすすめです。

Chrome拡張機能の開発

次はChrome拡張機能の開発です。結論を言うと、o3のみダメで、Grok 4とGemini 2.5 Proはクリアしました。

ついでにWebデザインのタスク(ダッシュボードのデザイン)も試し、ここには番外編としてClaude 4 Sonnetも加えました。精度が良かった順番は、Claude 4 Sonnet > Gemini 2.5 Pro > o3 > Grok 4でした。海外の掲示板ではGrok 4はコーディングが苦手と言われたりしますが、私が試した範囲ではそこまで劣っているとは思いませんでした。ただ、他のどのモデルより格段にコーディング能力が高い、というわけでもなかったです。

文章校正

これは今回の比較で一番意外な結果でした。Grok 4の日本語の文章校正のスコアが普通に高かったです。明らかな誤字脱字や表記揺れを含めた校正を指示したところ、o3やGemini 2.5 Proも高いのですが、Grok 4も負けていませんでした。

情報収集

インターネットの情報を参照して正確に情報収集できるかを試しました。Grok 4がリリースされて24時間以内に、Grok 4についてのレポートをまとめる指示を、同じプロンプトとタイミングでGrok 4・o3・Gemini 2.5 Proに出しました。

結果はGrok 4が一番精度が高かったです。o3やGemini 2.5 Proの回答にはいくつか間違いが含まれていました。出たばかりの情報なので整合が難しかったのかもしれません。Grok 4の回答にも間違いはありましたが、他2つより少なかったです。GrokはXの情報参照にも強いので、情報収集では活躍してくれるモデルだと思います。

メール作成

最後は日本語の営業メールの作成です。良かった順は、Grok 4 > Gemini 2.5 Pro > o3。これも意外な結果でした。Grok 4が作ったメールはかなり精度が高かったです。「Grokは日本語が弱い」という私の認識は改めないといけないなと思いました。

比較のまとめ：性能とコスト

以上5つのタスクで比較しました。全体の感想としては、「Grok 4、いいね」と思う場面もあるものの、他モデルに比べて著しく良いわけではなかった、というのが正直なところです。

そしてもう一つ抜けがちな視点がコストです。Grok 4のAPI料金は、o3やGemini 2.5 Proより高めです。

モデル	入力(100万トークンあたり)	出力(100万トークンあたり)
Grok 4	3ドル	15ドル
o3	2ドル	8ドル
Gemini 2.5 Pro	1.25ドル	10ドル

Grok 4は他より、ざっくり倍ほどの金額がかかります。「性能は良いけれど、コストも高いから当然」という見方もできるわけです。

Grokの今後の展開

最後に今後の展開です。Grok 4の発表とあわせて、コーディングに特化したGrok 4 Codeの存在も明かされました。まだ使えませんが、噂ではCursorで使えるという話も海外の掲示板に出ています。ゲーム分野での展開も語られていました。

さらにイーロン・マスク自身がXで、Grokをテスラ車に搭載すると発言しています。Grokが自動運転をするわけではなく、音声アシスタントとして搭載され、カーナビの音声操作などに使われるイメージです。人型ロボットのオプティマスにもGrokを載せていく、という話もポストされていました。

開発したAIを自分が持つ車やロボットに搭載していく。これは複数の事業を持つイーロン・マスクならではの動きで、OpenAIにはできない展開です。AIがパソコンの中から飛び出して、物理的な体を得ていく流れは、すでに始まっています。SpaceXという宇宙開発の会社も持っているので、AI・ロボット・宇宙とどう展開していくのか、他のAIモデルにはない楽しみがあります。

ユーザーとしては、選択肢は多い方がいいですよね。国内外でよく使われるChatGPT・Gemini・Claudeに、第4の選択肢としてGrokが加わってきました。Xでも、あるポストにGrokをリプライで呼び出して「このポストを説明して」と使う人を見かけます。着実にユーザーが増えているので、ぜひこの機会にチェックしてみてください。Claude側の比較が気になる方はClaude 4が登場、ChatGPTやGeminiと比較もあわせてどうぞ。

まとめ

最後に、今回のポイントをまとめます。

xAIからGrok 4がリリースされた。xAI発表のベンチマークではChatGPTのo3、GoogleのGemini 2.5 Proを上回る性能を出している
使うには高額な月額プランが必要だが、APIやOpenRouter経由なら従量課金で利用できる。試したいだけなら従量課金がおすすめ
5つのタスクでo3・Gemini 2.5 Proと比較した。すべてで上回ったわけではないが、日本語タスクでも精度の高い回答を出した。ただし利用コストは他より割高な点に留意したい