こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、新しくリリースされたAIモデル「Grok 4」について触れます。
Grok 4は、イーロン・マスク率いるxAIという会社が開発・公開したモデルです。日本ではChatGPT、Gemini、Claudeが有名ですが、このGrokもチェックしておきたいAIだと思います。この記事では、主に次の3つのポイントを解説します。
- Grok 4の概要
- Grok 4と他のAIモデルの比較(ChatGPTのo3、GoogleのGemini 2.5 Proと比較した結果)
- Grokの今後の展開
Grok 4の概要
まず「そもそもGrokって何?」という方のために、概要から説明します。
イーロン・マスクは、テスラやX(旧Twitter)など複数の会社を経営していますが、その中の一つにxAIというAI企業があります。そこが開発しているAIモデルがGrokです。直近までGrok 3というモデルでしたが、今回バージョンアップしてGrok 4になりました。Grok 3が今年2月末に出てから約5か月での新バージョンなので、アップデートのスパンもかなり早いですね。
xAIの発表によると、Grok 4はベンチマークでChatGPTやGeminiなど他社モデルを上回る性能を出しているとされています。自社発表なので差し引いて考える必要はありますが、具体的にはChatGPTのo3、GoogleのGemini 2.5 Proよりも良い成績を出しているそうです。イーロン・マスクは「あらゆる分野で、ほぼ全ての大学院生より賢い」とまで主張しています。あわせて音声会話機能も強化されました。ChatGPTやGeminiにあるようなAIとの音声会話が、Grokのアプリ版からも試せます。発表の詳細はxAIの公式アナウンスにまとまっています。
Grok 4の使い方
Grok 4を使うには、いくつかの経路がありますが、どれも料金は高めです。
- X(旧Twitter)から使う場合: 月額6,080円のプレミアムプラスに加入が必要
- Grok単体のサイトから使う場合: 月額30ドル(現在のレートで約4,400円)のスーパーGrokプランに加入が必要
- さらに上位の月額300ドル(約4万4,000円)のプランに加入すると、より高性能なGrok 4 Heavyが使える
ChatGPTの有料プランが20ドルなので、それと比べるとやはり割高です。
「とりあえず試してみたい」という方には、OpenRouterというプラットフォーム経由での利用をおすすめします。OpenRouterは、一つのAPIキーから複数のモデルを使えるサービスです。本来はChatGPTならChatGPT、GeminiならGeminiとモデルごとにAPIキーを発行する必要がありますが、OpenRouterならこれ一つで色々なモデルを使えます。Grokも含まれており、リリースされたばかりのGrok 4も早速使えるようになっています。
つまり、月額プランに加入しなくても、OpenRouterを使えば従量課金でGrok 4を試せるわけです。手順は3ステップです。
- GoogleログインなどでOpenRouterにログインする
- クレジットカードを登録して、使う分だけお金をチャージする
- Grok 4のモデルを選択してチャットを利用する
1ドルほどチャージしておけば、けっこうテストできます。チャット画面からそのまま試せる手軽さがメリットです。なお、公式からGrok 4のAPIも公開されています。OpenRouterのような従量課金の仕組みはローカルLLMを含むモデル比較にも便利なので、覚えておくと役立ちます。
他モデルとの比較
実際に私もGrok 4を試してみました。ここからは、Grok 4・ChatGPTのo3・Gemini 2.5 Proを同じプロンプトで比較した結果を紹介します。比較したのは次の5つのタスクで、すべて日本語のプロンプトで行いました。
- コーディングエラーの解決
- Chrome拡張機能の開発
- 文章校正
- 情報収集
- メール作成
個人的には、Grokは日本語のタスクがあまり得意ではないだろうと思っていました。ですが、中にはChatGPTやGeminiより良いと感じる場面もありました。
コーディングエラーの解決
iOSアプリの開発中に遭遇したエラーを解決できるか試しました。結論を言うと、解決できたのはo3だけでした。Grok 4とGemini 2.5 Proは解決できませんでした。
もちろんこの結果だけで「コーディングのエラー解決はo3が一番強い」とは言えませんが、私の実験範囲ではo3が良かったです。
余談ですが、AIでタスクを進めていて壁にぶつかったら、チャットをリフレッシュしたりプロンプトを変えたりする前に、思い切ってAIモデルそのものを変えてみるのもおすすめです。私はメインでGemini 2.5 Proをコーディングに使っていますが、どうしても解決できないエラーをo3に渡したら一発で解けた、という経験があります。逆にo3で解けなかったものがGemini 2.5 Proであっさり解けることもあります。だからこそ、普段から複数のAIモデルを使う習慣をつけておくのがおすすめです。
Chrome拡張機能の開発
次はChrome拡張機能の開発です。結論を言うと、o3のみダメで、Grok 4とGemini 2.5 Proはクリアしました。
ついでにWebデザインのタスク(ダッシュボードのデザイン)も試し、ここには番外編としてClaude 4 Sonnetも加えました。精度が良かった順番は、Claude 4 Sonnet > Gemini 2.5 Pro > o3 > Grok 4でした。海外の掲示板ではGrok 4はコーディングが苦手と言われたりしますが、私が試した範囲ではそこまで劣っているとは思いませんでした。ただ、他のどのモデルより格段にコーディング能力が高い、というわけでもなかったです。
文章校正
これは今回の比較で一番意外な結果でした。Grok 4の日本語の文章校正のスコアが普通に高かったです。明らかな誤字脱字や表記揺れを含めた校正を指示したところ、o3やGemini 2.5 Proも高いのですが、Grok 4も負けていませんでした。
情報収集
インターネットの情報を参照して正確に情報収集できるかを試しました。Grok 4がリリースされて24時間以内に、Grok 4についてのレポートをまとめる指示を、同じプロンプトとタイミングでGrok 4・o3・Gemini 2.5 Proに出しました。
結果はGrok 4が一番精度が高かったです。o3やGemini 2.5 Proの回答にはいくつか間違いが含まれていました。出たばかりの情報なので整合が難しかったのかもしれません。Grok 4の回答にも間違いはありましたが、他2つより少なかったです。GrokはXの情報参照にも強いので、情報収集では活躍してくれるモデルだと思います。
メール作成
最後は日本語の営業メールの作成です。良かった順は、Grok 4 > Gemini 2.5 Pro > o3。これも意外な結果でした。Grok 4が作ったメールはかなり精度が高かったです。「Grokは日本語が弱い」という私の認識は改めないといけないなと思いました。
比較のまとめ:性能とコスト
以上5つのタスクで比較しました。全体の感想としては、「Grok 4、いいね」と思う場面もあるものの、他モデルに比べて著しく良いわけではなかった、というのが正直なところです。
そしてもう一つ抜けがちな視点がコストです。Grok 4のAPI料金は、o3やGemini 2.5 Proより高めです。
| モデル | 入力(100万トークンあたり) | 出力(100万トークンあたり) |
|---|---|---|
| Grok 4 | 3ドル | 15ドル |
| o3 | 2ドル | 8ドル |
| Gemini 2.5 Pro | 1.25ドル | 10ドル |
Grok 4は他より、ざっくり倍ほどの金額がかかります。「性能は良いけれど、コストも高いから当然」という見方もできるわけです。
Grokの今後の展開
最後に今後の展開です。Grok 4の発表とあわせて、コーディングに特化したGrok 4 Codeの存在も明かされました。まだ使えませんが、噂ではCursorで使えるという話も海外の掲示板に出ています。ゲーム分野での展開も語られていました。
さらにイーロン・マスク自身がXで、Grokをテスラ車に搭載すると発言しています。Grokが自動運転をするわけではなく、音声アシスタントとして搭載され、カーナビの音声操作などに使われるイメージです。人型ロボットのオプティマスにもGrokを載せていく、という話もポストされていました。
開発したAIを自分が持つ車やロボットに搭載していく。これは複数の事業を持つイーロン・マスクならではの動きで、OpenAIにはできない展開です。AIがパソコンの中から飛び出して、物理的な体を得ていく流れは、すでに始まっています。SpaceXという宇宙開発の会社も持っているので、AI・ロボット・宇宙とどう展開していくのか、他のAIモデルにはない楽しみがあります。
ユーザーとしては、選択肢は多い方がいいですよね。国内外でよく使われるChatGPT・Gemini・Claudeに、第4の選択肢としてGrokが加わってきました。Xでも、あるポストにGrokをリプライで呼び出して「このポストを説明して」と使う人を見かけます。着実にユーザーが増えているので、ぜひこの機会にチェックしてみてください。Claude側の比較が気になる方はClaude 4が登場、ChatGPTやGeminiと比較もあわせてどうぞ。
まとめ
最後に、今回のポイントをまとめます。
- xAIからGrok 4がリリースされた。xAI発表のベンチマークではChatGPTのo3、GoogleのGemini 2.5 Proを上回る性能を出している
- 使うには高額な月額プランが必要だが、APIやOpenRouter経由なら従量課金で利用できる。試したいだけなら従量課金がおすすめ
- 5つのタスクでo3・Gemini 2.5 Proと比較した。すべてで上回ったわけではないが、日本語タスクでも精度の高い回答を出した。ただし利用コストは他より割高な点に留意したい