こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、Anthropicから登場した新モデル「Claude 4」について触れます。

これまでClaude 3.7シリーズが使われてきましたが、新しくClaude 4が登場しました。このポッドキャストを聞いている方はChatGPTを使っている人が多いと思いますが、Claude 4は無料プランでも試せるので、誰でもすぐに体験できます。

この記事で解説するポイントは主に次の3つです。

  1. Claude 4のニュース
  2. Claude 4と他モデルの比較
  3. エージェント的なタスクの実行環境

Claude 4のニュース

先週、Anthropicから新しくClaude 4 OpusとClaude 4 Sonnetという2つのモデルがリリースされました。OpusとSonnetという言葉が出てきたので、いったん整理します。

Claudeは、Anthropicという会社が公開しているAIモデルです。ちなみにAnthropicのCEOは、元OpenAIの上級メンバーだった方です。Claudeには3つのモデルがあり、上から順にOpus・Sonnet・Haikuとなっています。Opusが最上位モデル、Haikuが最軽量モデルです。Haikuはその名のとおり、日本の俳句から名前を取っているそうです。

今回公開されたのは、最上位のClaude 4 Opusと、真ん中のClaude 4 Sonnetです。公式の説明を引用します。

Claude Opus 4は、複雑で長時間実行されるタスクやエージェントワークフローにおいて持続的なパフォーマンスを発揮する、世界最高峰のコーディングモデルです。

Claude Sonnet 4はClaude Sonnet 3.7の大幅なアップグレードであり、優れたコーディングと推論機能を提供しながら、ユーザーの指示への応答性をさらに向上させます。

以前のClaude 3.7シリーズよりアップグレードし、優れたコーディング性能や推論能力を発揮するとのことです。特に興味深いのが、Opusの説明にある「複雑で長時間実行されるタスクやエージェントワークフローにおいて持続的なパフォーマンスを発揮する」という点です。自律的にAIが考えて動く、AIエージェントに寄せてきているのがうかがえます。

実際、Anthropicは面白い実験をしています。Claude 4 Opusにゲームのポケモンを24時間続けてプレイさせ、同時に攻略ガイドを作成させるというタスクを成功させたそうです。以前の連続プレイ時間は45分くらいが限界だったらしいので、24時間というのは大きな進歩です。

これはゲームに限った話ではありません。たとえば楽天の事例では、Claude 4 Opusを使って7時間の自律的なコーディングに成功したと紹介されています。AIが7時間ぶっ続けでコーディングをする、というわけです。

少し想像してみてください。朝、家を出る前にAIへこう指示しておく。

今日のタスクを確認して優先順に並び替えておいて 午後からオンラインMTGを入れるから、関係者に通知とリンクを発行しておいて メールの返信ドラフトを作っておいて。あとで目を通すから

そして会社に着く頃には、AIが自律的にタスクをこなしている。そういう働き方ができるようになるのも、そう遠くないと思います。

なお、Claude 4 Sonnetは無料プランで試せます。最上位のOpusは有料プランからの利用です。Claudeのチャット画面にアクセスすれば、誰でもClaude 4を試せます。Claudeについては公式サイトも参考にしてみてください。

Claude 4と他モデルの比較

ここからは、Claude 4をChatGPTやGeminiと比較したレポートです。各社の現時点での最上位モデル、すなわちAnthropicのClaude 4 Opus、OpenAIのo3、Gemini 2.5 Proで比較しました。

メール作成

まずメール作成です。このポッドキャストに広告代理店から営業メールが届く、という設定で各AIに下書きを作らせ、どれが良かったかを見ました。完全に私の主観ですが、結果は次のとおりです。

  1. Claude 4 Opus
  2. Gemini 2.5 Pro
  3. ChatGPT(o3)

1位はある程度予想していました。メール作成や文書作成はClaudeが強いと以前から言われているからです。意外だったのは2位のGeminiで、メール本文だけでなく「こういう文面を入れると相手に好印象を与えますよ」といった提案までしてくれたのが好印象でした。これはOpusやo3には見られなかった挙動です。

o3が振るわなかった理由は、「メールの下書きを作って」と言っているのに、マークダウンの見出しを入れるなど、メールというよりドキュメントのようなテキストを作ってしまったことです。メールで見出しはあまり使いませんよね。これがGPT-4.1や4oなら、また違った結果になったかもしれません。

文章校正

次は文章校正、つまり誤字脱字などを見つけるタスクです。これは幅広い業種に共通するので、どのモデルが強いか把握しておくのがおすすめです。結果は、

  • 同率1位:o3、Gemini 2.5 Pro
  • 最下位:Claude 4 Opus

でした。Claudeは文章作成は強いのに、文章校正は弱い、という意外な結果です。

コーディング

コーディングは、プログラミング言語によって変わるので一概には言えませんが、私がテストした感じでは、Gemini 2.5 Pro、Claude 4 Opus、o3の順でした。正直ここは甲乙つけがたいのですが、Geminiが生成したコードは比較的エラーが起きにくい印象でした。

エージェント的なタスク

最後は、エージェント的な振る舞いで使いやすいモデルはどれか、という比較です。

VS CodeというコードエディターにはAgent Modeがあり、AIにファイル作成やブラウザ操作、外部ツール連携などをさせられます。これはMCP(モデルコンテキストプロトコル)という仕組みを使っています。モデルの都合上、ここではClaude 4 Sonnet、Gemini 2.5 Pro、GPT-4.1で比較しました。

結論を言うと、Claude 4が良かったです。Anthropicが「長時間実行されるタスクや複雑なタスクに強い」と説明していたとおりでした。具体的には、ChatGPTやGeminiが詰まってしまう場面でも、Claude 4はやり遂げてくれます。

私はToDoistというタスク管理アプリをMCPで連携し、AIが読み込めるようにしています。「今日のタスクの中で〇〇というタスクをこう処理して」と指示すると、特にタスクが複数になったとき、ChatGPTやGeminiは途中で詰まることがあります。3つ処理すべきタスクのうち1つ終えると満足してしまって止まる、といった具合です。毎回ではありませんが、たびたび起こります。Claude 4ではそうしたことが少なく、複数のタスクをしっかり処理してくれました。ポケモンを24時間プレイしたように、長時間のタスクもこなしてくれそうな手応えがあります。

このように、エージェント的な振る舞いではClaude 4に軍配が上がりました。エージェントそのものについてはAIコーディングエージェントとは?もあわせて読んでみてください。

総括:タスクに応じて使い分ける

比較を総括すると、Claude 4は確かに高性能なモデルです。なんといっても現状で最新ですからね。ただ、あらゆるタスクでClaude 4が一番だったわけではありません。性能が良いタスクもあれば、精度が悪いタスクもありました。

ここから言えるのは、タスクに応じてモデルを使い分ける戦略が良い、ということです。特にClaude 4 Sonnetは無料で使えるので、1社に限定する必要はありません。精度が欲しいタスクでは、その時点で一番良い結果を出すモデルを使う。一見面倒ですが、巡り巡って業務効率化につながります。

では、どのタスクでどのモデルが良いかをどう把握するか。一番の近道は、自分で実験してみることです。同じ「メール作成」でも、人によってタスクの中身は全然違います。自分が日々AIにお願いしているタスクで複数モデルを比較すると、「このタスクならこのモデル」というのが見えてきます。特に文章校正やファクトチェックは、複数のAIの視点で実行させると精度が高まります。これはディープリサーチの比較について書いたChatGPTのDeep Researchが無料化、AI各社のディープリサーチを比較とも通じる考え方です。

ちなみに、Claudeの開発元Anthropicは絶好調のようです。今年3月上旬に年間換算収益14億ドルを突破し、わずか数週間後の4月には20億ドルに到達したそうです。成長の要は、以前公開されたClaude 3.7 Sonnetの推論モデルとのこと。Claudeはチャット画面で使う人はまだそれほど多くありませんが、API経由でコーディングのようなタスクに使うユーザーが多いです。よりエージェント的な使い方に適したClaude 4の登場で、利用者はさらに増えていきそうです。

まとめ

最後に、今回のポイントをまとめます。

  1. Anthropicから新モデル、Claude 4 OpusとClaude 4 Sonnetが公開された
  2. Claude 4 Sonnetは無料プランのユーザーでも使える
  3. 私の比較では、文章作成やエージェント的な振る舞いで強みを発揮した。一方、文章校正は弱かった。各AIの長所を活かせるよう、タスクに応じて使い分けるのがおすすめ