ChatGPT agentがPlusユーザーに解禁、できること・できないこと

こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、OpenAIが公開したAIエージェント「ChatGPT agent」について触れます。

ちょうど先週、これまで月額約3万円のProプランでしか使えなかったChatGPT agentが、約3,000円のPlusプランからも利用できるようになりました。この記事では、実際に試した感想とあわせて、「そもそもAIエージェントとは何なのか」という点も解説します。ポイントは次の3つです。

AIエージェントとは何か
ChatGPT agentの概要
ChatGPT agentを使ってみた感想

AIエージェントとは

本題の前に、そもそもAIエージェントとは何かを軽く説明します。

昨年後半あたりからAIエージェントという言葉をよく見かけるようになり、2025年はAIエージェント元年とも呼ばれています。AIエージェントを簡単に言うと、自律的に思考して各種ツールにアクセスしながらタスクをこなしていくAIです。

普段私たちがAIを使うときは、人間が主導して「〇〇をしてください」と詳細に指示を出しますよね。一方でAIエージェントは、人間の指示から意図を汲み取り、自分で計画を立ててタスクを実行します。場合によっては各種ツールにアクセスしながら進めます。

身近な例で言うと、調査系のAIエージェントであるDeep Research。少ない調査指示から、AIが自律的に調査計画を立てて調査を進めてくれます。あるいはCursorやClaude Codeのようなコーディング系のAIエージェント。人間の指示からファイル作成やコマンド実行を自律的に行ってくれます(AIコーディングエージェント全般についてはこちらの記事で解説しています)。こうしてAIエージェントは、着実に私たちのワークフローに組み込まれ始めています。

ChatGPT agentの概要

ここから本題です。ChatGPT agentは、OpenAIが投入した汎用型のAIエージェントです。Deep ResearchやClaude Codeが特定のジャンルに特化しているのに対し、ChatGPT agentはオールラウンドに使えます。

もともとは月額約3万円のProプランでしか使えませんでしたが、先週から約3,000円のPlusプランでも利用できるようになりました(Plusプランは月40回までエージェントを動かせます)。現状、無料プランでは利用できません。この後の使用感も、無料プランの方は検討材料にしてみてください。

ChatGPT agentの一番のメリットは使いやすさです。AIエージェントは導入のハードルが高いことが多いのですが、ChatGPT agentはチャット画面の「エージェントモード」をクリックするだけで使えます。

たとえば「ニュースサイトにアクセスして、アクセスランキング上位10記事のタイトル・URL・コメント数を取得して」といったタスクを実行できます。具体的には、ChatGPTのチャット画面の中で仮想環境のWebブラウザが起動し、AIが「ニュースサイトにアクセスします。記事がランキング形式で並んでいます。上位10記事を抽出してタイトルとURLを取得します。コメント数も取得します」と思考を重ねながらタスクを進めていきます。実際にニュースサイトの画面が開き、AIがカーソルを操作している様子も見られます。

外部ツールへのアクセスもできます。現状はWeb検索、GitHub、Box、Dropboxのようなストレージサービス、デザインツールのCanva、Gmail・GoogleカレンダーといったGoogle系ツール、メモアプリのNotion、Outlookメール・カレンダー・SharePoint・TeamsといったMicrosoft系ツールなどに対応しています。

使ってみた感想

実際にいろいろ実験してみました。結論を先に言うと、思った以上に精度が高かったです。ただし、特定のタスクでは十分な結果が得られませんでした。使う人のタスクによって評価が二分されるだろうな、というのが感想です。

ここで言う「特定のタスク」とは、ログインを伴うタスクです。たとえばECサイトにアクセスして買い物をしてもらうようなタスクは実行できませんでした。Amazon・eBay・Walmartといった大手サイトは、ログインの時点で失敗してしまいます。これは海外の掲示板でも言われていて、大手サイトは軒並み失敗するそうです。ブログ投稿サービスにログインして新規記事を作成するタスクも弾かれました。ログインができれば一気にできることの幅が広がるのですが、現時点ではログインを伴うタスクは厳しい印象です。

一方で、ログインを伴わないタスクでは活躍してくれます。たとえばニュースサイトから情報を取得したり、Wikipediaから特定の情報を探してきたり。私が試したのは次のようなタスクです。

ニュースサイトの上位10記事からタイトル・URL・コメント数を取得 → 4分
取得した記事のうち3つの要約を作成 → 3分

少し時間はかかりますが、こちらがほぼ手をかけずにエージェントが正確に実行してくれました。少し前なら、こうしたログインを伴わないタスクでも成功率はそれほど高くなかったのですが、今回はこのタスクに関してミスがなかったです。

ほかにも、ある分野の情報を収集してスライドを作成する指示も通りました。スライドはChatGPTの画面内で閲覧でき、PowerPoint形式でダウンロードもできます。デザインの質はあまり良いとは言えませんでしたが、調査指示からスライド作成まで一気通貫でこなせたのは驚きです。私の会社のホームページにアクセスして、メールフォームから送信する指示も問題なく行えました。ログインを伴わないタスクは、予想以上に精度が高いです。

外部ツールへのログインは例外

「ログインを伴うタスクは苦手」と言いましたが、例外もあります。それが、先ほど紹介した事前に用意されている外部ツールへのログインです。

たとえばDropboxにログインして、「特定フォルダ直下のファイルを一覧で取得」「一覧から特定ファイルをダウンロード」「ファイル名の変更」「ファイルの削除」といった指示を出すと、すべて通りました。一方、私が使っているCanvaはなぜか連携に失敗しました。

整理すると、ChatGPT agentはログインを伴う一般的なタスクは精度が低いものの、事前に外部ツールとして用意されているサイトならログインを伴うタスクもこなせる、ただしCanvaのように失敗するツールもある、という状況です。とはいえ現時点でこの精度なので、不具合は改善され、対応する外部ツールも増えていくと思います。できることはこれからどんどん広がっていく可能性が大いにあります。

AIエージェントの並列処理と買い物の未来

AIエージェントの良いところは、並列で処理を実行できることだと思います。複数のエージェントを用意すれば、1対1ではなく1対3、1対4で仕事を進められます。

ただし精度は100%ではないので、人間側のチェックは必要です。ChatGPT agentも「この処理を続けていいですか」「実行していいですか」と承認を求めてくる動作を挟みます。その都度人間がチェックするので、100体のエージェントを同時に動かすような使い方は現時点ではまだ難しいです。とはいえ、近年の発展を見ていると、それも時間の問題かもしれません。正直、ChatGPT agentはまだまだ精度が低いだろうと思っていましたが、想定以上の精度がありました。

買い物を代行するタスクは現時点ではまだ実行できませんでしたが、この課題に動いている企業もあります。クレジットカードで有名なVISAです。VISAは2025年4月のイベントで、AIエージェントがユーザーの代わりに買い物をすることを目指した「VISA Intelligent Commerce」という決済ネットワーク構想を立ち上げました。AIエージェントがユーザーに代わって商品を検索・購入するプロセス全体をサポートする構想です。

AIに全ての買い物を任せるのはまだ怖いですよね。意図しない買い物やクレジットカードの漏洩など課題は多いですが、未来のショッピング体験に向けてすでに動き出している企業はあります。この取り組みにはOpenAI、Anthropic、IBM、Microsoft、Samsung、Stripeといった有名テック企業が連携しています。将来的には、ChatGPT agentやAnthropicのエージェントで買い物ができるショッピングエージェントが出てくると思います。「矢野さん、前回コーヒー豆を買ったので、そろそろ切れる頃ですよね。いつものを注文しておきますね」といった具合に、買い物体験が変わってくるかもしれません。

Deep Researchのような調査特化のエージェント、CursorやClaude Codeのようなコーディング特化のエージェントは、すでに地位を確立しています。汎用エージェントが出てきた今、その次にどんなエージェントが来るのか楽しみです。ちなみに、少ない指示から実装計画を立ててくれるAmazonのKiroのように、特化型のエージェントツールも続々と登場しています。

まとめ

最後に、今回のポイントをまとめます。

AIエージェントとは、自律的に思考して各種ツールにアクセスしながらタスクをこなしていくAIである
ChatGPT agentが月額約3,000円のPlusユーザーから利用できるようになった。Plusプランは月40回までエージェントを動かせる
様々な実験をした結果、ログインを伴わないタスクでは精度が高いが、ログインを伴うタスクでは精度が低い