こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、AIと音声をテーマに、ChatGPTの音声会話アップデートと、Google AI Studioを使った音声コンテンツの作成について触れます。
私たちは普段、ChatGPTのようにテキストベースでAIと会話している人が多いと思います。ですが、そこに「音声でAIと会話する」という視点を加えると、活用の幅がぐっと広がります。
この記事で解説するポイントは、次の2つです。
- ChatGPTのAdvanced Voice Modeのアップデート
- Google AI Studioを使って、自分でポッドキャスト風の音声コンテンツを作る方法
ChatGPTの音声会話がアップデート
まずはChatGPTの最新ニュースから。OpenAIが、ChatGPTの音声会話機能をアップデートしました。
もともとChatGPTには音声会話機能があり、テキストではなく人間と音声で会話ができます。今回のアップデートで、これがより自然に会話できるようになりました。実際に試してみると、確かに精度が上がっていると感じます。人間のような言い回し、より感情を込めた発音になっていて、人と話しているような感覚にぐっと近づいています。
ただし、このアップデートは現時点では有料版のみに適用されています。無料版は従来どおりの音声会話機能です。無料版でも十分高度ですが、会話の品質が上がったのは現時点では有料版だけ、という点は押さえておきましょう。
通訳としての使い方
今回のプレスリリースでは、通訳機能の強化にも触れられています。もともとChatGPTを通訳のように使うことはできましたが、それがさらに使いやすくなりました。
たとえば海外旅行中、目の前にアメリカの方がいて、その人と会話したいとします。英語を話すのも聞くのも得意ではないけれど、聞きたいことがある。そんなときにChatGPTの音声会話機能が役立ちます。こんなふうに指示します。
今私はアメリカを旅行中です。目の前にアメリカの方がいます。私が話した内容を英語に翻訳してください。そして相手の方が話した英語を日本語に翻訳してください。通訳のように振る舞ってください。
こうした使い方は無料版でも利用できますが、今回のアップデートでより快適になりました。海外に行かなくても、日本でも外国人観光客は増えています。もし話しかけられたら、ChatGPTのアプリを起動して通訳のように使う。そんなスマートな使い方もできます。
Geminiの音声会話との比較
ちなみに、スマホアプリ版のGeminiにも音声会話機能があります。先に結論を言うと、自然な会話という点では、現時点ではChatGPTのほうが勝っていると思います。Geminiは、いかにもAI音声という印象が残る場面があります。
音声会話の落とし穴
音声会話は、散歩中のアイデア出しや壁打ち、トピックの掘り下げ、英会話の練習、通訳など、使う人次第で本当に幅広い活用ができます。ただ、1点だけ落とし穴があります。
それは、最新情報に基づくトピックではハルシネーションが起きやすいということです。同じ内容でも、テキストでは起きないのに音声会話だと間違った回答が返ってくる、という現象があります。最新情報に基づく会話をするときは、AIが間違った回答を話している可能性がある、という前提で会話することをおすすめします。
Google AI Studioで音声コンテンツを作る
ここからは、Google AI Studioを使った音声コンテンツの作成についてです。
NotebookLMの音声概要機能を使っている方は多いと思います。自分がアップロードしたソースに対して、AIがポッドキャスト風の音源を作ってくれる機能です。実は、似たような音声をGoogle AI StudioのNative Speech Generationという機能を使えば、誰でも無料で作れます。事前の知識もクレジットカード登録も不要です。
そもそもGoogle AI Studioとは
具体的な説明の前に、Google AI Studioについて補足します。これはGoogleが用意している実験環境のようなもので、画面はChatGPTやGeminiと似ています。チャット画面にAIへの質問を入力すると、同じようにやり取りができます。詳しくはGoogle AI Studioとは?でもまとめています。
Google AI Studioの魅力は主に2つです。
一つは、最新のモデルを無料で試せること。新しいモデルは、Geminiのチャット画面に反映される前に、まずGoogle AI Studioでリリースされることが多いんです。
もう一つは、大きなコンテキストウィンドウを扱えることです。コンテキストウィンドウとは、簡単に言うとAIの短期記憶のようなものです。AIは短い会話なら問題ありませんが、ものすごく長い会話になると、最初に話していたことを忘れてしまいます。どれだけ記憶・参照できるかを示す値がコンテキストウィンドウです。
たとえばChatGPTのGPT-4oはコンテキストウィンドウが12.8万トークンですが、Google AI StudioのGemini 2.5は100万トークンです。これだけ大きいと、動画をアップロードして要約してもらう、音声を文字起こしする、といった、通常のチャット画面ではできないことができるようになります。
Native Speech Generationの使い方
話を音声コンテンツに戻します。やり方はシンプルです。
- Google AI Studioにアクセスする
- トップページのNative Speech Generationをクリックする
- スピーカー1、スピーカー2の入力欄に、話してほしい内容を入力する
- 実行を押す
これだけで音源が完成します。台本は自分で書いてもいいですが、AIに作らせることもできます。ChatGPTやGeminiに情報ソースをアップロードして「このソースからポッドキャスト風の台本を作成してください」と指示し、できあがった台本をNative Speech Generationに渡せば、音声コンテンツが完成します。
細かい設定も可能です。話し手の声は現時点で30名から選べ、モデルもGemini 2.5 Pro TTSとGemini 2.5 Flash TTSから選択できます。より人間らしい音声にしたいなら、Pro TTSのほうがおすすめです。NotebookLMの音声概要のような、人が話している雰囲気を再現したいときに向いています。
テキストを音声化する活用アイデア
テキストを音声化する機能は、使い方が人によって変わる部分です。たとえば日本語の文章を英語や他の言語で発音してほしい、といったときに使えます。
テキストから音声を作るハードルは、年々下がっています。これまで音声コンテンツを作ったことがない人でも、簡単に作れるようになりました。「自分の業務にどう活かせるだろう」という視点で考えると、新しいアイデアが生まれてくると思います。
これからのAIと音声
最後に、AIと音声についてもう一段掘り下げて考えてみます。
音声機能がどんどん進化していくと、AIと会話することがもっと身近になる可能性があります。Google AI StudioにはLive Audio to Audioという機能もあり、AIとの音声会話を自分で実験できます。
こうしたAIとの音声会話には、いろいろな活用アイデアが考えられます。
- AIによる音声面接(海外ではすでに一次面接をAIが担う事例があり、相手がAIだとリラックスして話せるという声もある)
- AIによる会話ベースの問診(病院の待合での問診票を会話に置き換え、内容を要約して医師に伝える)
- AIとの会話による社員のスキル把握(10分ほど会話してもらい、どんなスキルを持ち、何が足りないかを把握する)
たとえば企業向けにAI研修を提供するサービスを考えると、社員100名のスキルを把握するのは難しいですよね。固定されたアンケートでは柔軟に掘り下げられません。これをAIとの会話に置き換えれば、その人がどんなスキルを持ち、どこに課題を感じているかを抽出し、個別の研修カリキュラムを組む、といったことができます。
ほかにも電話応対やリアル店舗での接客など、AIと人間が音声で当たり前のように会話する未来は、そう遠くないかもしれません。
まとめ
最後に、今回のポイントをまとめます。
- ChatGPTのAdvanced Voice Modeがアップデートされ、より自然な対話が可能になった(現時点で有料版のみ)
- ただしChatGPTは最新情報についての会話は苦手なので、その場合はGeminiの音声会話も選択肢になる
- Google AI StudioのNative Speech Generationを使えば、誰でも無料でポッドキャスト風の音源を作れる
テキストだけでなく、音声という視点を加えることで、AIの活用の幅は大きく広がります。気になった機能があれば、ぜひ一度試してみてください。