こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事ではGoogleが発表した新しいテキスト音声変換モデル Gemini 3.1 Flash TTS について触れます。

Gemini 3.1 Flash TTS: the next generation of expressive AI speech - Google Blog

Gemini 3.1 Flash TTSの概要

2026年4月15日、Googleが新しいTTS(Text-to-Speech)モデルを発表しました。モデルIDは gemini-3.1-flash-tts-preview で、現在パブリックプレビューとして提供されています。

Gemini APIを通じてテキストを入力すると音声ファイルが返ってくるシンプルな構成です。入力トークン上限は8,192、出力トークン上限は16,384となっています。

Google AI StudioとVertex AIから利用可能です。

ちなみにAPI料金は、インプット1ドル、アウトプット20ドルの価格となります。

オーディオタグによる細かい制御

このモデルの特徴は、200以上のオーディオタグを使って音声の表現を細かくコントロールできる点です。

テキスト内に [excitedly][shouting] といったタグを埋め込むことで、声のトーン、ペース、感情表現を指定できます。従来のTTSモデルは「読み上げるだけ」のものが多かったですが、Gemini 3.1 Flash TTSでは「演技指導」に近いことが可能になっています。

プロンプトで指定できる内容の例です。

  • キャラクターの設定(名前、立場、シーン)
  • ボーカルスタイル(トーン、テンション)
  • アクセント(ロンドン、ニューカッスルなど地域指定)
  • ペースやダイナミクス

Simon Willison氏のテストでは、同じスクリプトに対してロンドン、ニューカッスル、エクセターとアクセントを変えて音声を生成し、それぞれ異なる発音で出力されたことが確認されています。

ちなみに、こうした設定はシームレスにエクスポート可能でプロジェクトやプラットフォーム間で一貫性のある音声を生成することができます。

過去にOpenAIのTTSを使ってAIポッドキャストを作成したことがあるのですが、AI話者にキャラクター性を付与できるようになったのは嬉しいところ。

70以上の言語に対応

多言語対応も強化されています。70以上の言語で高品質な音声生成が可能です。

ベンチマークとSynthID

Artificial AnalysisのTTSリーダーボードでEloスコア1,211を記録しています。

安全面では、生成された音声にSynthIDの電子透かしが埋め込まれます。AI生成コンテンツの識別を目的としたもので、音声出力に直接組み込まれる仕組みです。

プロンプトで音声を作る時代

個人的に面白いと思ったのは、TTSモデルなのにプロンプトエンジニアリングが求められる点です。

キャラクター設定、シーン説明、演出ノートといった要素をプロンプトに含めることで音声の品質が大きく変わります。

テキストを渡して音声に変換するだけだったTTSが、「どう読むか」まで指示できるようになったのは大きな変化かなと思います。

開発者にとってはAPI経由で手軽に表現力の高い音声コンテンツを生成できる選択肢が増えたことになります。