Googleの音声AIモデル Gemini 3.1 Flash Live とは？

こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事ではGoogleが発表した音声AIモデル Gemini 3.1 Flash Live について触れます。

Gemini 3.1 Flash Live の概要

Gemini 3.1 Flash Live は、Googleのリアルタイム音声対話に特化したモデルです。音声AIをより自然で信頼性の高いものにすることを目的としています。

前モデルと比較して、ピッチやテンポといった音響的なニュアンスの認識精度が向上しました。ユーザーがイライラしていたり混乱している場合に、応答を動的に調整する能力も改善されています。

Vapiのようなエージェントコールセンターを構築できるようなツールを使う場合に良い選択肢になる可能性があります。

複数のベンチマークでトップスコアを記録しています。

ベンチマーク	スコア	内容
ComplexFuncBench Audio	90.8%	複雑な制約を伴うマルチステップのfunction calling
Audio MultiChallenge (Scale AI)	36.1% (thinking ON)	割り込みや言い淀みがある実環境での指示理解・推論

ComplexFuncBench Audioは、音声エージェントが複数のステップにまたがるタスクをどれだけ正確に実行できるかを測定するベンチマークです。Audio MultiChallengeは、実際の会話で起きる中断やためらいの中で、複雑な指示にどこまで対応できるかをテストします。

3.1 Flash Live は利用者の立場ごとに異なるチャネルで提供されています。

開発者向けはプレビュー段階ですが、一般ユーザーはすでに Gemini Live や Search Live を通じて体験できます。

開発者はGoogle AI Studioから簡単に試すことができます。

Gemini Live では、前モデルと比べて応答速度が向上しました。会話のコンテキストを保持できる長さが2倍になり、長めのブレインストーミングでも話の流れを見失いにくくなっています。

AIとの音声対話では正確性も重要ですが、人間と話しているような自然な応答速度も見逃せないポイントです。

そして、3.1 Flash Live は多言語対応をネイティブで備えており、Search Live の200以上の国と地域への展開を支えています。ユーザーは好みの言語でリアルタイムのマルチモーダル会話ができます。

Verizon、LiveKit、The Home Depot といった企業がすでにワークフローに3.1 Flash Liveを取り入れ、会話の自然さの改善について好意的なフィードバックを寄せています。

3.1 Flash Live が生成する全ての音声には SynthID による電子透かしが埋め込まれます。この透かしは音声に直接織り込まれ、人間の耳では知覚できませんが、AI生成コンテンツの検出を可能にします。

リアルタイム音声対話の品質は、AIアシスタントの使い勝手を大きく左右します。

応答速度、音響理解、コンテキスト保持の全てが改善された3.1 Flash Liveは、音声AIを実用的なレベルに引き上げる一歩かなと思います。

個人的にはGoogleのこうしたモデルはコストパフォーマンスやレイテンシに優れているので音声会話関連のプロダクトを構築する際には有力な候補かなと思います。

開発者はGoogle AI Studioから試せるので、音声エージェントの構築を考えている方はチェックしてみてください。