こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事ではGoogleから発表されたGemini Embedding 2について触れます。

Gemini Embedding 2?

Google初のマルチモーダル埋込モデルと説明されています。

Gemini Embedding 2 - Google

文字や画像、動画、PDFを一つの形式にまとめることができます。

このモデルはGemini APIから利用可能で、モデルIDはgemini-embedding-2-previewです。テキスト、画像、動画、音声、PDFに対応しています。

現時点では無料枠の範囲で利用可能です。

ビジネスシーンでの利用

社内の文書やテキストベースのファイル、会議の音声も横断的に検索できるようにしても面白いかなと。

ただし、動画や音声に関しては容量は小さいので、ここは別のアプローチが必要になってくると思います。

入力タイプ 制限
テキスト 最大8,192トークン
画像 最大6枚(PNG/JPEG)
動画 最大128秒(MP4/MOV)
音声 最大80秒(MP3/WAV)
PDF 最大6ページ