こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事ではGoogleから発表されたGemini Embedding 2について触れます。
Gemini Embedding 2?
Google初のマルチモーダル埋込モデルと説明されています。
文字や画像、動画、PDFを一つの形式にまとめることができます。
このモデルはGemini APIから利用可能で、モデルIDはgemini-embedding-2-previewです。テキスト、画像、動画、音声、PDFに対応しています。
現時点では無料枠の範囲で利用可能です。
ビジネスシーンでの利用
社内の文書やテキストベースのファイル、会議の音声も横断的に検索できるようにしても面白いかなと。
ただし、動画や音声に関しては容量は小さいので、ここは別のアプローチが必要になってくると思います。
| 入力タイプ | 制限 |
|---|---|
| テキスト | 最大8,192トークン |
| 画像 | 最大6枚(PNG/JPEG) |
| 動画 | 最大128秒(MP4/MOV) |
| 音声 | 最大80秒(MP3/WAV) |
| 最大6ページ |