マルチモーダルな埋め込みモデル、Gemini Embedding 2の紹介

こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事ではGoogleから発表されたGemini Embedding 2について触れます。

Gemini Embedding 2？

Google初のマルチモーダル埋込モデルと説明されています。

文字や画像、動画、PDFを一つの形式にまとめることができます。

このモデルはGemini APIから利用可能で、モデルIDはgemini-embedding-2-previewです。テキスト、画像、動画、音声、PDFに対応しています。

現時点では無料枠の範囲で利用可能です。

社内の文書やテキストベースのファイル、会議の音声も横断的に検索できるようにしても面白いかなと。

ただし、動画や音声に関しては容量は小さいので、ここは別のアプローチが必要になってくると思います。