こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事では、Googleが公開した新しい画像生成モデル「nano-banana」について触れます。
画像生成は、使っている方もいれば、業務で使わないからチェックしていないという方もいると思います。でも今回登場したnano-bananaは、映像制作やイラスト作成だけでなく、業務にも応用できる可能性を秘めています。画像生成にあまり触れてこなかった方にもチェックしてほしいトピックです。
この記事で話すポイントは次の3つです。
- nano-bananaの概要と、直近で何が起こったのか
- nano-bananaの特徴(ChatGPTの画像生成との比較も)
- 画像生成の質を高めるプロンプトガイド
nano-bananaの登場
まず、直近で何が起こったのかを整理します。
8月になって、海外ユーザーの間で「nano-banana」という謎の画像生成モデルが話題になりました。LM Arenaという、ブラインドテストでモデルを比較できるサイトがあります。同じプロンプトから2枚の画像を出力させ、人間がどちらが好ましいかを選ぶと、どのモデルが使われたかがわかる、という仕組みです。
このLM Arenaに、ものすごく精度の高い画像生成モデルが現れました。それがnano-bananaです。当初は公式の説明が何もなく、「どこの画像生成モデルなんだ」と。一部では「Googleが開発しているのでは」という噂もありましたが、Google自体は何も発表していなかったため、謎の画像生成AIとして注目を集めていました。
そして先週、Googleが情報を解禁し、Googleが開発した新しい画像生成AIだと判明しました。コードネームはnano-bananaですが、正式名称はGemini 2.5 Flash Image Previewです。
どこで使えるかというと、API経由(プログラムから操作する方法)、Google AI Studio、そしてGeminiのチャット画面での編集です。一番確実なのはGoogle AI Studioで利用することです。Google AI Studioは開発者向けのツールですが、Googleアカウントがあれば誰でも無料で、ブラウザからすぐに試せます。プログラムの知識はまったく必要ありません。Google AI Studioの活用法は業務効率を改善する3つの提案でも触れているので、あわせてどうぞ。
nano-bananaの特徴
では、この新しい画像生成は何がすごいのか。端的に言うと、画像の一貫性を保持する能力が、他の画像生成に比べて非常に高いです。
画像生成AIの弱点として、ある画像を修正するときに、意図しない微妙な変更が入ってしまうことがあります。たとえばスーツを着た男性のモデル写真があるとして、「スーツの色を変えて」「別の服装に変えて」と修正していくと、男性の顔まで微妙に変わってしまい、場合によっては別人のようになってしまうことがあります。
nano-bananaは、この弱点を克服しています。元の画像を保持したまま修正を加えられるんですね。実際に私も触ってみて、かなり驚きました。
ChatGPTも画像生成を出していますが、画像の一貫性を保持するという点ではnano-bananaのほうが性能が高いです。実際、LM Arenaのベンチマークでも、OpenAIよりGoogleの新モデルのほうが精度が高いという結果が出ています。誤解のないように言うと、OpenAIの画像生成も一貫した画像の保持は可能です。ただ、比較するとGoogleのほうが精度が高い、ということです。
そもそも「リアルな画像を生成できるか」という点は、各社とも飽和点に達しつつあります。どの画像生成AIを使っても、AIが作った画像かどうか見分けるのは困難です。一方で「元の画像を保持したまま修正を加える」タスクはまだ難しい部分があり、そこをnano-bananaが克服してきた、というわけです。
業務での活用例
「画像の一貫性を保持できると何が嬉しいの」と思う方もいるかもしれません。実は、元の画像を保持できると、いろいろな応用ができます。
たとえばアパレル関係の仕事をしているとして、モデルの画像と商品の画像を用意し、その2つを統合できます。「モデルに弊社の新製品であるサングラスを着用させてください」「バッグを持たせてください」といった指示です。実際に私もモデル・サングラス・バッグの画像を用意して試しましたが、かなり高い精度で統合できました。
もちろん背景も自由に差し替えられます。「オフィスの背景からカフェの背景に変更して」と言っても、被写体はそのまま保持されます。逆に「被写体を残して背景を全部削除して」もできます。広告関係者が打ち合わせで「こんな感じで進めます」というラフ案を作るのにも使えそうです。
仕事で画像を使う機会は意外と多いものです。社内の会議資料、クライアントへの提案資料、顧客へ提供する資料など。もちろんAIで生成した画像であることは明示する必要がありますが、これだけ精度と修正レベルが高くなってくると、業務で本格的に使うことを検討してもいいと思います。私自身も、AIの資料やニュースレターの配信で画像生成AIを使っています。これまではChatGPTとGeminiで同時に生成して良い結果を使う運用でしたが、今回のアップデートでGeminiが一歩リードした印象です。
ほかにも面白い使い方があります。たとえば被写体のポージング。「こんなポーズをとってほしい」というのをテキストで説明するのではなく、紙に棒人間の絵を描いて渡すと、そのざっくりした指示でも理解して被写体のポーズを変えてくれます。
動画生成への応用も面白いです。従来は画像の一貫性が課題でしたが、nano-bananaはイラストの一貫性も保ってくれるので、複数のコマ画像を動画生成AIに渡して、そこからスムーズなアニメ動画を作る、といった使い方もできます。
不動産関係でも活躍します。部屋の内覧写真をGeminiに渡して「この部屋に家具を配置して」と指示すれば、入居者向けにイメージしやすい写真を作れます。「家の外観をグレーに変更して」や、店舗の内装イメージ図を作って業者と打ち合わせる、といった使い方も可能です。リアルの画像を編集して拡張するという発想で考えると、活用アイデアがどんどん出てきます。今まで画像生成を使ってこなかった人でも、触ってみると「自分の仕事ではこう応用できる」という場面が見つかるかもしれません。Google AI Studioで無料で試せるので、ぜひチェックしてみてください。
精度を上げるプロンプトガイド
最後に、Googleが公開している画像生成のプロンプトテクニックを紹介します。
Googleのプロンプトガイドでは、こう説明されています。「キーワードを列挙するだけでなく、シーンを説明すること」。つまり「男性、スーツ、オフィス」のようにキーワードを並べるのではなく、具体的なシーンを文章で説明する、ということです。公式の説明を引用します。
このモデルの強みは言語を深く理解していることです。物語や説明文の段落は、ほとんどの場合、関連性のない単語のリストよりもより優れた一貫性のある画像を生成します。
リアルな画像を生成する場合は、カメラアングルやレンズの種類、照明といった詳しい説明を入れると、より精度が上がります。サンプルプロンプトを紹介します。
暖かい微笑みを浮かべた、高齢の日本人陶芸家の写実的なクローズアップ写真。彼は茶碗を注意深く点検している。舞台は日差しが降り注ぐ工房。85mmのポートレートレンズで撮影され、背景は柔らかくぼかされている。
このようにレンズの種類まで含めると有用です。
画像をアップロードして編集する場合は、次のようにします。
私がアップロードした猫の画像を使用し、頭に小さな編み物の魔法使いの帽子を追加してください。
これだけで、猫の特徴を維持したまま帽子を乗せた画像を生成できます。修正点を特定の部分だけに限定することもできます。
私がアップロードしたリビングの画像を使用し、青いソファのみをヴィンテージ調の茶色いレザーに変更してください。ソファのクッションや照明を含む、部屋の他の部分は変更しないでください。
このように、普段ChatGPTやGeminiと会話するのと同じように、会話形式でプロンプトを渡すと良い結果が出ます。
ベストプラクティス
最後に、Googleが紹介している画像生成のベストプラクティスをいくつか挙げます。
- 具体的な内容にする:キーワードだけでなく、できるだけ具体的に。「ファンタジーアーマーを着た男性」ではなく「銀の葉っぱの模様が彫られた装飾的なエルフのプレートアーマー。綾草の翼の形をした肩当てがついている」のように詳細に説明する。
- 背景情報と意図を説明する:「ロゴを作成して」より「高級でミニマリストなスキンケアブランドのロゴを作成して」のほうが良い結果が得られる。
- 改善を繰り返す:最初の画像をベースに改良を加えていく。「素晴らしい画像ですが、照明をもう少し暖かくしてもらえますか」「全てそのままにして、キャラクターの表情をもう少し真剣なものに変えてください」のように。一貫性を保てるからこそ、修正すべき点・しない点をしっかり伝えれば的確に改良できる。
- ステップバイステップで作る:一度の指示で完成させるのではなく、オブジェクトごとに分けて生成する。「まず夜明けの静かな森の背景を作成してください」「次にその背景の前に古代の石の祭壇を追加してください」「最後にその石の祭壇の上に光り輝く剣を1本置いてください」のように段階的に進める。
まとめ
最後に今回のポイントをまとめます。
- Geminiの新しい画像生成モデル「Gemini 2.5 Flash Image Preview(nano-banana)」を解説した。おすすめの利用方法はGoogle AI Studio
- 最大の特徴は画像の一貫性を保持できること。これはChatGPTの画像生成より性能が高い
- より良い画像を生成するには、キーワードではなくAIと会話するように文章で指示する
画像の一貫性が保てると、アイデア次第で業務にも幅広く応用できます。Google AI Studioで無料で触れるので、ぜひ試してみてください。