こんにちは、AIニュースアプリ Morning AI 開発者の矢野哲平です。この記事ではGoogle DeepMindが発表したGemini Robotics-ER 1.6について触れます。

Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning - Google DeepMind

Gemini Robotics-ER 1.6の概要

2026年4月14日にリリースされたGemini Robotics-ER 1.6は、ロボットの自律動作を支える推論優先のモデルです。前バージョンのER 1.5から空間推論と多視点理解が強化されています。

Gemini APIとGoogle AI Studioから利用可能で、Colabのサンプルコードも公開されています。

3つの改善領域

ER 1.6では大きく3つの領域で改善が行われています。

ポインティング(空間推論)

物体の検出・計数、位置関係の把握、動きの推論といった空間認識の精度が向上しています。例えば、工具が並んだ画像から「ハンマー2本、はさみ1本、ペンキブラシ1本、ペンチ6本」と正確に識別できるようになっています。

ロボットが周囲の状況を正しく理解するための基礎となる能力です。

成功検出

タスクが完了したかどうかを判定する能力です。ロボットが自律的に動くには「今やっていることが終わったのか?」を自分で判断できる必要があります。

ER 1.6では複数カメラの映像を統合して理解する多視点推論に対応しました。物体が隠れている場合や照明が悪い環境でも精度が維持されます。

計器読み取り(新機能)

今回新たに追加された機能です。Boston Dynamicsとの協力で開発されており、産業施設の検査を想定しています。

対応する機器は以下のとおりです。

  • 円形圧力計
  • 垂直レベルインジケーター
  • サイトグラス(液面計)
  • デジタル表示器

技術的には「agentic vision」というアプローチを採用しています。画像の拡大、ポインティングによる計算、読み取り値の解釈を段階的に実行する仕組みです。

性能比較

計器読み取りタスクでの精度比較です。

モデル 精度
ER 1.5 23%
Gemini 3.0 Flash 67%
ER 1.6 86%
ER 1.6(agentic vision) 93%

ER 1.5の23%から93%へと大幅に向上しています。agentic visionの有無で7ポイントの差があり、段階的な推論の効果が出ています。

安全性の改善

ASIMOV安全ベンチマークでは、Gemini 3.0 Flash比でテキスト領域で+6%、ビデオ領域で+10%の改善が報告されています。液体の取り扱い制限や重量制限など、物理的な安全制約の遵守能力も向上しています。

ロボット向けモデルは実世界で動作するため、安全性の担保は特に重要なポイントかなと思います。

Boston Dynamicsとの協力

パートナーとしてBoston Dynamicsの名前が挙がっています。同社のSpot検査ロボットと組み合わせ、産業施設のモニタリング用途を想定した開発が進んでいます。

計器読み取り機能はまさにこの用途から生まれたもので、計器の値を自動で読み取れるようになれば、工場や発電所の巡回点検が効率化されます。

ロボットAIの実用化が具体的になってきた

Gemini Robotics-ER 1.6は、産業用途での実用性を意識したアップデートという印象です。特に計器読み取りのように「現場で実際に必要な機能」を追加している点が興味深いです。

開発者向けに、特殊な用途で性能が不足する場合に10〜50枚の画像サンプルを提供して改善に協力するプログラムも実施されています。