- Gemini OmniはGoogle I/O 2026で発表されたオムニモーダルモデルで、テキスト指示だけで動画を複数ターンにわたって段階的に編集できる
- バイオリニストの映像を4ターンかけて環境変更・透明化・カメラアングル調整と順番に変化させる会話型編集が可能
- Gemini 3.5 FlashはAntigravityフレームワークと連携し、エージェント型ワークフローの実行やWeb UIのリアルタイム生成など6つの機能デモが公開された
Gemini Omniとは
Googleは2026年のGoogle I/Oで、新しいオムニモーダルモデル「Gemini Omni」を発表しました。オムニモーダルとは、画像・音声・動画・テキストといった複数の情報形式を入力として受け取り、動画として出力できる統合処理能力を指します。
従来のAI動画生成ツールは単発の指示に対応するものが多かったのに対し、Gemini Omniは会話の履歴を保持しながら複数ターンにわたって映像を調整できる点が大きな特徴です。「前の状態を踏まえてこの部分を変えてほしい」という段階的な指示に応えることで、意図した方向へ映像を少しずつ近づけていくことができます。動画AIの推論処理については動画VLMのトークン早期圧縮で推論を最大2.65倍高速化するEarlyTomのような研究も進んでおり、動画処理全般の実用化が加速しています。
Gemini Omniのデモ3選
公式ブログでは、Gemini Omniの能力を示す3つのデモが公開されています。
デモ1:彫像をシャボン玉に変換。固体の彫像でできた映像に対して「シャボン玉で作られた彫像に変えて」と指示すると、キャラクターの一貫性を保ちながら素材を変換します。物理的な整合性を維持したまま視覚的な素材を置き換える処理を自然言語で実現します。
デモ2:動作の再創造。球体を持つ手の映像を「ガラス球の内側に広がる再帰的な無限の部屋に変えて」と指示することで、シーン全体を別の映像に作り替えます。単純な背景変更ではなく、視覚的な概念そのものを別の表現に置き換えることができます。
デモ3:バイオリニストの4ターン編集。バイオリニストの映像を起点に、第1ターンで新しい環境に転送し、第2ターンで人物を透明にし、第3ターンでカメラアングルを肩越し(オーバーザショルダー)に変更するという4段階の連続編集を行います。各ターンが前の状態を引き継ぐため、意図した方向へ段階的に映像を変化させることができます。

Gemini 3.5 Flashのデモ
同ブログでは、同時に発表された「Gemini 3.5 Flash」に関する6つのデモも公開されています。Gemini 3.5 Flashは速度と実用性に重点を置いたモデルで、エージェント型のワークフロー実行を主な用途としています。
デモ4:Antigravityでのエージェントタスク。Googleの「Antigravity」フレームワークと連携し、整理されていないファイル群を自動的にリネームしてカテゴリ分けするマルチステップワークフローを実行します。人手で行う繰り返し作業をエージェントが代行します。
デモ5:Web UIのリアルタイム生成。AI Studioを使い、チェックアウトフローのUI案を60秒以内に複数パターン生成します。コードを書かず自然言語の指示だけでインタラクティブなUXプロトタイプを出力できます。
デモ6:Searchの情報エージェント。ユーザーが関心を持つテーマ(例:特定アスリートのスニーカーリリース情報)を自動で追跡し、関連リンクを付けた詳細な更新情報をまとめて通知します。能動的に情報を収集して提供するエージェント機能です。
デモ7:Search内ジェネレーティブUI。「ジャイロイドパターンとは何か」といった問いに対して、テキスト解説だけでなく、その場でインタラクティブな視覚ツールを自動生成して説明します。静的な検索結果ではなく、問いの内容に応じたUIが即時構築されます。
デモ8:カスタムSearch Dashboard。ユーザーの継続的な活動(例:フィットネスルーティン)を追跡するパーソナライズされたミニアプリを自動構築します。一般的な検索結果ではなく、個人の目的に合わせたインターフェースをその場で生成します。
デモ9:Gemini Sparkパーソナルエージェント。「ナッツ不使用のスナックリストを作って、Instacartに追加して」という指示を受けて、リストを生成したうえで外部サービスへの連携まで一括で実行します。Gemini Sparkは個人向けの総合エージェントとして機能します。
提供プランと対応環境
Gemini Omni FlashはGeminiアプリおよびGoogle Flowを通じて、Google AI Plus・Pro・Ultraの各プラン加入者向けに順次提供が開始されています。YouTube Shortsユーザー向けには無料での提供も計画されています。
Gemini 3.5 FlashはGoogle Antigravity、API、Geminiアプリを通じてグローバルに利用できます。自然言語による映像操作と、エージェント型ワークフローの両方向で、AIが日常的なコンテンツ制作や情報整理を担う場面が具体的に示された発表となりました。
