Google Gemini Omni 跨越虛實：以「世界知識」打破傳統影片編輯門檻

記者／Linus

Google今（20）日正式發表全新生成式AI模型「Gemini Omni」，主打「任何輸入都能生成任何內容」，首波率先支援影片生成與編輯功能。使用者未來不只可透過文字描述直接生成影片，還能結合圖片、影片、聲音與文字作為輸入素材，並透過自然語言像聊天一樣修改影片內容，從改變場景、加入角色到重塑物理效果都能完成。

Google表示，Gemini Omni是建立在Gemini原生多模態架構上的下一步發展，讓AI不只具備推理能力，也具備創作能力。首款模型「Gemini Omni Flash」目前已開始向全球Google AI Plus、Pro與Ultra訂閱用戶推出，支援GeminiApp、Google Flow，以及YouTubeShorts與YouTube Create App。

這次最大亮點之一，是Gemini Omni可直接用「對話方式」編輯影片。Google示範中，使用者只需輸入「把雕像變成泡泡材質」、「讓鏡子像液體一樣波動」，AI就能理解並重新生成影片內容，而且角色外觀、場景與動作邏輯都能維持一致，不會每次修改就整段重做。

Google也強調，Gemini Omni不只是畫面生成工具，而是加入了Gemini的「世界知識」與推理能力。例如AI能理解重力、流體與動能等物理概念，生成更自然的連鎖反應場景；也能結合歷史、文化與語意脈絡，製作具有敘事性的影片內容。官方甚至展示利用一句提示詞，自動生成26個英文字母對應物件的高速影片，以及以黏土動畫風格解說蛋白質摺疊的科普短片。

除了純文字生成，Gemini Omni也支援多來源素材混合。使用者可以上傳圖片、影片與語音參考素材，再由AI生成風格一致的新影片。例如把真人拍攝影片逐漸轉變成復古未來風格，或替滑板加入動畫特效與光影效果。

Google也同步推出「Avatars」數位分身功能，允許使用者建立自己的AI化身，利用自己的聲音生成影片內容。不過Google表示，目前僅開放使用自己的聲音建立Avatar，至於更進一步修改語音與人聲內容，仍在測試與安全評估階段。

為降低AI生成內容遭濫用風險，Google表示所有Gemini Omni生成影片都會內建不可見的「SynthID」數位浮水印，用戶可透過Gemini App、Chrome版Gemini與Google搜尋工具驗證影片是否由AI生成。

Google DeepMind CTO暨Google首席AI架構師Koray Kavukcuoglu表示，Gemini Omni代表Google正把Gemini從「理解世界」推向「創造世界」，未來也將陸續加入圖片與音訊輸出能力，讓AI生成內容朝更完整的多模態方向發展。

根據《壹蘋新聞網》實際測試，可以將想要傳達的內容像是文章、課本、書籍等內容給他後，請他生成10秒影片的逐字稿，再給他指定的風格，若是不知道風格也能將圖片上傳跟他說「像是這種風格」來進行，之後也能隨時依照想要的感覺用文字微調。不過要注意的是，依照會員等級的不同，每天製作影片的次數上限也會有所不同。

分享此新聞：