Google Gemini Omni 跨越虛實:以「世界知識」打破傳統影片編輯門檻

記者/Linus

Google今(20)日正式發表全新生成式AI模型「Gemini Omni」,主打「任何輸入都能生成任何內容」,首波率先支援影片生成與編輯功能。使用者未來不只可透過文字描述直接生成影片,還能結合圖片、影片、聲音與文字作為輸入素材,並透過自然語言像聊天一樣修改影片內容,從改變場景、加入角色到重塑物理效果都能完成。

Google表示,Gemini Omni是建立在Gemini原生多模態架構上的下一步發展,讓AI不只具備推理能力,也具備創作能力。首款模型「Gemini Omni Flash」目前已開始向全球Google AI Plus、Pro與Ultra訂閱用戶推出,支援GeminiApp、Google Flow,以及YouTubeShorts與YouTube Create App。

這次最大亮點之一,是Gemini Omni可直接用「對話方式」編輯影片。Google示範中,使用者只需輸入「把雕像變成泡泡材質」、「讓鏡子像液體一樣波動」,AI就能理解並重新生成影片內容,而且角色外觀、場景與動作邏輯都能維持一致,不會每次修改就整段重做。

Google也強調,Gemini Omni不只是畫面生成工具,而是加入了Gemini的「世界知識」與推理能力。例如AI能理解重力、流體與動能等物理概念,生成更自然的連鎖反應場景;也能結合歷史、文化與語意脈絡,製作具有敘事性的影片內容。官方甚至展示利用一句提示詞,自動生成26個英文字母對應物件的高速影片,以及以黏土動畫風格解說蛋白質摺疊的科普短片。

除了純文字生成,Gemini Omni也支援多來源素材混合。使用者可以上傳圖片、影片與語音參考素材,再由AI生成風格一致的新影片。例如把真人拍攝影片逐漸轉變成復古未來風格,或替滑板加入動畫特效與光影效果。

Google也同步推出「Avatars」數位分身功能,允許使用者建立自己的AI化身,利用自己的聲音生成影片內容。不過Google表示,目前僅開放使用自己的聲音建立Avatar,至於更進一步修改語音與人聲內容,仍在測試與安全評估階段。

為降低AI生成內容遭濫用風險,Google表示所有Gemini Omni生成影片都會內建不可見的「SynthID」數位浮水印,用戶可透過Gemini App、Chrome版Gemini與Google搜尋工具驗證影片是否由AI生成。

Google DeepMind CTO暨Google首席AI架構師Koray Kavukcuoglu表示,Gemini Omni代表Google正把Gemini從「理解世界」推向「創造世界」,未來也將陸續加入圖片與音訊輸出能力,讓AI生成內容朝更完整的多模態方向發展。

根據《壹蘋新聞網》實際測試,可以將想要傳達的內容像是文章、課本、書籍等內容給他後,請他生成10秒影片的逐字稿,再給他指定的風格,若是不知道風格也能將圖片上傳跟他說「像是這種風格」來進行,之後也能隨時依照想要的感覺用文字微調。不過要注意的是,依照會員等級的不同,每天製作影片的次數上限也會有所不同。

分享此新聞: