Google DeepMind AI技術新突破　打造唇語解讀系統

記者／謝馭婷

Google旗下人工智慧部門DeepMind與牛津大學研究員在機器學習（Machine Learning）技術上又有新突破，特別設計讓電腦可以自動「學習」的機器學習演算法，讓電腦從大量資料中自動分析獲得規律，利用規律對未知數據進行預測的算法，藉此打造出能解讀唇語功能的AI系統，它能透過無聲影像辨識唇語，研究結果顯示，解讀正確率更勝專家。

￭DeepMind唇語解讀AI系統能夠透過無聲影像，辨識解讀句子。（截圖自／YouTube影音）

從2010年開始，研究人員並以大量的資料來訓練AI唇語解讀系統，使用BBC2010到2015年間總長超過5000小時的電視節目，共包含11.8萬個句子，用來訓練AI系統觀看、收聽、注意及拼音的功能。訓練完畢後，研究人員找來人類唇語專家與AI唇語解讀系統進行比對測試，解讀來自電視節目中隨機選取的200支影片，研究結果顯示，人類唇語專家解讀正確率僅為12.4%，而AI唇語解讀系統正確率卻高達46.8%，遠勝人類專家。

此項新技術與其他近期熱門語音辨識軟體相比，AI唇語解讀在吵雜的環境中更具優勢，如視訊通話時環境音太吵或對方有聽覺障礙時，只需看手機螢幕，便能知道對方說話的內容。另外研究人員也解釋，此系統與其他唇讀系統不同之處在於，它能夠解釋句型結構較為複雜的語句和野外視頻。相較以前的系統，如牛津大學的LipNet，只針對識別有限數量的詞語和短句。

DeepMind的研究人員表示此系統未來有許多應用之處，如改善助聽器，幫助聽覺受損者，或者提高語音識別的準確性和靜音聽寫，也可用來註釋無聲電影，或允許使用者在控制像是Siri這種數位助理時，也只需對著手機鏡頭動動你的嘴巴，便能傳遞指令，達到交談效果。

分享此新聞：