Google DeepMind AI技術新突破 打造唇語解讀系統

記者/謝馭婷

Google旗下人工智慧部門DeepMind與牛津大學研究員在機器學習(Machine Learning)技術上又有新突破,特別設計讓電腦可以自動「學習」的機器學習演算法,讓電腦從大量資料中自動分析獲得規律,利用規律對未知數據進行預測的算法,藉此打造出能解讀唇語功能的AI系統,它能透過無聲影像辨識唇語,研究結果顯示,解讀正確率更勝專家。

■DeepMind唇語解讀AI系統能夠透過無聲影像,辨識解讀句子。(截圖自/YouTube影音)

從2010年開始,研究人員並以大量的資料來訓練AI唇語解讀系統,使用BBC2010到2015年間總長超過5000小時的電視節目,共包含11.8萬個句子,用來訓練AI系統觀看、收聽、注意及拼音的功能。訓練完畢後,研究人員找來人類唇語專家與AI唇語解讀系統進行比對測試,解讀來自電視節目中隨機選取的200支影片,研究結果顯示,人類唇語專家解讀正確率僅為12.4%,而AI唇語解讀系統正確率卻高達46.8%,遠勝人類專家。

此項新技術與其他近期熱門語音辨識軟體相比,AI唇語解讀在吵雜的環境中更具優勢,如視訊通話時環境音太吵或對方有聽覺障礙時,只需看手機螢幕,便能知道對方說話的內容。另外研究人員也解釋,此系統與其他唇讀系統不同之處在於,它能夠解釋句型結構較為複雜的語句和野外視頻。相較以前的系統,如牛津大學的LipNet,只針對識別有限數量的詞語和短句。

DeepMind的研究人員表示此系統未來有許多應用之處,如改善助聽器,幫助聽覺受損者,或者提高語音識別的準確性和靜音聽寫,也可用來註釋無聲電影,或允許使用者在控制像是Siri這種數位助理時,也只需對著手機鏡頭動動你的嘴巴,便能傳遞指令,達到交談效果。

 

分享此新聞: