OpenAI 於 3 月 20 日發表全新語音模型,大幅提升語音辨識的準確度,同時強化語調與說話風格的可調整性,進一步拓展 AI 在語音應用領域的可能性。這次更新包含三款模型 (gpt-4o-transcribe & gpt-4o-mini-transcribe & gpt-4o-mini-tts),分別針對語音文字互轉、即時語音應用及個性化語音代理人 (agent) 開發,為語音技術帶來更細緻的應用場景。
■ OpenAI 推出三款細緻化的新語音模型。(圖片來源 / Solen Feyissa on Unsplash)
據 OpenAI 表示,新語音模型的語音辨識能力顯著提升,尤其在處理不同口音、語速及背景雜訊時的表現更為穩定。此外,這些模型支援使用者指定語氣與說話風格,例如正式、親切或富有情感的表達方式,使 AI 生成的語音更具自然感,貼近真人溝通體驗。
市場分析指出,這次 OpenAI 的語音技術升級,將直接影響 AI 語音助手、客服系統及內容創作等多個應用領域,甚至可能成為語音代理人開發的關鍵推動力。透過更精準的語音理解與回應能力,企業可望運用 AI 提供更個性化的服務,提升使用者互動體驗。
隨著 AI 技術持續進步,語音模型的精細化將成為未來發展趨勢。OpenAI 透過這次更新,進一步鞏固其在語音 AI 領域的競爭力,同時也為市場帶來更高效且自然的語音應用可能性。