OpenAI 推出新語音模型　強化語音辨識與語調控制

記者／Silvia Lai

OpenAI 於 3 月 20 日發表全新語音模型，大幅提升語音辨識的準確度，同時強化語調與說話風格的可調整性，進一步拓展 AI 在語音應用領域的可能性。這次更新包含三款模型 (gpt-4o-transcribe & gpt-4o-mini-transcribe & gpt-4o-mini-tts)，分別針對語音文字互轉、即時語音應用及個性化語音代理人 (agent) 開發，為語音技術帶來更細緻的應用場景。

￭ OpenAI 推出三款細緻化的新語音模型。（圖片來源 / Solen Feyissa on Unsplash）

據 OpenAI 表示，新語音模型的語音辨識能力顯著提升，尤其在處理不同口音、語速及背景雜訊時的表現更為穩定。此外，這些模型支援使用者指定語氣與說話風格，例如正式、親切或富有情感的表達方式，使 AI 生成的語音更具自然感，貼近真人溝通體驗。

市場分析指出，這次 OpenAI 的語音技術升級，將直接影響 AI 語音助手、客服系統及內容創作等多個應用領域，甚至可能成為語音代理人開發的關鍵推動力。透過更精準的語音理解與回應能力，企業可望運用 AI 提供更個性化的服務，提升使用者互動體驗。

隨著 AI 技術持續進步，語音模型的精細化將成為未來發展趨勢。OpenAI 透過這次更新，進一步鞏固其在語音 AI 領域的競爭力，同時也為市場帶來更高效且自然的語音應用可能性。

分享此新聞：