Meta開源多模態AI模型ImageBind　將更近一步邁向人類

社群網路服務公司Meta宣布開發多模態AI模型ImageBind，為首個整合六種不同感知形式，包括照片/影片、文字、聲音、深度、熱量與慣性測量單元（IMU），以接近人類感知環境的方式，來預測數據之間關連的AI模型，未來或許可望創造身臨其境的多種感官體驗。

儘管目前ImageBind仍是尚未有實際應用的初階框架，不過Meta透露此模型預期成果為模擬人類感知，若搭配虛擬實境設備使用，還能生成更多的感官效果，直接在使用者的所處位置，產生聲音、視覺影像以及物理環境中的動作感受，例如當你想要來一趟海上之旅，ImageBind不僅能夠生成海浪聲音，還能讓你感受涼爽海風，更可以讓你置身於搖晃的甲板。

由此可見，ImageBind系統整合了6大感知形式，讓機器能夠像人類一樣，全面分析不同類型的資料，具備以文字造就影像與聲音，或以聲音來產生影像的生成能力，未來若有機會，還能讓使用者僅需輸入一段文字或影片等，即可生成一個完整且複雜的場景。

￭整合6大感知形式的AI模型ImageBind，帶領人們感受豐富感官體驗。（示意圖來源／Pexels）

Meta表示，期望未來可以增加其他感官數據至AI模型中，包括觸覺、嗅覺、語音和腦部Fmri訊號等，ImageBind可應用的場域也將大幅增加，遊戲開發人員可藉此減少開發過程中的繁瑣設計工作。同時，此項系統工具或許也有機會幫助視覺或聽覺障礙者，協助他們透過各種媒介的輔助，來感知周遭環境，使人類學習模式向前一大步。

分享此新聞：