OpenAI押注無屏交互,語音AI可實時對話,設備預計明年發布

OpenAI押注無屏交互,語音AI可實時對話,設備預計明年發布

文章圖片

OpenAI押注無屏交互,語音AI可實時對話,設備預計明年發布

文章圖片


智東西
編譯|萬貴霞
編輯|王涵
智東西1月5日消息 , 1月1日 , 據外媒The Information報道 , 有知情人士稱 , OpenAI計劃于2026年第一季度推出全新的語音AI模型 , 而其首款完全通過語音指令操控而非屏幕交互的個人設備 , 預計仍需一年左右時間才能正式面世 。
該設備或為OpenAI CEO薩姆?阿爾特曼(Sam Altman)2025年11月21日訪談中提及的AI硬件產品矩陣中的另一款產品 。 除單一產品外 , OpenAI還在規劃一整套設備矩陣 , 可能包括智能眼鏡和無屏幕智能音箱等 。
多位ChatGPT員工透露 , 目前OpenAI的語音AI模型在回復準確性和響應速度上明顯落后于文本模型 。 為此 , OpenAI在過去兩個月內整合了多個工程、產品和研究團隊 , 對語音AI進行了一次全面重構 。

一、語音AI模型架構重塑 , 更自然、更“像人”的語音對話OpenAI計劃在2026年第一季度初發布的全新語音AI模型 , 將在音質、延遲和交互方式上進一步逼近真實對話體驗 , 甚至能夠在用戶說話的同時進行語音播報 , 呈現更接近“對話伙伴”的狀態 。
回顧OpenAI在語音方向上的技術演進 , 2022年其推出的Whisper是一套以高準確率著稱的自動語音識別(ASR)系統 , 主要解決“聽懂人說話”的問題;2025年 , OpenAI進一步發布了GPT-realtime語音轉語音模型 , 開始探索低延遲、連續對話式的語音交互 。 這一系列嘗試 , 也為如今全新一代語音AI模型的架構重塑奠定了基礎 。
GPT-realtime功能介紹(來源:OpenAI Platform)
The Information報道稱 , OpenAI在語音AI模型上的改進已初見成效 。 新一代模型在架構層面進行了調整 , 能夠生成聽感更自然、情緒更豐富的語音回復 , 同時在回答深度和準確性上也有明顯提升 。
與現有模型相比 , 新的語音AI模型可以實現與用戶“同步說話” , 并在對話中更好地應對打斷和插話 。 這種實時、連續的語音交互能力 , 是當前語音AI模型尚未具備的 。
值得注意的是 , 驅動語音AI模型的底層大型語言模型 , 與當前驅動ChatGPT文本回復的模型并不完全相同 。
在團隊配置上 , 語音AI項目的關鍵負責人之一是昆丹·庫馬爾(Kundan Kumar) 。 他是一名語音AI研究員 , 于今年夏天從全球AI陪伴應用“一哥”、美國AI聊天機器人獨角獸公司Character.AI加入OpenAI , 負責主導相關工作 。
此外 , 項目核心成員還包括產品研究主管本·紐豪斯(Ben Newhouse) , 他曾推動OpenAI將原本面向文本AI的基礎設施重構為支持語音模型 , 多模態ChatGPT的產品經理杰基·香農(Jackie Shannon) 。

二、AI“伴侶型”設備 , 主動理解環境與用戶目標OpenAI的研究人員正在同步推進一款語音驅動的個人設備 , 其核心理念是讓用戶通過語音而非屏幕與AI交互 。
據知情人士透露 , 今年夏天 , 參與該設備研發的研究人員曾向內部員工展示相關構想:這款AI語音設備將更像是一個與用戶并肩工作的伙伴 , 能夠主動提供建議 , 幫助用戶完成目標 , 而不僅僅是應用程序或軟件的語音入口 。
在獲得用戶授權的前提下 , 該設備可通過語音和視頻感知周圍環境及用戶自身狀態 , 從而提供更具情境感知能力的服務 。
目前 , 已有多名OpenAI員工參與到與該設備相關的不同環節中 , 包括供應鏈管理、工業設計以及模型研究等 。
在硬件設計層面 , 據此前智東西報道 , OpenAI于2025年5月21日以近65億美元(約合人民幣455億元)的價格收購了io公司 , io團隊的大部分成員(約55人)加入OpenAI 。 io公司由前蘋果首席設計官喬納森·艾維(Jony Ive)聯合創立 , 負責為OpenAI設計這款全新的AI硬件產品 。
OpenAI發文 , io團隊已正式加入OpenAI(來源:OpenAI官網)
多位知情人士還透露 , OpenAI并不打算只推出單一設備 , 而是計劃分階段發布一系列產品 , 內部討論過的形態包括智能眼鏡以及完全無顯示屏的智能音箱 。

三、無屏交互的前提是先習慣使用語音功能The Information的報道中提到 , OpenAI的研究人員正在開發這款語音驅動的個人設備 , 是希望用戶通過語音而非屏幕進行交互 。
這一思路在Al研究界并非個例 。 包括Thinking Machines Lab在內的不少研究機構都認為 , 語音是人類最自然的交流方式 , 人機交互也應回歸這一形態 。
不過 , 一位前OpenAI員工提到 , 目前的現實挑戰在于 , 大量ChatGPT用戶并不習慣使用語音功能 。 原因既可能是語音體驗尚不成熟 , 也可能是部分用戶根本不知道ChatGPT支持語音交互 。
這意味著 , 在推出語音優先的硬件產品之前 , OpenAI需要先培養用戶的使用習慣 。

結語:當AI走向“去屏幕化” , 下一代設備輪廓初現在OpenAI的設備設想中 , “無屏幕”被視為一項重要設計方向 。 部分業內人士認為 , 這種形態有助于降低用戶對設備的成癮程度 。
喬納森·艾維目前正深度參與OpenAI的硬件研發 。 他曾提到 , 對他而言 , 參與這類項目至關重要 , 因為他認為未來的新型設備 , 或許是修復過去消費電子產品所帶來問題的一種方式 。
與谷歌、亞馬遜、Meta、蘋果等科技巨頭類似 , OpenAI也在積極布局新一代個人AI設備 , 包括可穿戴產品 。 在這些公司看來 , 當前最主流的設備形態——如iPhone——并未真正為未來的AI能力而設計 , 而這正是下一輪硬件創新的突破口所在 。
【OpenAI押注無屏交互,語音AI可實時對話,設備預計明年發布】來源:The Information、TechCrunch、維基百科

    推薦閱讀