融資5.6億的AI語音新星被谷歌盯上,核心團隊入職DeepMind

融資5.6億的AI語音新星被谷歌盯上,核心團隊入職DeepMind

文章圖片

融資5.6億的AI語音新星被谷歌盯上,核心團隊入職DeepMind

文章圖片

融資5.6億的AI語音新星被谷歌盯上,核心團隊入職DeepMind

文章圖片


智東西
編譯|萬貴霞
編輯|云鵬
智東西1月23日消息 , 谷歌正在通過“引入團隊+技術授權”的方式 , 加速補齊Gemini在語音與情感理解上的短板 。
據TechCrunch與美國《連線》昨日報道 , 谷歌旗下DeepMind已與AI語音初創公司Hume AI達成授權合作協議 。 Hume AI創始人兼CEOAlan Cowen將與約7名核心工程師加入DeepMind , 直接參與Gemini語音與情感智能的研發 。
這筆交易并非整體收購 , 根據Hume AI新任CEO Andrew Ettinger的說法 , 谷歌獲得了Hume AI全部知識產權的非獨家使用權 , 相關技術將被整合進谷歌的模型研發流程 , 而Hume AI公司主體仍將獨立運營 , 并繼續向其他AI實驗室提供服務 。
Hume AI的核心優勢在于“情感智能”語音模型 , 該公司專注于通過語音信號識別用戶情緒與心理狀態 。 2024年其推出“共情語音接口”(Empathetic Voice Interface) , 并已累計融資約8000萬美元(約合人民幣5.6億元) , 預計今年營收可達1億美元(約合人民幣7億元) 。
谷歌此次引入其核心團隊 , 被視為在語音體驗上正面迎戰ChatGPT語音模式的關鍵一步 。

一、核心團隊加入DeepMind , 主打“情感智能”的語音模型據報道 , Hume AI創始人兼前CEO Alan Cowen將與多名工程師加入谷歌DeepMind , 主要任務是幫助谷歌將語音與情感智能整合進其前沿模型 , 提升Gemini在自然對話和情緒理解方面的能力 。
Hume AI創始人Alan Cowen(圖源:Alan Cowen個人網站)
Cowen本人擁有心理學博士背景 , 這也被認為是Hume在“情感建?!狈较蛏系闹匾獌瀯?。
此次交易的具體金額尚未披露 。 Hume AI新任CEO、投資人兼科技高管Andrew Ettinger告訴TechCrunch記者 , 谷歌獲得了Hume AI全部知識產權的非獨家使用權 , 相關技術將被整合進谷歌的研發流程 , 但公司并未被整體出售 。
Andrew Ettinger繼任Hume AI CEO的消息(圖源:領英Andrew Ettinger個人主頁)
Hume AI將繼續對外提供技術服務 , 并計劃在未來幾個月內發布新模型 。 Ettinger預計 , Hume AI有望在今年實現約1億美元的營收目標 。
Hume AI成立以來 , 始終聚焦一個相對細分但潛力巨大的方向——理解人類語音中的情緒與心理狀態 。
2024年 , Hume AI推出“共情語音接口” , 其核心能力在于通過語音信號判斷用戶的情緒變化 , 并據此調整回應方式 。 與傳統語音助手側重指令識別不同 , Hume的模型試圖解決“用戶當下處于什么狀態”這一問題 。
Hume AI官網頁面(圖源:Hume AI官網)
WIRED報道中提到 , Hume AI在模型訓練過程中投入了數百萬美元 , 通過專家標注大量真實對話中的情緒線索 , 使模型能更精細地區分語氣、語調與情緒變化 。
PitchBook數據顯示 , Hume AI目前累計融資約8000萬美元 , 投資方包括AEGIS Ventures等機構 。

二、谷歌補齊Gemini語音短板 , 語音賽道全面升溫對谷歌而言 , 引入Hume AI團隊并不意外 。 近年來 , 谷歌持續推進Gemini Live功能 , 允許用戶以語音方式與AI進行連續對話 。
上個月 , 谷歌還發布了面向Live API的原生音頻模型 , 強調其在復雜流程處理方面的能力 。 但在“自然度”和“情感感知”層面 , Gemini仍面臨來自OpenAI等對手的壓力 。
谷歌Gemini Live API概覽(圖源:谷歌Cloud)
在此背景下 , Hume AI團隊被視為一個“即插即用”的補強方案 。 多位匿名消息人士向WIRED透露 , Cowen及其團隊將在谷歌內部 , 專注于將情感智能深度嵌入新一代模型 。
Hume AI并非孤例 。 過去一年 , 語音能力正在成為AI廠商投入資源最多的方向之一 。
本月初 , AI語音生成公司ElevenLabs披露 , 其年度經常性收入(ARR)已突破3.3億美元(約合人民幣23.1億元) , 顯示出市場對高質量語音技術的真實需求 。
與此同時 , OpenAI被曝正在與前蘋果設計師Jony Ive團隊合作開發一款主打音頻功能的個人設備 , 為今年發布做準備 。 近期泄露的消息說 , 該設備可能是一款耳塞 。
Meta同樣在加速布局 。 去年 , Meta收購語音初創公司Play AI , 其Ray-Ban智能眼鏡已越來越依賴語音輸入 , 在嘈雜環境下實現通話、信息與多媒體控制 。 投資人Vanessa Larco直言:“在可穿戴設備上 , 語音幾乎是唯一可行的輸入方式 。 ”
Ray-Ban智能眼鏡(圖源:Reddit)

結語:“授權+挖人”成為常態 , 語音成為AI的“下一層接口” 【融資5.6億的AI語音新星被谷歌盯上,核心團隊入職DeepMind】值得注意的是 , Hume AI的交易再次觸及一個監管敏感問題:“收購式招聘” 。 與直接并購公司不同 , 大型科技公司通過引入初創團隊、獲取技術授權 , 往往可以繞開傳統并購所需的反壟斷審查 。
類似案例已多次出現 , 谷歌此前以授權方式引入Character AI相關技術;微軟招募了Inflection團隊;亞馬遜引入Adept核心人員;Meta則挖走了Scale AI的CEO 。
從當前趨勢來看 , 語音正在演變為AI與人類交互的核心入口 。 對科技公司而言 , 理解“說了什么”只是第一步 , 更重要的是理解“為什么這樣說”“說話時的情緒狀態是什么” 。
隨著語音、情感與多模態能力進一步融合 , AI的競爭焦點正在從模型參數規模 , 轉向真實交互體驗的細節層面 。
來源:《連線》雜志、TechCrunch

    推薦閱讀