日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)

文章圖片

遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)


在算力資源的匱乏下 , 中國的實時語音AI正面臨著一場艱難的較量 , 試圖在技術(shù)舞臺上與GPT-4o一決高下 , 這無疑是當(dāng)前中國AI版圖中的尷尬局面 。
@科技新知 原創(chuàng)
作者丨廖政 編輯丨蕨影
最近 , 語音AI這個賽道 , 又被OpenAI搞火了 。
就在9月25日 , GPT-4o高級語音終于開始全量推出 , Plus用戶一周內(nèi)都能用了 。 在OpenAI的移動端APP上即可體驗!
講真 , 這是AI漸冷的日子里 , 為數(shù)不多的“高光時刻” 。



此外 , 還帶上了一些更新 , 增加自定義指令、記憶、5種新的聲音和改進(jìn)的口音 。 與標(biāo)準(zhǔn)語音模式進(jìn)行區(qū)分(黑色旋轉(zhuǎn)球) , 高級語音將以藍(lán)色旋轉(zhuǎn)球表示 。
并且 , 其中還包括對諸如重慶話、北京兒化音等地域性方言的精準(zhǔn)模仿 , 可以說是學(xué)嘛像嘛 。



在消除語音機械感的同時 , 用戶不僅可以隨時打斷通話 , 即使不和它說話時 , 它也能保持安靜 , 一旦有任何問題可隨時向它提出 。
從總體上來說 , 這次語音AI的更新 , 讓GPT-4o的交互越來越有“人味”了 。
不過 , 早在GPT-4o的實時語音功能推出前 , 國內(nèi)的一批大廠 , 就已經(jīng)率先開始了對語音AI這塊高地的爭奪 , 其焦點也是沖著“實時交流”“真人化”等方向去的 。
至于結(jié)果…… 只能說 , 在“徒有其表”的模仿下 , 國內(nèi)的語音AI , 離真正通用且泛化的人機交互方式 , 還有相當(dāng)一段距離 。
Part.1
短板暴露

【遭GPT-4o碾壓,豆包們直面語音AI生死戰(zhàn)】

在AI時代 , 語音AI最大的意義是什么?
對于這個問題 , 科大訊飛給出了一個具有全局性的答案:
語音平臺可能成為未來物聯(lián)網(wǎng)的“操作系統(tǒng)” , 換句話說 , 就是當(dāng)物聯(lián)網(wǎng)將所有的設(shè)備都能聯(lián)網(wǎng)后 , 什么智能硬件、自動駕駛汽車、消費級機器人等等 , 都是潛在的應(yīng)用場景 。
到那時候 , 要想讓這些設(shè)備能聽懂人話 , 那就得靠語音平臺了 。
但是 , 雖然總的思路挺有格局的 , 但在具體實施的手段上 , 訊飛這樣的大廠卻走了一條“自下而上”的路線 。



大體意思是 , 在語音AI生態(tài)的構(gòu)建上 , 訊飛這幾年基本上是從行業(yè)場景一個個往下打 , 像教育、醫(yī)療、政務(wù)這些場景 , 都是它們重點發(fā)力的地方 。
從總體上看 , 訊飛的策略是先抓住這些垂直領(lǐng)域 , 通過提供專用解決方案來逐步累積數(shù)據(jù)和優(yōu)化算法 。 這個做法有個好處 , 就是每個場景里 , 訊飛可以做得很深、很專 。
舉例來說 , 訊飛在2022年推出了“訊飛醫(yī)療AI醫(yī)生助手” , 這款產(chǎn)品能在病歷記錄、輔助診療等方面提供語音輸入和智能建議 , 幫助醫(yī)生減輕文書工作壓力 。



類似的例子 , 還有訊飛在2023年推出了“智慧課堂解決方案” , 旨在通過語音識別和評測技術(shù) , 幫助教師進(jìn)行實時的課堂互動與教學(xué)反饋 。
在這些垂直領(lǐng)域 , 星火的定制化方案 , 確實解決了很多行業(yè)痛點 , 也使得訊飛能夠在激烈的市場競爭中保持行業(yè)的龍頭地位 。
在GPT-4o推出語音演示功能后 , 訊飛的星火大模型 , 也緊隨其后 , 推出了同樣能夠極速響應(yīng)、自由打斷 , 且能在各種情感、風(fēng)格、方言隨意切換的語音AI 。



然而 , 對于構(gòu)建能夠“統(tǒng)一調(diào)度”的大平臺級別的語音AI來說 , 除了做到布局廣 , 且“說話流暢”之外 , 還有至關(guān)重要的一步 。
那就是:實時狀態(tài)下的語音AI , 究竟能否幫助用戶解決一些較為復(fù)雜的需求?
關(guān)于這點 , 我們對訊飛的星火大模型進(jìn)行了一次測試 。




左右滑動查看更多
左:純文本狀態(tài)下的回答 , 右:實時語音狀態(tài)下的回答
例如 , 在詢問開封有哪些著名景點時 , 訊飛的實時語音AI , 雖然回答得很流暢 , 但答案卻較為簡單 , 比純文本狀態(tài)下省略了很多內(nèi)容 。
那造成這種差距的關(guān)鍵原因是什么?
其實 , 對于GPT-4o這樣的語音AI來說 , 除了確保通話流暢的RTC技術(shù)外 , 其背后還有一種關(guān)鍵的技術(shù) 。
這就是端到端的語音大模型 。
在以往的AI語音交互中 , 語音的處理大致分成了三個步驟 。 傳統(tǒng)的 STT(語音識別 , Speech-to-Text)-LLM(大模型語義分析)- TTS(文本到語音 , Text To Speech)三步走的語音技術(shù) 。
這樣的技術(shù) , 特點是成熟 , 但反應(yīng)慢 , 缺乏對語氣等關(guān)鍵信息的理解 , 無法做到真正的實時語音對話 。
與過去的三步式語音交互產(chǎn)品相比 , GPT-4o 是一款跨文本、視覺和音頻端到端訓(xùn)練的新模型 , 這意味著所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理 。



這也是GPT-4o說話時反應(yīng)賊快 , 智商還在線的重要原因 。
而當(dāng)今一眾力圖模仿GPT-4o的國產(chǎn)廠商 , 例如字節(jié)跳動 , 雖然依靠RTC技術(shù) , 讓語音AI做到了流暢、即時 , 但在最核心的“內(nèi)功” , 即端到端語音模型方面 , 卻露出了短板 。
Part.2
“智力”縮水



在今年的8月21日 , 字節(jié)挑動的豆包大模型 , 搭載了火山引擎的RTC技術(shù) , 也實現(xiàn)了類似GPT-4o的實時音頻互動表現(xiàn) , 能夠做到隨時打斷 , 交流自然 , 感覺就像真人說話一樣 。
所謂RTC(Real-Time Communication)技術(shù) , 是一種支持實時語音、實時視頻等互動的技術(shù) 。 旨在降低語音通話中的延遲 , 使得用戶在進(jìn)行語音對話時感覺更加自然和順暢 。
但RTC主要解決的 , 僅僅是語音AI流暢性和實時性問題 , 但它并不能直接整合語音識別、理解和生成的步驟 。
換句話說 , 在實時通話時 , 模型雖然話說得利索了 , 但智商卻不一定在線 。
一個明顯的例子 , 就是字節(jié)的豆包大模型 , 在通過實時語音AI與用戶交流時 , 遇到了和訊飛星火一樣的問題 , 那就是語音AI的智力 , 明顯比純文本大模型被“砍”了很多 。




左右滑動查看更多
左:實時語音狀態(tài)下豆包的回答 , 右:純文本狀態(tài)下豆包的回答
例如 , 在對《黑神話:悟空》這一話題進(jìn)行交流時 , 純文本狀態(tài)下的豆包 , 回答明顯要比實時語音的豆包要更詳細(xì) , 更有針對性 。
一個可能的原因 , 是豆包在進(jìn)行語音交互時 , 使用的并不是真正的端到端語音大模型 。
在非端到端模型中 , 語音識別、理解和生成可能仍然是分開的步驟 , 模型需要在極短的時間內(nèi)完成語音識別、理解和生成 , 而這一過程的計算和響應(yīng)速度 , 會限制其對復(fù)雜問題的深入處理 。
當(dāng)模型被迫快速反應(yīng)時 , 由于無法充分利用上下文信息 , 從而導(dǎo)致了“智力下降”的表現(xiàn) 。



其實 , 真正的端到端語音大模型 , 實現(xiàn)起來遠(yuǎn)非想象中那么簡單 。
其中的難點 , 一在訓(xùn)練數(shù)據(jù) , 二在計算資源;
根據(jù)騰訊算法工程師Marcus Chen的推測 , GPT-4o這樣的端到端語音大模型 , 背后使用的一種工程學(xué)方法 , 很可能是一種名叫離散化技術(shù)的路子 。
這個技術(shù) , 簡單點說 , 就是把這些連續(xù)的聲音波形切成一段一段的 , 每一段都提取出它特有的特征 , 比如語音的語義信息和聲學(xué)特征 。 這些特征就像是一個個小的“口令” , 機器可以把它們當(dāng)成輸入 , 丟到語言模型里去學(xué)習(xí)和理解 。
但這可不是什么人人都能輕松掌握的技術(shù) 。



要想做出高質(zhì)量的語音token , 需要大量的數(shù)據(jù)積累和復(fù)雜的建模過程 。
這樣的高質(zhì)量數(shù)據(jù) , 往往來自高質(zhì)量的視頻、播客等等 。 成本是過去文字訓(xùn)練模型的幾十倍甚至更高 。
而在計算資源方面 , 在實時互動場景中 , 計算必須在極短的時間內(nèi)完成 , 這意味著端到端的大模型 , 通常需要消耗大量的計算資源 , 尤其是在處理高維度的語音數(shù)據(jù)任務(wù)時 。
這也是為什么 , OpenAI在推出GPT-4o的語音AI功能后 , 對用戶的使用量進(jìn)行了額度限制 。 其額度消耗和GPT-4o回復(fù)的額度一樣 。
反觀現(xiàn)在以豆包為首的一些國產(chǎn)語音AI , 雖然以免費、不限次數(shù)為噱頭 , 但其生成質(zhì)量 , 卻相較于純文本狀態(tài)大打折扣 。



這或許正是在算力資源緊張的情況下 , 模型采取的一種“權(quán)宜之計” 。
因為當(dāng)計算資源不足時 , 模型可能會優(yōu)先選擇簡單的、低耗能的響應(yīng)方式 , 以確保能夠及時回應(yīng)用戶的請求 。
畢竟 , 又想要免費無限地使用 , 又想要高質(zhì)量的實時回復(fù) , 天底下哪有那么好的事?
Part.3
算力困境



在AI時代 , 各類To C 語音產(chǎn)品的主要邏輯是 , 將昂貴或難以獲得的人類服務(wù) , 且是基于對話且可以在線完成的 , 替換為 AI , 主要場景包括心理療愈、輔導(dǎo)、陪伴等 。
對于To C 類APP , 要想大范圍地落地 , 其中一個前置條件 , 必然是成本的大幅度降低 。 唯有如此 , 企業(yè)才能夠以更低的價格提供服務(wù) , 進(jìn)而不斷擴大用戶基數(shù) 。
但問題是 , 在降低成本的同時 , 質(zhì)量和成效能否保障一定的水準(zhǔn)?
這正是最考驗訊飛、字節(jié)等大廠的一點 。



從商業(yè)上來說 , 在降低成本的同時 , 要想質(zhì)量不拉胯 , 就需要有源源不斷的資金 , 進(jìn)行研發(fā)和技術(shù)迭代 。
這就要求企業(yè)找到一種明確的商業(yè)模式 , 來自我造血 。
OpenAI之所以能在如此短的時間推出GPT-4o的語音功能 , 是因為背靠微軟 , 能獲得源源不斷的融資 , 從而不斷強化其模型的能力 。
相較之下 , 坐擁幾乎是行業(yè)內(nèi)最為豐富業(yè)務(wù)場景的科大訊飛 , 雖然趕上了2023年AI浪潮 , 并在同年6月市值一度逼近2000億大關(guān) , 可隨著其大模型持續(xù)高額的投入、銷售費用持續(xù)攀升 。 當(dāng)下 , 訊飛對大模型收益能否覆蓋成本尚無定論 , 成本壓力始終存在 。



一個重要的問題是:既然在一些特定的行業(yè) , 例如醫(yī)療、教育、客服等 , 傳統(tǒng)語音AI已經(jīng)能夠勝任了 , 那么以端到端大模型為核心的語音AI , 又該怎樣從中獲取自己的市場份額?
一個可能的方向 , 就是在各種長尾需求中 , 對一系列復(fù)雜查詢和非標(biāo)準(zhǔn)化指令做出回應(yīng) 。 例如在智能汽車或移動應(yīng)用中 , 端到端模型可以通過自然語言 , 理解用戶說的犄角旮旯的地點在哪 , 并提供精確的導(dǎo)航指令 。



然而 , 在這種模式下 , 用戶更多地是為語音AI背后強大的語言模型付費 , 為其出眾的智力付費 。
因此 , 端到端語音AI的盈利之路 , 一開始就因為這種“附屬地位”而充滿了坎坷 , 因為前者的能力一旦遇到瓶頸 , 其也會跟著“一損俱損” 。
而在附屬于語言大模型的尷尬之下 , 在算力資源的分配方面 , 語音AI也面臨著一種不利的態(tài)勢 。 例如 , 對于字節(jié)來說 , 迄今為止 , 字節(jié)跳動已經(jīng)推出了11款A(yù)I應(yīng)用;其中 , 豆包是國內(nèi)用戶最多的AI獨立應(yīng)用 , 其MAU可能已達(dá)到2000萬量級 。
然而 , 從業(yè)務(wù)布局上來說 , 語音AI現(xiàn)階段不太可能是字節(jié)的重點 。
在9月24日的深圳AI創(chuàng)新巡展上 , 火山引擎發(fā)布兩款視頻生成大模型PixelDance(像素舞動)和Seaweed(海草) , 很多業(yè)內(nèi)人士分析 , 這條視頻AI的類“Sora”賽道 , 才是以短視頻聞名的字節(jié)真正不能輸?shù)舻囊徽?。
而AI視頻生成 , 恰恰又是最消耗算力的一條賽道 。



來源:豆包AI視頻生成模型
與語音AI相比 , 同樣消耗高算力的視頻生成AI , 因為對應(yīng)著短視頻這個更明確 , 且更易于盈利的賽道 , 因此在資源分配上 , 更有可能得到大廠或投資者的傾斜 。
結(jié)合之前豆包在實時通話狀態(tài)下的智力表現(xiàn) , 我們或許能夠推斷 , 留給豆包打造端到端語音大模型的算力 , 未必會那么充足 。
而這種資源不足 , 卻又要在面上與GPT-4o一較高下的情況 , 這正是當(dāng)下實時語音AI這支“偏軍”在中國AI版圖中的窘境所在 。
語音交互技術(shù)火熱了十來年 , 到了大模型時代 , OpenAI、科大訊飛、字節(jié)這些大廠 , 又開始重新在往這領(lǐng)域擠 , 為何?因為這種技術(shù) , 實際上暗藏著語音平臺可能成為未來物聯(lián)網(wǎng)“大腦”的想象 。
通過一個語音平臺 , 操控所有智能終端 , 這是所有傳統(tǒng)語音AI都辦不到的事 。 但是 , 這技術(shù)要想做得好 , 得先解決一個大問題 , 就是機器得能真正理解人說的話 。 這就需要AI在自然語言理解、知識獲取這些領(lǐng)域有新的突破 。
然而 , 在語言大模型遇到瓶頸 , 且算力資源被視頻AI等“光環(huán)”更耀眼的產(chǎn)品搶走的情況下 , 語音AI在中國人工智能的版圖中 , 暫且只能是個尷尬的存在 。

    推薦閱讀