阿里Qwen3.5-Omni發布:音視頻交互新突破,全模態能力登頂全球

阿里Qwen3.5-Omni發布:音視頻交互新突破,全模態能力登頂全球

文章圖片


全球全模態大模型競賽迎來新變數 。
3月30日 , 阿里巴巴正式推出千問系列新一代全模態大模型Qwen3.5-Omni 。
這款模型在音視頻理解、跨模態推理、實時交互等215項第三方評測中拿下SOTA(State of the Art) , 直接對標并超越了谷歌Gemini-3.1 Pro的諸多核心指標 。



Qwen3.5-Omni跑分圖
與市面上多數“拼接式”多模態方案不同 , Qwen3.5-Omni采用混合注意力MoE架構 , 在海量文本、視覺數據及超過1億小時的音視頻素材上完成了端到端的原生預訓練 。
這意味著 , Qwen3.5-Omni并非簡單地將語音轉文字再處理 , 而是真正具備對視頻畫面、人物情緒、對話邏輯的深層次理解能力 。
據官方披露 , Qwen3.5-Omni支持113種語言及方言的語音識別(包括毛利語、海南方言等小語種) , 以及36種語言的語音合成 。 在考察抗噪能力的WenetSpeech測試中 , 其錯誤率遠低于Gemini;而在Multi-Lingual 30語言語音生成評測中 , 表現同樣壓過Gemini-2.5-Pro-TTS一頭 。



Qwen3.5-Omni跑分圖
更值得關注的是其實時交互的“情商”——Qwen3.5-Omni能精準區分用戶的有效指令與隨口附和 , 自主判斷是否需要調用工具獲取實時信息(如天氣查詢) , 對話流暢度已接近真人水平 。
如果說年初爆火的Vibe Coding還停留在文字/圖片生成代碼階段 , Qwen3.5-Omni則直接將這一概念推進到了音視頻維度 。
用戶只需打開攝像頭 , 對著草圖或實物口述需求 , 哪怕是包含復雜產品邏輯的描述 , 模型也能直接輸出帶UI界面的產品原型代碼 。 有意思的是 , 這一能力并非人工刻意調教的結果 , 而是模型在擴展原生多模態能力過程中自然涌現的副產品 。
這種所見即所得的編程方式 , 對于產品經理、設計師乃至普通用戶而言 , 意味著從想法到原型的路徑被壓縮到了分鐘級 。
除此之外 , Qwen3.5-Omni在專業內容生產領域同樣展現出降本增效的潛力 。
模型可對視頻畫面主體、人物關系、情緒起伏進行像素級拆解 , 自動完成章節切片與時間戳標注 , 支持超過10小時的長音頻輸入 。 以往需要數小時的人工后期梳理工作 , 如今可被縮短至秒級 。 短視頻平臺、直播平臺、內容審核機構、游戲廠商等內容密集型行業 , 或將成為首批受益者 。
難能可貴的是 , 阿里在商業化路徑上延續了千問系列的高性價比策略 。
目前 , Qwen3.5-Omni已通過阿里云百煉平臺開放Plus、Flash、Light三檔API接口 , 普通用戶也可在Qwen Chat免費體驗 。 定價方面 , 每百萬Tokens輸入價格不到0.8元人民幣 , 不足Gemini-3.1 Pro的十分之一 。
據第三方數據 , 千問系列目前穩居中國企業級大模型調用市場頭把交椅 , 覆蓋互聯網、金融、消費電子及汽車等行業的超100萬家企業客戶 。
【阿里Qwen3.5-Omni發布:音視頻交互新突破,全模態能力登頂全球】過去半年 , 市場注意力被OpenAI和谷歌多模態迭代牽引 , 國內廠商多被質疑為跟隨者 。 但這次 , 阿里在音視頻理解、方言識別和實時交互等細分維度實現了反超 , 且選擇了完全開放的API策略 。 這或許正是中國AI企業在全球化競爭中找到的有效路徑:不追求在所有榜單上霸榜 , 但在特定高價值場景建立不可替代性 。
如今大模型技術門檻被抹平 , 剩下的就是執行力的較量了 。

    推薦閱讀