阿里Qwen3.5-Omni發布：音視頻交互新突破，全模態能力登頂全球

2026-05-01 阿里巴巴

文章圖片

全球全模態大模型競賽迎來新變數。
3月30日，阿里巴巴正式推出千問系列新一代全模態大模型Qwen3.5-Omni 。
這款模型在音視頻理解、跨模態推理、實時交互等215項第三方評測中拿下SOTA（State of the Art），直接對標并超越了谷歌Gemini-3.1 Pro的諸多核心指標。

Qwen3.5-Omni跑分圖
與市面上多數“拼接式”多模態方案不同， Qwen3.5-Omni采用混合注意力MoE架構，在海量文本、視覺數據及超過1億小時的音視頻素材上完成了端到端的原生預訓練。
這意味著， Qwen3.5-Omni并非簡單地將語音轉文字再處理，而是真正具備對視頻畫面、人物情緒、對話邏輯的深層次理解能力。
據官方披露， Qwen3.5-Omni支持113種語言及方言的語音識別（包括毛利語、海南方言等小語種），以及36種語言的語音合成。在考察抗噪能力的WenetSpeech測試中，其錯誤率遠低于Gemini；而在Multi-Lingual 30語言語音生成評測中，表現同樣壓過Gemini-2.5-Pro-TTS一頭。

Qwen3.5-Omni跑分圖
更值得關注的是其實時交互的“情商”——Qwen3.5-Omni能精準區分用戶的有效指令與隨口附和，自主判斷是否需要調用工具獲取實時信息（如天氣查詢），對話流暢度已接近真人水平。
如果說年初爆火的Vibe Coding還停留在文字/圖片生成代碼階段， Qwen3.5-Omni則直接將這一概念推進到了音視頻維度。
用戶只需打開攝像頭，對著草圖或實物口述需求，哪怕是包含復雜產品邏輯的描述，模型也能直接輸出帶UI界面的產品原型代碼。有意思的是，這一能力并非人工刻意調教的結果，而是模型在擴展原生多模態能力過程中自然涌現的副產品。
這種所見即所得的編程方式，對于產品經理、設計師乃至普通用戶而言，意味著從想法到原型的路徑被壓縮到了分鐘級。
除此之外， Qwen3.5-Omni在專業內容生產領域同樣展現出降本增效的潛力。
模型可對視頻畫面主體、人物關系、情緒起伏進行像素級拆解，自動完成章節切片與時間戳標注，支持超過10小時的長音頻輸入。以往需要數小時的人工后期梳理工作，如今可被縮短至秒級。短視頻平臺、直播平臺、內容審核機構、游戲廠商等內容密集型行業，或將成為首批受益者。
難能可貴的是，阿里在商業化路徑上延續了千問系列的高性價比策略。
目前， Qwen3.5-Omni已通過阿里云百煉平臺開放Plus、Flash、Light三檔API接口，普通用戶也可在Qwen Chat免費體驗。定價方面，每百萬Tokens輸入價格不到0.8元人民幣，不足Gemini-3.1 Pro的十分之一。
據第三方數據，千問系列目前穩居中國企業級大模型調用市場頭把交椅，覆蓋互聯網、金融、消費電子及汽車等行業的超100萬家企業客戶。
【阿里Qwen3.5-Omni發布：音視頻交互新突破，全模態能力登頂全球】過去半年，市場注意力被OpenAI和谷歌多模態迭代牽引，國內廠商多被質疑為跟隨者。但這次，阿里在音視頻理解、方言識別和實時交互等細分維度實現了反超，且選擇了完全開放的API策略。這或許正是中國AI企業在全球化競爭中找到的有效路徑：不追求在所有榜單上霸榜，但在特定高價值場景建立不可替代性。
如今大模型技術門檻被抹平，剩下的就是執行力的較量了。

推薦閱讀

上一篇：曝 iPhone 18 Pro 采用新設計，靈動島或有新變化

下一篇：小米18 Pro Max曝光，旗艦級雙2億影像