阿里最強全模態模型登場！實測看懂50分鐘《老友記》，全球評測215項SOTA

2026-05-03 供應鏈管理人工智能智能機器人

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

智東西
作者 | 陳駿達
編輯 | 李水青
智東西3月31日報道，昨天，阿里推出了最新一代全模態大模型Qwen3.5-Omni ，這是一款能原生理解文本、圖片、音頻及音視頻輸入的模型，并能以文本和音頻兩種模態輸出。
阿里上一次更新Omni系列模型還是在去年9月。昨天上線的Qwen3.5-Omni系列包含Plus、Flash、Light三種尺寸，支持256k長上下文和超過10小時的音頻輸入，以及超過400秒的720P（1 FPS）音視頻輸入。
千問團隊在技術博客中稱，在215項音頻/音視頻的理解、推理和交互任務上， Qwen3.5-Omni-Plus取得了SOTA成績。這一模型的通用音頻理解、推理、識別、翻譯、對話超越了Gemini-3.1 Pro ，音視頻理解能力總體達到Gemini-3.1 Pro水平。同時，視覺和文本能力與同尺寸Qwen3.5模型持平。
這些能力解鎖了不少有趣的用例，比如，你可以在realtime模式下拿著手機、打開攝像頭，對著草圖向Qwen3.5-Omni分享你的開發思路，而它能幫你生成對應的代碼，實現“用嘴編程” ，快速輸出原型設計。
此外， Qwen3.5-Omni可以理解39種國內方言和74種語言，并合成7種國內方言和29種語言的音頻，在多語言支持上較上一代模型Qwen3-Omni有了明顯擴展。
我們試著用閩南話與Qwen3.5-Omni聊了會兒天，它對閩南語的理解準確，生成的語音也較為地道，不過仍然夾雜幾個普通話詞匯。從發送語音到返回音頻， Qwen3.5-Omni大概用了1-2秒，還調用了網絡搜索提供了正確的當日天氣信息。
目前， Qwen3.5-Omni系列模型可在阿里云百煉上通過API調用的方式使用，并支持offline和realtime兩種調用模式。此外，用戶也可在chat.qwen.ai、Hugging Face和魔搭上體驗這一模型。
這一模型的API調用價格采取階梯計費模式，在常用的輸入≤128k場景下，其音頻輸入價格為4.96元/百萬tokens ，文本/圖片/視頻輸入價格為0.8元/百萬tokens 。模型的輸出價格為61.322元/百萬tokens（文本+音頻），僅輸出文本時的價格為9.6元/百萬tokens 。
模型發布后，智東西第一時間對Qwen3.5-Omni-Plus進行了體驗。這一模型在長視頻理解、多模態指令遵循方面展現了不錯的處理能力，同時其低延遲的實時交互與新增的語音控制功能，提升了交互體驗。
Qwen3.5-Omni-Plus-Realtime：
https://help.aliyun.com/zh/model-studio/realtime
Qwen3.5-Omni-Plus：
https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/detail/qwen3.5-omni-plus
魔搭離線Demo:
https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Offline-Demo
魔搭實時Demo:
https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Online-Demo

一、1分鐘看完50分鐘視頻，還能實現“用嘴編程”在技術博客中，千問團隊稱， Qwen3.5-Omni-Plus的一大能力是音視頻描述（Caption）。結合提示詞要求， Qwen3.5-Omni-Plus可以生成劇本級的細粒度描述，并進行自動切片、時間戳打標和人物與音頻關系的詳細介紹。
實測中，我們向Qwen3.5-Omni-Plus上傳了一集50分鐘左右的美劇《老友記》，并讓它按照系統提示詞的要求，輸出畫面內容的準確描述。
Qwen3.5-Omni-Plus處理這集內容大概用了1分鐘，速度還是較為理想的。它的描述完整覆蓋了視頻時間線，無跳躍或遺漏，符合“按時間描述”的核心要求。
具體內容上，它的描述抓住了核心劇情轉折點，能識別重要人物關系和情緒變化，描述不是機械羅列，而是帶有輕微敘事感，效果比不少網盤中自動生成的AI視頻摘要可讀性強很多。
官方案例中， Qwen3.5-Omni-Plus收到了一段《舌尖上的中國》的切片，并對其進行音視頻描述。可以看到， Qwen3.5-Omni-Plus能按照畫面敘事和內容自動切分合適的時間節點，對內容的描述既包含了畫面，也包含了配音，結構清晰、細節豐富。
結合更為復雜的提示詞， Qwen3.5-Omni-Plus還可用于審核類任務，比如檢測游戲直播是否包含血腥暴力、危險行為、言語與欺凌和其他不當主題。
千問團隊還觀察到了全模態模型涌現出可以根據音視頻指令直接進行編程的能力，他們稱之為“Audio-Visual Vibe Coding” 。
實測中，我們上傳了一段錄屏，要求千問根據其中的畫面和語音指令快速開發一個社交媒體的原型。拿到視頻后， Qwen3.5-Omni-Plus很快就開始編程，視頻內容并未帶來明顯可感知的延遲。
其生成的網頁效果如下，基本符合小紅書網頁版的布局特點，各個界面的跳轉邏輯正確，手動插入圖片后，應該能達到80%的還原度。
官方Demo中，千問團隊還展示了Qwen3.5-Omni-Plus根據草圖生成網頁的能力。用戶只需在紙上畫出簡單的界面線框圖，拍照上傳并口述功能需求，模型便能理解設計意圖，直接輸出可運行的前端代碼。

二、實時交互能力加強，支持隨意打斷、語音克隆除了基座能力的提升， Qwen3.5-Omni系列模型的交互能力也得到加強。
Qwen3.5-Omni如今支持了語義打斷，也就是說用戶可以在模型“說話”的時候隨意插話，補充信息，提供新指令等等。
這一交互體驗基于Qwen3.5-Omni自動識別turn-talking意圖能力，可避免附和和無意義背景音打斷，已在API已原生支持。
在官方Demo中，可以看到Qwen3.5-Omni不會被“嗯嗯”這些附和性的內容打斷，而當用戶確實提出問題時，模型可以及時停止此前的回復并生成新內容。
Qwen3.5-Omni原生支持了網絡搜索和復雜FunctionCall能力，模型可以自主判斷是否需要使用網絡搜索來回應用戶的即時問題。我們在文章伊始展示的方言對話案例中，模型能搜索實時天氣信息，靠的就是這一能力。
端到端的語音控制和對話能力也已經整合至Qwen3.5-Omni中。模型可以像人一樣遵循指令來對聲音的大小、語速、情緒進行自由控制。
Qwen3.5-Omni支持音色克隆，用戶可以上傳音色來定制音色。官方Demo中， Qwen3.5-Omni能克隆說話者的音色，然后將其轉換為不同的語言，實現交替傳譯。

三、延用Thinker-Talker分工架構，采用混合注意力機制Qwen3.5-Omni系列模型是如何實現上述能力的？
Qwen3.5-Omni延續了上一代的Thinker-Talker分工架構——Thinker負責理解， Talker負責表達。但這一次，兩者都改為Hybrid-Attention MoE（混合注意力MoE），提升了模型效率和性能。
Thinker負責接收視覺和音頻信號，通過TMRoPE編碼位置信息，輸出文本。 Hybrid-Attention讓它在處理10小時長音頻、1小時視頻時，依然能快速抓住重點。
Talker則接收Thinker的多模態輸出，進行contextual語音生成。還使用RVQ編碼替代繁重的DiT運算。
針對流式語音交互中由于文本與語音Token編碼效率差異導致的語音不穩定性，如漏讀、誤讀或數字發音模糊等問題，千問團隊使用了ARIA（自適應速率交錯對齊， Adaptive Rate Interleave Alignment）技術、動態對齊文本與語音單元，可在保證實時性的前提下，提升語音合成的自然度與魯棒性。
Qwen3.5-Omni與Qwen3-Omni的詳細對比如下：

結語：全模態能力或將解鎖更多AI應用場景模型的全模態化已經成為一大趨勢。從千問的Omni系列模型再到谷歌的Gemini ，未來的模型將不再僅僅是文本、圖像或音頻能力的簡單疊加，而是具備統一的理解與生成架構，能夠像人類一樣自然地處理流式音視頻輸入。
【阿里最強全模態模型登場！實測看懂50分鐘《老友記》，全球評測215項SOTA】隨著長上下文處理、方言和多語言適配及低延遲響應能力的不斷擴展，大模型的全模態能力有望在內容審核、智能客服、實時翻譯發揮更大作用，提供更為自然的交互體驗。

推薦閱讀

上一篇：四曲面屏重出江湖！iPhone 20將搭載1.1毫米極窄邊框

下一篇：內存條價格大跳水！消費需求被壓制，高價透支后市場回歸理性