阿里一夜扔出三個開源王炸,猛刷32項開源SOTA

阿里一夜扔出三個開源王炸,猛刷32項開源SOTA

文章圖片

阿里一夜扔出三個開源王炸,猛刷32項開源SOTA

文章圖片

阿里一夜扔出三個開源王炸,猛刷32項開源SOTA

文章圖片

阿里一夜扔出三個開源王炸,猛刷32項開源SOTA

智東西9月23日消息 , 深夜 , 阿里通義大模型團隊連放三個大招:開源原生全模態大模型Qwen3-Omni、語音生成模型Qwen3-TTS、圖像編輯模型Qwen-Image-Edit-2509更新 。
Qwen3-Omni能無縫處理文本、圖像、音頻和視頻等多種輸入形式 , 并通過實時流式響應同時生成文本與自然語音輸出 。 其在36項音頻及音視頻基準測試中斬獲32項開源SOTA與22項總體SOTA , 超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源強模型 , 同時其圖像和文本性能也在同尺寸模型中達到SOTA水平 。
Qwen3-TTS支持17種音色與10種語言 , 在語音穩定性與音色相似度評估中超越SeedTTS、GPT-4o-Audio-Preview等主流產品 。
Qwen-Image-Edit-2509的首要更新是支持多圖編輯 , 可以拼接不同圖片中的人物+人物、人物+物體等 。
阿里開源主頁
阿里開源了Qwen3-Omni-30B-A3B-Instruct(指令跟隨)、Qwen3-Omni-30B-A3B-Thinking(推理)和通用音頻字幕器Qwen3-Omni-30B-A3B-Captioner 。
Hugging Face開源地址:
https://huggingface.co/Qwen
GitHub開源地址:
https://github.com/QwenLM/Qwen3-Omni

01. 支持119種語言交互 能隨意定制、修改人設在通義千問國際版網站上 , 只需點擊輸入框右下角 , 即可喚起視頻通話功能 。 目前該功能仍處于Beta測試階段 。
我們在實際測試中發現 , 網頁端的視頻交互體驗尚不穩定 , 因此轉而使用通義千問國際版App進行進一步體驗 。 在App中 , Qwen-Omni-Flash的視頻響應延遲較低 , 幾乎達到無感水平 , 接近真人面對面交流的流暢度 。
Qwen-Omni-Flash具備良好的世界知識儲備 , 我們通過識別啤酒品牌、植物等畫面進行測試 , 模型均能給出準確回答 。
官方博客提到 , Qwen3-Omni支持119種文本語言交互、19種語音理解語言與10種語音生成語言 , 延遲方面純模型端到端音頻對話延遲低至211ms , 視頻對話延遲低至507ms , 還能支持30分鐘音頻理解 。 但在實際使用中 , 當模型輸出英語、西班牙語等外語時 , 仍可察覺其發音帶有明顯的普通話語調特征 , 不夠自然地道 。
而在粵語交互場景下 , Qwen-Omni-Flash仍會不時夾雜普通話詞匯 , 一定程度上影響了對話的沉浸感 。
官方演示的幾個Demo中 , 展示了西班牙語、法語、日語的交互效果 。
該模型可以分析意大利餐廳的菜單 , 然后用法語為朋友推薦意大利面 , 其回復提到了經典的意大利面 , 并結合菜單的說明進行了簡要介紹 。
Qwen3-Omni還能查看網站內容 , 為用戶總結這是巴塞羅那畢加索博物館的官方網站 , 提到五座建筑以及相關街道的歷史背景等 。
日語交流場景中 , 模型可以分析視頻中人物所處的環境 , 以及他們交流的內容是什么 。
Qwen3-Omni支持system prompt隨意定制 , 可以修改回復風格、人設等 。
演示中 , 模型扮演的角色是廣東幼兒園老師 , 通過模型的特點總結圖為小朋友講解Qwen3-Omni , 其涵蓋了圖片中模型的四個特點 , 還用了小朋友更容易理解的比喻 。
多人交互場景中 , Qwen3-Omni也能分析人物的性別、說話的語氣、內容等 。
例如下面這段談話中 , 既有說四川話的女生邀請朋友來玩 , 還有說普通話的男生失戀了 , 以及另外的男生被偷狗等不同事件 , Qwen3-Omni被問到那個女生說的什么方言、說了什么 , 其問答分析出了是四川話 , 進行了自我介紹、發出邀請、贊美家鄉 。
讓模型分析視頻中哪個人最開心 , Qwen3-Omni認為是最后一個說話的小王 , 重點分析了他的語氣和豎大拇指的動作 。
此外 , Qwen3-Omni還支持分析音樂風格、元素 , 以及對視頻中畫面進行推理 , 如當其分析出視頻中的用戶是在解數學題 , 還會對這道題進行解答 。

02. 22項測試達SOTA 預訓練不降智Qwen3-Omni在全方位性能評估中 , 單模態任務表現與參數規模相當的Qwen系列單模態模型持平 , 在音頻任務中表現更好 。
該模型在36項音視頻基準測試中 , 32項取得開源領域最佳性能 , 22項達到SOTA水平 , 性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源模型 , 在語音識別與指令跟隨任務中達到Gemini-2.5-Pro相同水平 。
其博客提到 , Qwen3-Omni采用Thinker-Talker架構 , Thinker負責文本生成、Talker專注于流式語音Token生成 , 直接接收來自Thinker的高層語義表征 。
為實現超低延遲流式生成 , Talker通過自回歸方式預測多碼本序列:在每一步解碼中 , MTP模塊輸出當前幀的殘差碼本 , 隨后Code2Wav合成對應波形 , 實現逐幀流式生成 。
其創新架構設計的要點包括 , 音頻編碼器采用了基于2000萬小時音頻數據訓練的AuT模型 , 具備通用音頻表征能力;Thinker與Talker均采用MoE架構 , 支持高并發與快速推理 。
同時 , 研究人員在文本預訓練早期混合單模態與跨模態數據 , 可實現各模態混訓性能相比純單模態訓練性能不下降 , 同時顯著增強跨模態能力 。
AuT、Thinker、Talker+Code2wav采用全流程全流式 , 支持首幀Token直接流式解碼為音頻輸出 。
此外 , Qwen3-Omni支持function call , 實現與外部工具/服務的高效集成 。

03. 發布文本轉語音模型 多項基準測試達SOTA阿里通義還發布了文本轉語音模型Qwen3-TTS-Flash 。
其主要特點包括:
中英穩定性:Qwen3-TTS-Flash的中英穩定性在seed-tts-eval test set上 , 取得了SOTA的表現 , 超越SeedTTS、MiniMax、GPT-4o-Audio-Preview;
多語言穩定性和音色相似度上 , Qwen3-TTS-Flash在MiniMax TTS multilingual test set上 , WER在中文、英文、意大利語、法語達到SOTA , 顯著低于MiniMax、ElevenLabs、GPT-4o-Audio-Preview , 英文、意大利語、法語的說話人相似度顯著超越MiniMax、ElevenLabs、GPT-4o-Audio-Preview 。
高表現力:Qwen3-TTS-Flash具備高表現力的擬人音色 , 能夠穩定、可靠地輸出高度遵循輸入文本的音頻 。
豐富的音色和語種:Qwen3-TTS-Flash提供17種音色選擇 , 每一種音色均支持10種語言 。
多方言支持:Qwen3-TTS-Flash支持方言生成 , 包括普通話、閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陜西話 。
語氣適應:經過海量數據訓練 , Qwen3-TTS-Flash能夠根據輸入文本自動調節語氣 。
高魯棒性:Qwen3-TTS-Flash能夠自動處理復雜文本 , 抽取關鍵信息 , 對復雜和多樣化的文本格式具有很強的魯棒性 。
快速生成:Qwen3-TTS-Flash具有極低首包延遲 , 單并發首包模型延遲低至97ms 。
在具體性能方面 , 在MiniMax TTS multilingual test set上 , Qwen3-TTS-Flash在中文、英文、意大利語和法語的WER均達到了SOTA , 顯著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview 。 在說話人相似度方面 , Qwen3-TTS-Flash在英文、意大利語和法語均超過了上述模型 , 在多語言的語音穩定性和音色相似度上展現出了卓越的表現 。
研究人員引入了多項架構升級和加速策略 , 使得模型實現更低的首包延遲和更快的生成速度 。

04. 圖像編輯模型更新 支持多圖編輯阿里此次還推出了圖像編輯模型Qwen-Image-Edit-2509的月度迭代版本 。
相比于8月發布的Qwen-Image-Edit , Qwen-Image-Edit-2509的主要特性包括:
多圖編輯支持:對于多圖輸入 , Qwen-Image-Edit-2509基于Qwen-Image-Edit結構 , 通過拼接方式進一步訓練 , 從而提供“人物+人物”、“人物+商品” , “人物+場景”等多種玩法 。
單圖一致性增強:對于單圖輸入 , Qwen-Image-Edit-2509提高了一致性 , 主要體現在以下方面:人物編輯一致性增強 , 包括增強人臉ID保持 , 支持各種形象照片、姿勢變換;商品編輯一致性增強 , 包括增強商品ID保持 , 支持商品海報編輯;文字編輯一致性增強 , 除了支持文字內容修改外 , 還支持多種文字的字體、色彩、材質編輯 。
原生支持ControlNet , 包括深度圖、邊緣圖、關鍵點圖等 。

05. 結語:多模態賽道發力! 阿里通義家族模型加速擴員此次三大模型的新進展進一步強化了通義在多模態生成領域的競爭力 , 其中Qwen3-TTS-Flash在多說話人能力、多語言支持、多方言適配以及文本處理魯棒性等方面實現了性能突破 , 且與Qwen3-Omni結合實現了大模型語音表現的更新 。
阿里通義大模型的團隊在博客中提到 , 對于Qwen3-Omni未來他們將沿多個技術方向持續推進模型升級 , 包括多說話人ASR、視頻OCR、音視頻主動學習等核心能力建設 , 并強化基于智能體的工作流與函數調用支持 。
阿里在多模態大模型領域持續發力 , 且部分性能全面超越競品 , 未來或許能在更多實際應用場景中推動落地 。
【阿里一夜扔出三個開源王炸,猛刷32項開源SOTA】本文來自微信公眾號“智東西”(ID:zhidxcom) , 作者:程茜 陳駿達 , 編輯:云鵬 , 36氪經授權發布 。

    推薦閱讀