日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

7B模型搞定AI視頻通話,阿里最新開源炸場,看聽說寫全模態(tài)打通

7B模型搞定AI視頻通話,阿里最新開源炸場,看聽說寫全模態(tài)打通

文章圖片

【7B模型搞定AI視頻通話,阿里最新開源炸場,看聽說寫全模態(tài)打通】7B模型搞定AI視頻通話,阿里最新開源炸場,看聽說寫全模態(tài)打通

文章圖片

7B模型搞定AI視頻通話,阿里最新開源炸場,看聽說寫全模態(tài)打通

深夜重磅!阿里發(fā)布并開源首個端到端全模態(tài)大模型——通義千問Qwen2.5-Omni-7B , 來了 。 僅靠一個一體式模型 , 就能搞定文本、音頻、圖像、視頻全模態(tài) , 并實時生成文本和自然語音 。 堪稱7B模型的全能冠軍 。 你的iPhone搭載的很可能就是它!現(xiàn)在打開Qwen Chat , 就能直接和它實時進行視頻或語音交互:

話不多說 , 先來看一波能力展示 。 在大街上同它視頻通話 , 它能正確識別周圍環(huán)境 , 按照你的需求為你推薦餐館
走進廚房 , 它又化身“智能菜譜” , 一步步指導(dǎo)你變成大廚
在多模態(tài)任務(wù)OmniBench評測中 , Qwen2.5-Omni表現(xiàn)刷新記錄拿下新SOTA , 遠超谷歌Gemini-1.5-Pro等同類模型 。 在單模態(tài)的語音識別、翻譯、音頻理解、圖像推理、視頻理解、語音生成任務(wù)中 , Qwen2.5-Omni的全維度表現(xiàn)也都優(yōu)于類似大小的單模態(tài)模型以及閉源模型 。 在seed-tts-eval語音生成基準中 , Qwen2.5-Omni展現(xiàn)出與人類水平相當?shù)恼Z音合成能力 。

這意味著Qwen2.5-Omni-7B能很好地和世界進行實時交互 , 甚至能輕松識別音視頻情緒 。 再來敲重點:模型非常輕量 , 手機等終端都可輕松部署運行 , 且開源用的是寬松的Apache2.0協(xié)議 , 開發(fā)者、企業(yè)現(xiàn)在都可免費在魔搭社區(qū)或Hugging Face下載商用 。 Qwen2.5-Omni-7B一開源 , 網(wǎng)友直呼這才是真正的OpenAI(doge) 。
網(wǎng)友紛紛表示可以直接拿來裝到智能眼鏡上了:這可能是智能眼鏡的完美模型 。
7B模型的新紀錄!
目前 , 在Qwen Chat上即可體驗該模型支持的AI語音和視頻通話功能 。 更多實例 , 一起來看~實測效果驚艷首先 , Qwen2.5-Omni-7B能勝任免費的數(shù)學(xué)家教 。 它能像人類老師一樣 , 看到題目、聽懂問題 , 并且一步一步耐心講解 。 更復(fù)雜的論文它也看得懂 。 只需共享屏幕 , 然后將論文從上至下滑動 , “給它看一遍” 。 它就能通俗解釋論文內(nèi)容 。 比如PPT、網(wǎng)頁資料等 , 也能找它做講解 。
而且它還有一定藝術(shù)見解 , 比如可以陪著你畫畫 , 然后給出指導(dǎo)建議 。
或者聽你演奏的音樂 , 給出更好的改進建議 。
我們還進行了一手實測 , 在Qwen Chat上每天可使用語音和視頻聊天10次 。

實測中 , 模型能很好地理解商品界面和優(yōu)惠政策 。 響應(yīng)速度也很快 , 并且會引導(dǎo)人類繼續(xù)問下去、很有耐心 。 需要注意的是 , 當前視頻通話還只是Beta測試版 , 每次通話限時3分鐘 。
Hugging Face的產(chǎn)品負責人Jeff Boudier也第一時間上手試玩 。 模型的英文能力一樣出眾 , 而且它不僅回答看到了杯子 , 還細致描述了杯子上的笑臉花紋 。
首創(chuàng)Thinker-Talker雙核架構(gòu)目前官方已放出Qwen2.5-Omni技術(shù)Blog和論文 。 Qwen2.5-Omni采用通義團隊首創(chuàng)的全新架構(gòu)——Thinker-Talker雙核架構(gòu) 。 其中 , Thinker就像“大腦” , 負責處理和理解來自文本、音頻、視頻等多模態(tài)的輸入信息 , 生成高層語義表征以及對應(yīng)的文本內(nèi)容 。 Talker則更像“嘴巴” , 以流式的方式接收由Thinker實時輸出的語義表征與文本 , 并流暢地合成離散語音tokens 。 具體來說 , Thinker基于Transformer解碼器架構(gòu) , 融合音頻/圖像編碼器進行特征提取 。 而Talker采用雙軌自回歸Transformer解碼器設(shè)計 , 在訓(xùn)練和推理過程中直接接收來自Thinker的高維表征 , 并共享Thinker的全部歷史上下文信息 。 因此 , 整個架構(gòu)作為一個緊密結(jié)合的單一模型運行 , 支持端到端的訓(xùn)練和推理 。 與此同時 , 團隊還提出了一種新的位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding (位置嵌入)融合音視頻技術(shù) 。 TMRoPE編碼多模態(tài)輸入的三維位置信息 , 即多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE) , 并結(jié)合絕對時間位置 , 通過將原始旋轉(zhuǎn)嵌入分解為時間、高度和寬度三個部分實現(xiàn) 。

另外值得一提的是 , 從技術(shù)層面來看 , Qwen2.5-Omni和一般的視頻/語音理解模型以及其相應(yīng)的視頻/語音對話的AI功能 , 也有本質(zhì)性區(qū)別 。 在傳統(tǒng)語音理解大模型的人機交互場景里 , 一般運用 ASR(Automatic Speech Recognition , 自動語音識別)技術(shù) , 把人類語音轉(zhuǎn)換為文字文本 , 隨后將其交給大語言模型處理 , 最終生成的內(nèi)容借助 TTS(Text-to-Speech , 語音合成)技術(shù)轉(zhuǎn)化為語音反饋給用戶 。 而視頻理解模型是基于圖片、視頻進行大模型理解 , 并以文字形式輸出反饋 。 這兩種模型均屬于相互獨立的單鏈路模型 。 在一些AI應(yīng)用中 , 甚至會串聯(lián)多個模型來實現(xiàn)類似功能 , 如此一來 , 鏈路變得更長 , 效率大打折扣 。 Qwen2.5-Omni-7B的特點在于 , 它原生支持視頻、圖片、語音、文字等多模態(tài)輸入 , 并能原生生成語音及文字等多模態(tài)輸出 。 也就是說 , 一個模型就能通過“看”、“聽”、“閱讀”等多種方式來綜合思考 。
所以Qwen2.5-Omni得以在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準測試中 , 拿下最強全模態(tài)性能 , 在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評分數(shù) , 均領(lǐng)先于專門的音頻(Audio)或視覺語言(VL)模型 。 搶先看到Apple Intelligence?一個月前 , 阿里公開確認與蘋果合作 , 宣布通義千問將為國行iPhone用戶提供AI功能 , 此消息一經(jīng)披露 , 便在科技圈引發(fā)熱議 。 而這次Qwen2.5-Omni開源 , 就是奔著端側(cè)部署來的 , 7B尺寸使其具備直接嵌入手機的可行性 , 仿佛提前看到了Apple Intelligence , 讓大家看到多模態(tài)大模型上手機都能有哪些效果 。 不只是蘋果 , 據(jù)量子位了解 , 這種端側(cè)部署能力已吸引超90%國產(chǎn)手機品牌接入通義千問 , 包括OPPO、vivo、榮耀、傳音等 , 還有眾多汽車品牌、AI硬件產(chǎn)品選擇與之攜手 。 為啥都選通義千問?梳理通義千問的最新發(fā)展動態(tài) , 答案便不難理解 。 首先 , 通義千問Qwen目前已穩(wěn)居全球最大AI大模型族群 。 僅在最近一個月的時間里 , 就接連推出了一系列具有競爭力的模型:推理模型Max旗艦版QwQ-Max-Preview、視頻生成模型Wan 2.1、推理模型QwQ-32B、視覺語言模型Qwen2.5-VL-32B-Instruct……實際上 , 2023年至今 , 阿里通義團隊已累計開源200多款模型 , 涵蓋從0.5B到110B全尺寸范圍 , 模型類型覆蓋文本生成、視覺理解與生成、語音理解與生成、文生圖及視頻模型等全模態(tài)領(lǐng)域 , 應(yīng)用場景也極為豐富 。 在海內(nèi)外開源社區(qū)中 , 通義千問Qwen衍生模型數(shù)量更是一路飆升 , 現(xiàn)已超過10萬 , 超越Llama系列 。 根據(jù)Hugging Face 在2月10日發(fā)布的最新全球開源大模型榜單 , 排名前十的開源大模型無一例外 , 全部是基于通義千問Qwen開源模型二創(chuàng)的變體模型 。

其次 , 阿里巴巴通過開源等一系列積極舉措 , 成功構(gòu)建起一個豐富且活躍的大模型生態(tài) 。 阿里不僅將開源進行到底 , 更向大模型公司提供了全方位的服務(wù)支持 , 其中包括算力資源以及開發(fā)工具等 , 阿里云已成為中國大模型領(lǐng)域的公共AI算力底座 。 截至2025年2月中旬 , 阿里魔搭社區(qū)ModelScope的模型總量已超4萬個 , 服務(wù)超1000萬開發(fā)者 。 那么通義千問Qwen團隊下一步要干啥?期待聽到您的反饋 , 并看到您使用Qwen2.5-Omni開發(fā)的創(chuàng)新應(yīng)用 。 在不久的將來 , 將著力增強模型對語音指令的遵循能力 , 并提升音視頻協(xié)同理解能力 。 還將持續(xù)拓展多模態(tài)能力邊界 , 發(fā)展全面的通用模型 。

    推薦閱讀