日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

通義萬相登頂權(quán)威榜單,全面超越國內(nèi)外主流開閉源視頻生成模型

通義萬相登頂權(quán)威榜單,全面超越國內(nèi)外主流開閉源視頻生成模型

文章圖片

通義萬相登頂權(quán)威榜單,全面超越國內(nèi)外主流開閉源視頻生成模型

文章圖片

通義萬相登頂權(quán)威榜單,全面超越國內(nèi)外主流開閉源視頻生成模型
1月9日消息 , 阿里云通義萬相迎來重磅升級 , 推出萬相2.1視頻生成模型 , 在大幅度復(fù)雜運(yùn)動、物理規(guī)律遵循、藝術(shù)表現(xiàn)等方面全面提升 。 根據(jù)權(quán)威評測榜單VBench的信息顯示 , 新版通義萬相登上榜首位置 , 超越混元、海螺AI、Gen3、Pika等國內(nèi)外視頻生成模型 。

通義萬相登頂VBench榜單
VBench是視頻生成領(lǐng)域的權(quán)威評測集 , 它一共有16個評分維度 , 從整體一致性、動作流暢度、畫面穩(wěn)定性等方面對模型進(jìn)行全方位評估 。 VBench榜單顯示 , 通義萬相在運(yùn)動幅度、多對象生成、空間關(guān)系等關(guān)鍵能力上拿下最高分 , 并以總分84.7%的成績斬獲第一 。
精準(zhǔn)理解和模擬物理世界是當(dāng)下視頻生成模型的核心難題 , 現(xiàn)有模型生成的視頻在大幅運(yùn)動、物理復(fù)雜場景表現(xiàn)較差 , 容易生成肢體扭曲、違背物理定律的視頻 。 針對這一難題 , 通義萬相團(tuán)隊采用自研高效的VAE和DiT架構(gòu) , 有效增強(qiáng)時空上下文關(guān)系建模能力 。
在DiT的設(shè)計中 , 全新通義萬相使用時空全注意機(jī)制 , 這一機(jī)制讓模型能夠更準(zhǔn)確地模擬現(xiàn)實世界的復(fù)雜動態(tài);團(tuán)隊還引入了參數(shù)共享機(jī)制 , 不僅提升了模型的性能 , 還有效降低了訓(xùn)練成本;此外 , 針對文本的嵌入進(jìn)行優(yōu)化 , 實現(xiàn)更優(yōu)的文本可控性的同時也減少了計算需求 。
在視頻VAE方面 , 通義萬相設(shè)計了一種創(chuàng)新的視頻編解碼方案 。 通過將視頻拆分成若干塊(Chunk)并緩存中間特征的方式 , 代替直接對長視頻的E2E編解碼過程 , 實現(xiàn)顯存的使用與原始視頻長度無關(guān) , 從而能夠支持無限長1080P視頻的高效編解碼 , 這一關(guān)鍵技術(shù)為任意時長視頻的訓(xùn)練提供了新的路徑 。
在全新架構(gòu)下 , 通義萬相在大幅度的肢體運(yùn)動和肢體旋轉(zhuǎn)場景的視頻生成上表現(xiàn)更穩(wěn)定 , 即便是花樣滑冰、游泳、跳水等運(yùn)動視頻也能保持肢體協(xié)調(diào)并符合正常運(yùn)動軌跡 。 通義萬相在文字視頻生成上實現(xiàn)了突破 , 成為首個支持中文文字生成能力、且同時支持中英文文字特效生成的視頻生成模型 , 可滿足廣告設(shè)計、短視頻等領(lǐng)域的創(chuàng)作需求 。
例如 , 用戶輸入“平拍一位女性花樣滑冰運(yùn)動員在冰場上進(jìn)行表演的全景 。 她穿著紫色的滑冰服 , 腳踩白色的滑冰鞋 , 正在進(jìn)行一個旋轉(zhuǎn)動作 。 她的手臂張開 , 身體向后傾斜 , 展現(xiàn)了她的技巧和優(yōu)雅” , 通義萬相即可精準(zhǔn)理解語義 , 并生成一段接近專業(yè)滑冰運(yùn)動員的視頻 。

據(jù)悉 , 目前該模型已全面開放 , 用戶可在通義萬相官網(wǎng)直接免費(fèi)使用 , 個人開發(fā)者和企業(yè)用戶還可在阿里云百煉調(diào)用通義萬相API , 進(jìn)一步創(chuàng)造更豐富的AI工具和應(yīng)用 。


【通義萬相登頂權(quán)威榜單,全面超越國內(nèi)外主流開閉源視頻生成模型】

    推薦閱讀