騰訊混元放出AI“終極P圖神器”,網友們玩瘋了

騰訊混元放出AI“終極P圖神器”,網友們玩瘋了

文章圖片

騰訊混元放出AI“終極P圖神器”,網友們玩瘋了

文章圖片

騰訊混元放出AI“終極P圖神器”,網友們玩瘋了

文章圖片

騰訊混元放出AI“終極P圖神器”,網友們玩瘋了

文章圖片

騰訊混元放出AI“終極P圖神器”,網友們玩瘋了

文章圖片

騰訊混元放出AI“終極P圖神器”,網友們玩瘋了

智東西
作者 | 王涵
編輯 | 云鵬
智東西1月28日報道 , 今天 , 騰訊混元圖像3.0圖生圖版本正式開源 。 在最新的LMArena圖片編輯榜單上 , 騰訊混元圖像3.0圖生圖位列全球第七 , 也是前七名里面唯一開源的模型 。
LMArena圖片編輯榜單(來源:LMArena)
LMArena官方X祝賀混元圖像3.0圖生圖“在圖片編輯榜單中與Nano-Banana和Seedream-4.5等表現相當” 。
LMArena官方祝賀推文(來源:X)
混元圖像3.0圖生圖支持增、刪、改、風格變換、老照片修復、人物與文字修改等圖片編輯功能 , 還可以將多張照片中的元素提取出來合成新圖片 。
1月26日 , 該模型在元寶上線 , 已經被網友玩出“花”了:
智東西也第一時間上手體驗 , 發現該模型可以保持前后素材元素風格的一致性 , 對照片細節把握準確 , 思考響應速度也較快 , 可玩性確實很高 。
混元圖像3.0圖生圖開源頁面(來源:Hugging Face)
開源地址:
Github:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face:
https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
Hugging Face(蒸餾版):
https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil

一、融合理解、推理與生成:混元圖像3.0圖生圖“先思考后編輯”據官方介紹 , 混元圖像3.0圖生圖采用混合專家原生多模態架構 , 總參數規模達80B , 激活參數約13B 。
訓練過程中 , 混元團隊構建了千萬量級的圖生圖數據 , 覆蓋80多個任務 , 并注入了思維鏈數據 , 使模型能夠學會先分析用戶圖像和意圖 , 再輸出詳細編輯指令 。
后訓練階段則采用自研MixGRPO算法 , 對齊用戶偏好 , 大幅提升了指令響應和非編輯區域保持一致的效果 。
混元圖像3.0圖生圖架構
在多模態方面 , 混元圖像3.0圖生圖版本基于混元圖像3.0的原生多模態架構構建 , 將文本理解、視覺理解與圖像生成融合于同一模型中 。
作為原生多模態模型 , 混元圖像3.0圖生圖核心創新在于其“先思考 , 后編輯”的工作流程 。
當接收到用戶輸入的圖片和提示詞后 , 模型會首先理解圖像內容 , 然后基于提示詞進行推理 , 確定需要編輯的區域、詳細步驟以及需要保留的區域 , 最終形成更加詳細的編輯指令 。
混元圖像3.0圖生圖思考過程
混元圖像3.0圖生圖支持增、刪、改、風格變換、老照片修復、人物與文字修改等圖片編輯功能 , 還可以將多張照片中的元素提取出來合成新圖片 。
對于普通用戶 , 該模型可用于制作表情包、虛擬人物合拍、社交分享等日常場景 。 對于專業用戶 , 它能夠助力電商海報設計、游戲角色定制、創意圖片制作等專業領域 , 提升創作效率 。

二、體驗混元圖像3.0圖生圖:一句話快速P圖、一鍵實現產品實穿效果1月26日 , 混元圖像3.0圖生圖版已經上線元寶 , 可以在元寶中直接對話使用 。
智東西第一時間上手體驗 , 發現該模型可以保持前后素材元素風格的一致性 , 對照片細節把握準確 , 思考響應速度也較快 。
例如 , 我們上傳一張《蒙娜麗莎的微笑》的圖片和一只小貓的照片 , 讓元寶把這只小貓P到蒙娜麗莎的懷里:
不到一分鐘 , 元寶就完成了P圖 , P后的圖片中的小貓元素和蒙娜麗莎與原圖保持一致 , 且手臂部分的前后透視關系也十分準確 。
我們還可以讓元寶給我們換一套妝造 , 替我們去頤和園滑冰:
可以看到 , 僅憑借“頤和園”三個字 , 該模型就準確地生成了頤和園的佛香閣作為背景 。 冰面的裂紋和在冰上滑冰的人群都十分逼真 。
此外 , 在電商領域 , 用戶還可以直接用元寶生成產品圖 。 該模型可以參考指定風格 , 快速生成所需的電商海報 , 且可以自由更換海報背景:
用戶還能直接將產品合成到模特身上 , 生成自然真實的產品上身效果圖 , 能夠大幅減少電商設計的工作量:

結語:騰訊混元開源家族再壯大 , “視覺生成時代”加速到來據騰訊混元官方分享 , 截止目前 , 騰訊混元的圖像、視頻衍生模型數量總數達到3000個 , 視頻模型社區下載量超過500萬 , 混元3D系列模型社區下載量超過300萬 。
混元圖像3.0圖生圖模型的開源 , 在壯大了騰訊開源家族的同時 , 也為全球開發者社區提供了一個圖像生成的新選擇 , 或許將加速AI圖像編輯向更廣泛日常應用的落地 。
【騰訊混元放出AI“終極P圖神器”,網友們玩瘋了】一個功能更全面、創作更便捷、人人可參與的視覺生成時代正在加速到來 。

    推薦閱讀