騰訊混元圖像3.0圖生圖開源,LMArena躋身全球第一梯隊,開源最強

騰訊混元圖像3.0圖生圖開源,LMArena躋身全球第一梯隊,開源最強

文章圖片

騰訊混元圖像3.0圖生圖開源,LMArena躋身全球第一梯隊,開源最強

開源社區再迎利器 , 騰訊混元圖像3.0圖生圖模型在權威評測中躋身全球第一梯隊 , 也是其中唯一的開源模型 。

1月28日 , 騰訊混元團隊宣布開源混元圖像3.0圖生圖版本(HunyuanImage 3.0-Instruct) 。 同時 , 最新全球權威大模型競技場LMArena的圖像編輯(Image Edit)榜單中 , 混元圖像3.0圖生圖進入第一梯隊 , 成為全球最強的開源圖生圖模型 。

此前1月26日 , 該模型在元寶上線 , 用戶只需要上傳1張或以上的圖片并輸入指令即可體驗 。 該能力受到眾多用戶喜愛 , 涌現了各種有意思的玩法 。 比如給貓貓拍大片、爆改世界名畫等“花式整活” 。

(網友在元寶上用混元圖生圖能力花式整活 , 圖片來自網絡)

【騰訊混元圖像3.0圖生圖開源,LMArena躋身全球第一梯隊,開源最強】在最新的LMArena圖片編輯榜單上 , 騰訊混元圖像3.0圖生圖位列全球第七 , 也是前七名里面唯一開源的模型 。 LMArena官方X祝賀混元圖像3.0圖生圖“在圖片編輯榜單中與Nano-Banana和Seedream-4.5等表現相當” 。 這一成績來自于對模型圖像編輯能力的全面盲測評估 , 包括指令遵循、編輯精確度和輸出質量等多個維度 。

混元圖像3.0圖生圖支持多樣化的圖片編輯與多圖融合能力 , 包括增、刪、改、風格變換、老照片修復、人物與文字修改等圖片編輯功能 , 以及將多張照片中的元素提取出來合成新圖片的能力 。 對于普通用戶 , 該模型可用于制作表情包、虛擬人物合拍、社交分享等日常場景 。 對于專業用戶 , 它能夠助力電商海報設計、游戲角色定制、創意圖片制作等專業領域 , 顯著提升創作效率 。

混元圖像3.0圖生圖版本基于混元圖像3.0的原生多模態架構構建 , 將文本理解、視覺理解與圖像生成深度融合于同一模型中 。 作為原生多模態模型 , 混元圖像3.0圖生圖核心創新在于其“先思考 , 后編輯”的工作流程 。 當接收到用戶輸入的圖片和提示詞后 , 模型會首先理解圖像內容 , 然后基于提示詞進行推理 , 確定需要編輯的區域、詳細步驟以及需要保留的區域 , 最終形成更加詳細的編輯指令 。

混元圖像3.0圖生圖基于80B總參數規模(激活參數約13B)的混合專家原生多模態架構 , 在處理圖像編輯任務時展現出強大的推理能力和精準的編輯效果 。 訓練過程中 , 混元團隊構建了千萬量級的圖生圖數據 , 覆蓋80多個任務 , 并注入了思維鏈數據 , 使模型能夠學會先分析用戶圖像和意圖 , 再輸出詳細編輯指令 。 后訓練階段采用自研MixGRPO算法 , 高效對齊用戶偏好 , 大幅提升了指令響應和非編輯區域保持一致的效果 。

2025年9月 , 混元圖像3.0文生圖模型開源后 , 在LMArena全球文生圖盲測榜單中位列第一 。 本次混元圖像3.0圖生圖版本的開源是騰訊混元大模型系列的最新進展 。 開發者可通過Github和Hugging Face等主流開源平臺獲取混元圖像3.0圖生圖模型的權重及完整代碼 。 混元圖像3.0圖生圖版本的開源 , 將為全球開發者和研究者提供一個強大的基礎平臺 , 助力社區在其基礎上進行應用研發和二次開發 。

騰訊混元團隊一直在持續迭代通用基礎能力和專業應用能力 , 研發了多種尺寸語言模型 , 以及圖像、視頻、3D等完整多模態生成模型和工具集插件 。 目前混元系列大模型已在騰訊內部多個業務、外部多個行業和開源社區中被廣泛接入 。 截止目前 , 騰訊混元的圖像、視頻衍生模型數量總數達到3000個 , 視頻模型社區下載量超過500萬 , 混元3D系列模型社區下載量超過300萬 , 已成為全球最受歡迎的開源模型系列之一 。

附混元圖像3.0圖生圖開源項目地址:
Github:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
Hugging Face:https://huggingface.co/tencent/HunyuanImage-3.0-Instruct
Hugging Face(蒸餾版):https://huggingface.co/tencent/HunyuanImage-3.0-Instruct-Distil

    推薦閱讀