3D版ControlNet突破多模態控制，實現高精度3D資產生成

2026-04-23 雷軍裂變小米科技

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

近年來， 3D 原生生成模型在游戲、影視和設計領域的資產創建中展現出強大潛力。然而，大多數現有方法仍主要依賴圖像作為條件輸入，缺乏細粒度、多模態的控制能力，限制了其在實際生產流程中的應用。

為解決這一瓶頸，騰訊混元團隊推出了混元 3D-Omni ，一個基于 Hunyuan3D 2.1 構建的統一多模態可控 3D 生成框架。該框架不僅支持圖像作為輸入，還可接受點云、體素、邊界框與骨骼姿態等多種控制信號，實現對生成物體幾何結構、拓撲與姿態的精細控制。

技術報告：Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets 研發團隊：Tencent Hunyuan3D Team 2025. 混元 3D 主頁：https://3d.hunyuan.tencent.com 代碼下載：https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni 權重下載：https://huggingface.co/tencent/Hunyuan3D-Omni 報告鏈接：https://arxiv.org/pdf/2509.21245
一、背景與挑戰

隨著 3D 數據規模不斷擴大，基于原生 3D 表示（如點云、體素）的生成模型逐漸成為主流。這類方法通常結合 3D 變分自編碼器（VAE）與潛在擴散模型（LDM），能夠高效生成高質量 3D 模型。例如， Hunyuan3D 2.1 借助 VecSet 表示和 Diffusion Transformer（DiT），實現了從單圖像到 3D 模型的快速生成。

然而，僅依賴圖像輸入存在諸多局限：

單視角圖像易受圖像遮擋、光照或視角干擾，生成結果缺乏幾何準確性；難以精細控制生成對象的比例、姿態和結構細節；無法適應多模態輸入（如深度圖、LiDAR 點云、骨架動作等），限制了在實際場景中的使用。
二、 Hunyuan3D Omni 的核心創新

圖 1：混元 3D-Omni 可支持多種模態作為控制條件，實現精細化 3D 資產生成

混元 3D-Omni 是一個支持多種控制條件的 3D 資產創建系統。它通過兩個關鍵性的創新來推動尖端 3D 生成技術的發展：其一，采用輕量化的統一控制編碼器，實現多種控制條件的統一支持；其二，引入漸進式難度感知訓練策略，提升模型對多模態融合的魯棒性。

作為業界首個統一多種條件控制的 3D 生成模型，混元 3D-Omni 可融合多達四類控制條件，顯著提升生成結果的可控性及質量。同時該系統將完整開放推理代碼以及權重，加速可控 3D 生成模型在學術領域研究以及工業落地部署。創新點總結如下：

1. 多模態控制信號統一處理

Hunyuan3D-Omni 引入了四種控制信號：

骨骼姿態（Skeleton）：用于角色動作控制；邊界框（Bounding Box）：調整生成對象在標準空間中的長寬高比例；點云（Point Cloud）：提供幾何結構先驗，增強細節還原；體素（Voxel）：稀疏幾何提示，改善比例與結構一致性。
2. 輕量化統一控制編碼器

所有控制信號被統一表示為點云形式，并通過一個共享的控制編碼器提取特征。該編碼器對不同模態條件進行區分，避免控制目標之間的混淆。最終的控制特征與圖像 DINO 特征拼接，作為 DiT 的聯合輸入。

3. 漸進式難度感知訓練策略

在訓練過程中，模型隨機選擇一種控制條件，并偏向采樣難度較高的信號（如骨骼姿態），同時降低簡單信號（如點云）的權重。這種策略提升了模型對多模態融合的魯棒性，也能優雅處理輸入缺失的情況。

三、關鍵實現方法
【3D版ControlNet突破多模態控制，實現高精度3D資產生成】

圖 2：混元 3D-Omni 模型框架圖

混元 3D-Omni 的模型架構建立在混元 3D 2.1 的基礎之上，通過引入統一的多模態控制編碼機制，實現了對點云、體素、邊界框和骨骼等多種控制信號的高效融合與處理。其整體框架延續了基于 VecSet 表示的 3D VAE 與 3D 擴散模型結合的主干結構，但在條件控制機制上進行了重要創新。

模型首先使用 3D VAE 將輸入點云（含坐標和法向信息）編碼為潛在表示。解碼器則從潛在表示重建符號距離函數（SDF）場，并通過等值面提取得到顯式網格輸出。在擴散階段，模型采用基于流匹配的 3D Latent Diffusion Model（LDM）。

混元 3D-Omni 的核心創新在于設計了統一控制編碼器（Unified Control Encoder），用于處理四種不同類型的控制信號：

骨骼條件控制采用 3D 骨骼起點坐標表示姿態，通過隨機采樣不同動作幀構建訓練對，實現對生成模型姿態的靈活控制；邊界框條件將長寬比例轉化為標準空間中的八個頂點坐標，通過對渲染圖像或點云施加隨機擾動，提升模型對比例控制的泛化能力；點云支持多種輸入來源（如深度相機、LiDAR 或重建模型），并引入隨機丟棄與噪聲擾動以模擬真實場景；體素則通過將點云量化到 [016
^3 網格中，再映射至 [-11
^3 空間，形成稀疏幾何提示。
所有控制信號均被統一表示為點云形式。編碼器首先對輸入點云進行位置編碼，然后通過線性層提取特征，并疊加可學習的模態標識嵌入以區分不同控制類型，最終控制特征與圖像特征拼接形成聯合條件，輸入至 DiT 模塊參與去噪過程。

為提升模型對多模態信號的魯棒性，訓練過程中采用難度感知采樣策略：1）每批次隨機選擇一種控制模態；2）對難度較高的信號（如骨骼姿態）賦予更高采樣概率，對簡單信號（如點云）進行降權重處理；3）支持部分控制信號缺失的容錯訓練。

四、實驗結果

圖 3：骨骼控制人物姿態

骨骼控制條件的核心目標在于調整輸入圖像的姿態特征，該功能主要應用于角色類物體的生成過程中。如圖 3 所示，在以骨骼條件作為額外輸入的前提下，我們的 Omni 模型能夠生成高質量且與目標姿態精確對應的角色幾何形體，包括 A 姿態、單手抬起姿態以及雙手上舉姿態等多種姿態。我們采用了多種風格的角色圖像作為條件輸入，其中包括從 3D 角色數據渲染得到的圖像，以及通過生成式模型合成的圖像。

值得注意的是，無論輸入風格如何變化，我們的 Omni 模型均能持續生成具有精細幾何細節的人體網格，且生成結果與輸入骨架保持嚴格對齊，未出現任何畸變。

圖 4：邊界框控制不同比例

圖 5：邊界框控制解決單圖生成 “紙片” 問題

邊界框控制信號能夠自由調節生成物體的長寬比例。如圖 4 所示，在相同圖像條件下，不同尺寸的邊界框成功調控了生成模型的尺寸。需要特別指出的是，這種尺寸調控并非簡單的線性拉伸：當沙發長度增加時，模型會自動生成額外的支撐腿結構；凱旋門模型在比例調整后同樣保持合理的建筑形態。這證明邊界框控制能觸發生成網絡的智能幾何重構能力。

更為重要的是，如圖 5 的對比實驗所示，當僅用單視角圖像作為條件生成 “紙片物體” 這類失敗情況下，注入邊界框信號能夠提供線索，成功生成正確的 3D 資產。

圖 6：點云控制補充三維信息

針對點云控制，我們展示了兩種設置下的生成結果：僅使用圖像輸入，以及圖像結合點云控制輸入。對于后者，我們進一步考慮了三種點云輸入類型：完整點云、深度圖像生成的表面點云以及掃描獲得的噪聲點云。

在前兩個案例中可以看到，提供完整點云作為控制信號能有效解決單視圖輸入固有的幾何歧義問題，并成功還原被遮擋的內部結構。在第三和第四個案例中，通過深度圖獲取的表面點云同樣減輕了單視圖歧義，確保生成幾何在尺度上與真實物體精確對齊。在第五個案例中，即使輸入來自掃描的噪聲表面點云，生成幾何與原始物體的對齊效果仍明顯優于僅使用圖像的基線方法，有效解決了圖像編碼器容易忽略真實物體姿態的問題。

綜上所述，一旦提供點云輸入，我們的 Omni 模型能夠有效將生成幾何與真實幾何結構對齊，即使是部分點云也能作為提升 3D 幾何生成質量的重要線索，顯著緩解了單視圖歧義。

圖 7：體素控制物體結構

與點云條件相似，體素條件通過提供稀疏幾何線索，有效解決單張圖像輸入固有的歧義性問題。如圖 7 所示，在第一個和第五個案例中，額外的體素控制條件確保生成物體在尺度上與真實幾何結構精確對齊。案例 2、3、4 進一步展示了體素條件在恢復精細幾何細節方面的顯著效果：成功重建盾牌的平整表面、精準捕捉鳥類翅膀的形態特征，以及高度還原杯子的低多邊形風格幾何結構。

這些實例充分證明，引入體素條件后，模型能夠同時準確重建物體的比例關系和細節特征，從而全面提升生成質量。

五、總結

混元 3D-Omni 作為一個輕量級、多模態、可控的 3D 生成框架，在不破壞基礎模型能力的前提下，通過統一控制編碼器整合多種幾何與控制信號。

實驗表明，該框架能夠顯著提升生成準確性、支持幾何感知的變換，并增強生產流程的穩定性與魯棒性。這項研究不僅推動了 3D 生成模型的可控性與實用性，也為未來融合多模態信號的通用 3D 生成奠定了基礎。

推薦閱讀

上一篇：開放+融合：飛利浦如何重新定義智慧會議“無線”體驗

下一篇：谷歌Veo 3論文竟無一作者來自美國！揭秘零樣本「看懂」世界