2秒終結AI 3D不可能三角,我們和VAST首席科學家曹炎培聊了聊

2秒終結AI 3D不可能三角,我們和VAST首席科學家曹炎培聊了聊

文章圖片

2秒終結AI 3D不可能三角,我們和VAST首席科學家曹炎培聊了聊

文章圖片

2秒終結AI 3D不可能三角,我們和VAST首席科學家曹炎培聊了聊

文章圖片

2秒終結AI 3D不可能三角,我們和VAST首席科學家曹炎培聊了聊

文章圖片

2秒終結AI 3D不可能三角,我們和VAST首席科學家曹炎培聊了聊

文章圖片


機器之心編輯部
速度、質量、管線可用性 , 是 AI 3D 生成領域公認的不可能三角 。 三件事 , 從來沒有同時成立過 。 直到現在 。 VAST 最新發布的 Tripo P1.0 , 首次在原生三維空間中實現概率生成 , 2 秒內即可輸出專業建模師級別的 3D 資產 , 效率較現有方案提升百倍以上 。
過去 , 一個經驗豐富的 3D 建模師 , 完成一個游戲級別的角色資產 , 往往需要數天時間 。
現在 , 只要 2 秒 。
用戶只需輸入一張圖片 , 或給出簡單的提示語 , 系統便能在 2 秒內生成一個拓撲規整、布線合理、約 5000 面(最高可達 20000 面)的游戲級模型 。


這一突破來自國內專注于 3D 生成的明星初創公司 VAST 。 其最新發布的 Tripo P1.0 模型 , 通過 Smart Mesh 功能 , 在 Tripo Studio 平臺上實測只需約 2 秒即可生成結構化 3D 網格 。

使用地址:https://studio.tripo3d.ai/workspace/generate
不少網友看到這一消息后只剩下一句評價:從提示詞到可用網格資產 , 如今幾乎瞬間完成 。 隨著生成速度的大幅提升 , 創作的試錯成本被進一步壓低:

但速度只是這次突破的一部分 。 更重要的是 , 生成結果本身已經具備管線級的結構質量 。
P1.0 生成的 Mesh 擁有更加干凈、智能的拓撲結構 , 整體布線規整 , 幾何形體與輸入圖像高度一致 。 同時 , 面數可以在 500 到 20000 面之間靈活控制 , 以適配不同使用場景 。
更關鍵的是 , 生成后的資產可以直接進入實時圖形流程 , 適用于游戲開發、仿真模擬、實時渲染、Web 工具以及大規模內容生產等場景 。 換句話說 , 從提示詞到一個可用的 3D 資產 , 中間幾乎不再需要復雜的建模流程 。
在 3D 生成領域 , 速度、質量和管線可用性長期以來被視為難以同時滿足的不可能三角 。 過去的模型要么生成速度慢 , 要么結構質量不足 , 要么無法進入真實生產管線 。
而隨著 Tripo P1.0 的發布 , 這三件事 , 第一次開始同時成立 。
效果怎么樣 , 我們先來看 Smart Mesh 功能的測試案例 。
在這個案例中 , Smart Mesh 完美復刻了角色頭盔的圓潤弧度與護甲的硬朗切面 , 尾巴等細長結構無粘連 , 幾何形變控制極其穩?。 ?

對這種帶有露臺、階梯和多層結構的建筑 , 在傳統 AI 生成中極易出現「結構穿插」或「透視扭曲」 。 而 Smart Mesh 完美還原了陽臺護欄、外部樓梯與主體的空間連接關系 , 幾何邏輯非常清晰:

下面是 Tripo P1.0 自動生成匹配的紋理貼圖的效果展示 。
可以看出 , Tripo P1.0 體現了極高的紋理采樣與幾何捕捉能力 , 在材質精度、光影渲染以及細節刻畫上都達到了專業級水準:

在這個案例中 , Tripo P1.0 模型的紋理貼圖非常真實 , 精細地捕捉了木雕或彩塑表面的斑駁感、油漆脫落的痕跡以及木材本身的紋理:

這種驚艷的資產交付能力并非偶然 , 而是源于 VAST 對 3D 生成底層范式的推倒重來 。
為什么 3D 是 AI 最難啃的骨頭
過去幾年 , AI 在圖像、視頻與語音領域席卷一切 , 但 3D 始終是那塊最難啃的骨頭 。
原因在于 , 幾乎所有主流 AI 模型都脫胎于語言或圖像的邏輯 , 它們本質上是在處理一維序列(文字)或二維矩陣(像素) 。 當這套邏輯被沿用到三維空間時 , 研究者面臨一個根本性的困境:三維空間沒有天然的順序 。
我們不妨用一個直覺類比來理解這個困境:你試圖用電話向一個從未見過椅子的人描述一把椅子 。 你必須把它拆成一句一句話 , 按順序描述 , 先說四條腿 , 再說椅面 , 再說靠背 。 但椅子本身并不是按這個順序存在的 , 它同時存在 , 整體存在 。 你描述第一條腿的時候 , 另外三條腿也在那里 。
把一個整體存在的結構強行序列化 , 意味著人為引入了本不存在的因果順序 。 這帶來兩個直接后果 。
其一 , 對稱性的喪失 。 三維空間本質上具有各向同性 , 沒有絕對的前后左右 。 強行加入順序 , 就等于強行破壞了這種原生的對稱性 , 讓模型從一開始就帶著一個結構性錯誤去學習 。 其二 , 誤差的級聯 。 在逐步生成的過程中 , 前端的微小偏差會被持續放大 。 模型生成桌子四條腿時 , 如果它處于處理第一條腿的階段 , 它并不知道另外三條腿的存在 , 于是每一步預測都缺乏全局視野 , 最終導致結構混亂 。這正是為何傳統 AI 3D 網格生成長期徘徊在速度慢、拓撲亂、后處理重的困境之中 。
Tripo P1.0:從第一性原理出發的重構
VAST 的選擇是 , 回到更基礎的問題重新問一遍 。
既然三維形狀本質上是一個整體結構 , 模型就應該從整體角度 , 在原生三維空間中對整個形狀的生成過程建模 , 而不是把它拆碎了、排成序列、再逐步還原 。
這正是 P1.0 的核心范式轉變:從強行序列化到原生空間演化 。
在 P1.0 的框架中 , 頂點的位置、邊的連接關系以及面的結構 , 被統一表示在同一個特征空間中 , 通過統一的特征度量來描述點、線、面之間的關系 。 整個三維網格的幾何結構與拓撲關系 , 在一個概率空間中同時建模 , 共同演化 。
用 VAST 首席科學家曹炎培的話來說:我們把整個三維的網格信號概率化 , 然后在這個概率空間里做全局的三維幾何演化 。
這種從局部拼接到全局涌現的架構轉變 , 帶來了三個層面的直接改變 。
幾何層面:整體涌現 , 而非局部拼接 。 由于模型在生成任何一個局部結構時都能感知整體 , 結構對稱性、比例關系、幾何一致性不再依賴后期修正 , 而是作為全局生成的自然結果涌現出來 。 例如人類角色左右手臂布線的對稱性、復雜機械零件的幾何規律性 , 在 P1.0 的框架下都能自然形成 , 而不需要任何人工干預 。
質量層面:訓練數據即工業標準 。 P1.0 直接在符合工業規范的高質量三維網格數據上進行訓練 , 這背后是 VAST 多年積累的約 5000 萬條高質量 3D 數據 , 規模為全行業之最 。 生成結果本身就具備規范的拓撲結構和合理的布線邏輯 , 傳統流程中耗時的重拓撲、手工布線修復等后處理步驟 , 在 P1.0 的工作流中已基本不再必要 。
效率層面:傳統序列化方法的計算開銷居高不下 , 核心原因在于它本質上是在離散的組合空間中做暴力搜索 , 引發了巨大的組合復雜度 。 P1.0 將復雜的拓撲關系映射為高維特征場之間的連續度量關系 , 只需簡單的向量內積等線性代數運算即可完成大量結構推理 , 這類運算天然契合 GPU 的大規模并行特性 。 這也是為何過去需要數百秒才能完成的生成任務 , P1.0 只需約 2 秒 。
這三個層面的改變 , 本質上指向同一件事:AI 3D 網格生成的底層范式 , 正在經歷一次徹底改變 。
算法 1.0 階段 , 以基于序列化的自回歸生成方法為代表 。 這一階段的核心貢獻是驗證了 AI 生成三維內容的技術可行性 , 但受制于序列化方法論的結構性局限 , 始終在速度、質量、管線可用性三者之間被迫取舍:要速度就犧牲質量 , 要質量就承受漫長等待 , 要工程可用就需要大量后處理 , 三件事從未同時成立過 。
隨著 Tripo P1.0 的發布 , 以原生三維空間中的概率生成為核心特征 。 三維結構不再被強行分解為序列 , 而是在統一的高維特征空間中整體建模、全局演化 。 速度、質量與管線可用性 , 第一次開始同時成立 。
深度對話 VAST 首席科學家曹炎培:從「視覺近似」跨越到「工業資產」
另外 , 機器之心也有幸采訪到了 VAST 首席科學家曹炎培 , 他的講述或許能讓我們更清晰地看到 , 這家公司究竟在下一盤什么樣的棋 。
「雙旗艦」布局
其實在 P1.0 之外 , VAST 另一條路線 Tripo H3.1 也在 3D 生成賽道領跑 。 但團隊并沒有停在已有成果上 , 而是選擇了再出發 。 VAST 認為:現有范式存在結構性天花板 , 需要從底層算法架構上重新來過 。
機器之心:這次發布的 H3.1 和 P1.0 分別承擔什么角色?各自的優勢是什么?
曹炎培:H3.1 延續了 Tripo 從 1.0 到 3.0 再到 3.1 的進化路線 , 追求極致的視覺和幾何保真度 , 不斷突破 3D 生成的分辨率上限 。
P1.0 解決的是時效性問題 , 在滿足生產管線和工業標準兼容性的前提下實現極快的生成 。 以前 H3.0 也可以通過一套模型串聯來實現良好拓撲、可做動畫的程度 , 但時間和流程都比較長 。 P1.0 直接在工業可用的標準數據上訓練和生成 , 端到端地解決了滿足藝術家要求的、帶邏輯布線的網格生成 , 跨越了以往圖形學中繁瑣的重拓撲步驟 。
具體應用上 , H3.1 適用于追求視覺天花板或需要精細表面細節的產品 , 比如工業級 3D 打印、3A 游戲主角的參考建模、汽車油泥模型等工業設計場景 。 P1.0 生成的是各種引擎和 3D 編輯器中能直接使用的實時資產 , 可以直接進入可交互的動畫或游戲 , 以及機器人仿真、XR/AR 等場景 。 兩者結合能覆蓋更廣的應用場景 。

H3.1 生成的城堡效果
從專業工具到普通用戶:3D 建模門檻的消失
機器之心:對 3A 游戲制作、具身智能等行業來說意義很大?
曹炎培:是的 , 比如具身智能領域 , 大家不只需要靜態資產 , 還需要資產具有可動性和交互性 —— 盒子能打開 , 抽屜能抽出來 , 桌子能傾倒 , 機械臂能操作 。 這涉及實時動畫 , 要在計算預算有限的仿真器里實時模擬和運行 , 這些都是更適合 P1.0 的場景 。
機器之心:Smart Mesh 對不會 3D 建模的普通用戶意味著什么?
曹炎培:未來很快 , 大家會模糊 3D 建模這個概念 。 用戶會回歸到創造 3D 模型的原始意圖 , 而不是糾結于該怎么用工具得到三維模型 。
我們最看好的是 UGC 場景 。 3D 打印本身也是一種 UGC , 而 P1.0 帶來的是 UGC 交互內容的普及和大眾化 。 現在各種 AI agent 和 World Model 的發展已經為構建可交互環境和背后邏輯打好了基礎 , 缺的就是各種各樣的元素 。 以后大家不需要考慮這些元素怎么獲得 , 它會像生成一張圖片或一個 icon 一樣簡單 。 在 3D 交互環境里 , 需要一座山、一棟樓、一個角色 , 只需要跟大模型需要怎樣的資產包、維護怎樣的行為邏輯 , 我們的模型就都能提供 。 大多數人使用 P1.0 這樣的模型時 , 甚至不會意識到自己完成了建模步驟 , 只是獲得了最終有價值的資產 。 這可能為未來空間計算等方向提供了最重要的基礎 。
機器之心:你們提到 AI 3D 已經打破了速度、質量和工程可用性的不可能三角 , 這對行業意味著什么樣的質變?
曹炎培:以前所有受限于資產豐富性、建模成本以及 3D 生成模型可用性的場景 , 創作者都會發現這些限制不復存在 。 當生成一個標準的 3D 交互資產只需要幾秒 , 想象力就被無限放大 , 用戶不會覺得利用三維資產做想做的事情還有任何障礙 。
機器之心:P1.0 生成出來的物體是否可以直接進入游戲或渲染 pipeline, 或進行編輯?
曹炎培:完全沒有問題 。 Tripo P1.0 就是在圖形管線可用的數據上訓練的 , 生成出來的模型已經模糊了專業建模師和普通創作者之間的邊界 —— 甚至不只是模糊 。 我們相當于把擁有五年經驗的美術或技術美術才能做出的拓撲布線邏輯 , 變成了算法上的直覺 。 普通人通過一張圖或一個想法就能瞬間獲得外觀正確、結構符合工業標準的資產 。 不管是創意者還是生產力用戶 , 都能回歸到意圖本身 。
關于編輯 , 目前我們已經有內測功能 , 近期在 GDC 上也會展示模型原生的編輯能力 。 以后連 Blender 等復雜編輯工具也不再成為門檻 , 大家只需要與模型交互或對話 , 就可以編輯或演化出最終想要的模型 。
3D 模態正在成為 AI 基礎設施
機器之心:如果用一段話總結 P1.0 的意義 , 你會怎么說?
曹炎培:從行業和技術演進的角度講 , P1.0 讓 3D 生成從以前的視覺近似跨越到了產業級、工業級的結構資產可用階段 。 在算法和理論層面 , 它證明了 AI 完全可以在原生三維空間中直接生成符合藝術家生產管線標準的高質量網格 , 打破了很多人對 AI 3D 的偏見 。 AI 3D 能夠進一步大規模進入次世代游戲、空間計算、物理 AI 等實時工作流 , 打通了 AI 對 3D 理解和生成的一大瓶頸 。 3D 這個模態依然很有希望 , 正在以很快的速度發展 , 并且正在成為整個 AI 基礎設施中非常重要的一環 , 而不是說所有的 AI 都必須建立在語言、圖像、視頻的基礎上 。
人才護城河:V?STAR 計劃與持續創新
機器之心:關于團隊和人才方面 , 還有什么想補充的?
曹炎培:我們之所以能做出這些重要突破 , 很大程度上是因為擁有行業內最優秀的一群 researcher 。 這既包括從公司成立以來就一起做研究、一起共事的伙伴們 , 也很大程度上歸功于去年推出的 V?STAR 人才計劃 —— 一項面向頂尖研究者的專項招募與培養機制 。 V?STAR 計劃幫助我們團結了很多對多模態生成領域有濃厚興趣且能力很強的小伙伴 , 才能不斷持續有突破 , 包括 H3.1、P1.0 , 以及后續在世界模型方面的進展 , 都和人才積累密切相關 。
【2秒終結AI 3D不可能三角,我們和VAST首席科學家曹炎培聊了聊】我們也在持續發布新的招聘計劃 , 希望吸納更多優秀的人加入 。

    推薦閱讀