從「會表演」到「更會演」:KlingAvatar2.0讓數字人擁有生動靈魂

從「會表演」到「更會演」:KlingAvatar2.0讓數字人擁有生動靈魂

文章圖片

從「會表演」到「更會演」:KlingAvatar2.0讓數字人擁有生動靈魂

文章圖片

從「會表演」到「更會演」:KlingAvatar2.0讓數字人擁有生動靈魂

文章圖片

從「會表演」到「更會演」:KlingAvatar2.0讓數字人擁有生動靈魂

文章圖片


機器之心發布
還記得幾個月前那個能隨著音樂節拍自然舞動的 KlingAvatar 數字人嗎?現在 , 它迎來了史詩級進化!
近日 , 快手可靈團隊正式發布了 KlingAvatar2.0 技術報告 , 這一次 , 數字人不僅能 \"表演\" , 更能 \"生動表達\"—— 它們將擁有更豐富的情感層次、更精準的多角色互動 , 對復雜文本指令的深度理解能力 , 以及支持長達 5 分鐘的視頻生成 。 目前該模型已經在可靈平臺全量上線 , 人人都可體驗!

  • 論文地址:https://arxiv.org/pdf/2512.13313
  • 體驗鏈接:https://app.klingai.com/cn/ai-human/image/new/
首先看一下效果 , 肢體靈動、表情逼真 , 生動性拉滿!



文中視頻鏈接:https://mp.weixin.qq.com/s/SexCvqSiQTJKBSixBlmajA
讓我們拆解技術報告 , 看一下可靈團隊是如何實現如此生動效果的 。
【從「會表演」到「更會演」:KlingAvatar2.0讓數字人擁有生動靈魂】核心技術突破:讓數字人 \"活\" 起來的三大創新
1. 時空級聯框架:長視頻不再 \"虎頭蛇尾\"
想象一下 , 你正在制作一個 5 分鐘的產品介紹視頻 , 但傳統的 AI 生成工具總是在第 2 分鐘后就開始 \"崩壞\"—— 畫面變得模糊 , 人物動作開始不連貫 , 甚至連口型都對不上了 。 KlingAvatar2.0 創新性地提出了時空級聯框架:
  • 智能藍圖生成:先創建低分辨率 \"藍圖視頻\" 捕捉全局語義和動作
  • 漸進式增強:通過首幀 - 末幀策略 , 將藍圖精細化為高分辨率、時間連貫的子片段
  • 并行高效:支持分鐘級長視頻生成 , 保持身份一致性和故事連續性

KlingAvatar 2.0 方案框架 。 該方案快速勾勒出一個低分辨率的 \"分鏡腳本\"(藍圖視頻) , 確定整個故事的走向和關鍵動作節點;然后 , 它會像精雕細琢的藝術家一樣 , 逐步將這些關鍵幀升級為高清畫面 , 確保每個細節都栩栩如生;最后 , 通過并行處理技術將這些精心打磨的片段無縫拼接成完整的長視頻 。
2. 共推理導演:多模態指令的 \"智慧大腦\"
KlingAvatar2.0 的共推理導演系統就像是給數字人配備了一個專業的導演團隊 。 這個系統由三位 \"AI 專家\" 組成 , 它們會像真正的電影制作團隊一樣密切協作:
  • 音頻專家:精準識別語音內容、情感軌跡和說話意圖
  • 視覺專家:深度理解人物特征、場景布局和視覺語境
  • 文本專家:智能解析用戶指令 , 融合對話歷史生成連貫劇情
這三大專家通過多輪對話協作 , 能夠解決模態沖突(比如憤怒語氣配中性腳本) , 將模糊的指令轉化為詳細的鏡頭級故事線 。
3. 多角色精準控制:每個數字人都有自己的 \"聲音\"
在傳統的多角色視頻中 , 一個常見的問題是 \"張冠李戴\"—— 明明是給 A 角色的音頻 , 結果 B 角色的嘴也在動 。 這種混亂讓觀眾瞬間出戲 , 破壞了整個視頻的沉浸感 。 KlingAvatar2.0 通過身份特定多角色控制技術 , 讓每個數字人都能 \"各司其職\":
  • 利用深度 DiT 特征實現角色掩碼預測
  • 每個角色都能被獨立的音頻流精準驅動
  • 基于 Yolo、DWPose、SAM2 等模型構造了數十萬條高質量多人數據用于訓練

(a) KlingAvatar2.0 基于 DiT 深層 block 特征預測指定角色在視頻中每一幀畫面的位置 , 控制音頻精確驅動該位置的角色 。 (b) 可靈團隊基于 Yolo、DWPose、SAM2 等模型構造了數十萬條高質量多人數據用于訓練 。
實驗結果:生動性大幅提升 , 數字人有了 \"演技\"
如果說 KlingAvatar1.0 讓數字人學會了 \"表演\" 的基本功 , 那么 2.0 版本則讓它們真正擁有了 \"演技\" 。 生動性方面:
  • 情感表達更細膩:面部表情隨語音起伏自然變化 , 能夠準確傳達興奮、悲傷、憤怒等復雜情緒 , 眼神、嘴角、眉梢都充滿 \"戲\" 。
  • 動作協調更自然:全身動作與音頻節奏完美同步 , 手勢、姿態變化流暢自然 , 避免了不自然的扭曲和抖動 。
  • 細節處理更精致:頭發動態物理真實 , 不再 \"僵硬\" , 牙齒、嘴唇細節清晰可見 , 光照和曝光效果更加自然 。

KlingAvatar2.0 與 Heygen、OmniHuman-1.5、KlingAvatar1.0 相比有更優異的性能 。
在涵蓋 300 個高質量測試案例的嚴格評測中 , KlingAvatar2.0 展現出了令人矚目的性能:
  • 整體效果:相比 HeyGen 提升 26% , 相比 KlingAvatar1.0 提升 73% , 相比 OmniHuman-1.5 提升 94%
  • 文本響應:指令理解能力大幅提升 , 能準確執行復雜的鏡頭和動作指令
  • 運動表現力:生動性和豐富度遠超競品

KlingAvatar 2.0 與基線方法的定性比較 。 左圖:KlingAvatar 2.0 能夠生成更自然的頭發動態效果和更生動的面部表情 。 中圖:KlingAvatar 2.0 更符合指定的自下而上的攝像機運動 。 右圖:KlingAvatar 2.0 的結果與提示 “…… 轉身面向前方 , 雙手交叉放在胸前” 更加吻合
總結:讓每個數字人都有動人靈魂
回顧整個數字人技術的發展歷程 , 我們可以清晰地看到一個進化軌跡:從最初的 \"嘴唇蠕動\" , 到后來的 \"表情同步\" , 再到現在的 \"生動表演\" , 每一次突破都讓虛擬角色離 \"真實\" 更近一步 。
KlingAvatar2.0 不僅僅是一次技術升級 , 它也代表了 AI 在理解人類表達藝術方面的一次飛躍 。 這項技術讓機器更好地理解了什么是 \"表演\"—— 它不僅僅是機械地執行指令 , 而是要在理解音頻情感、視覺語境和文本意圖的基礎上 , 創造出能夠觸動人心的視聽體驗 。
放眼到行業 , 數字人技術的持續迭代 , 也推動著行業創作門檻的降低、制作標準的提升 , 在電商直播、娛樂內容制作、在線教育、企業服務等諸多領域 , 數字人的規?;瘧靡殉哨厔?。
生成效果的大幅提升 , 長內容場景的全覆蓋 , 都讓我們更加確信:技術不再是冰冷的工具 , 而是真正成為了表達創意、傳遞情感的溫暖載體 。 在這個技術與藝術完美融合的新時代 , 準備好讓你的創意 \"活\" 起來了嗎?

    推薦閱讀