南大聯合LibLib.ai、中科院自動化所，共同提出PosterCopilot

2026-02-10 人工智能算法教師數學 ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

來自南京大學 PRLab 的魏佳哲、李墾，在準聘助理教授司晨陽的指導下，提出專業級海報設計與編輯大模型 PosterCopilot 。本研究聯合了 LibLib.ai、中國科學院自動化研究所等多家頂尖機構，共同完成了首個解耦布局推理與多輪可控編輯的圖形設計框架研發。 PosterCopilot 能夠實現專業設計級的版式生成、語義一致的多輪編輯，并具備高度可控的創作能力。

此外，受華為-南京大學鯤鵬昇騰科教創新孵化中心支持，該模型已完成對國產昇騰算力平臺的適配與部署，進一步推動了國產 AI 設計技術的發展與落地。

論文標題： Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design 論文地址：https://arxiv.org/abs/2512.04082 項目主頁：https://postercopilot.github.io/行業痛點：
從生成式失控到多模態「盲推」
平面設計是視覺傳達的基石，但要實現真正的自動化專業設計，目前仍面臨巨大挑戰。盡管以 Stable Diffusion 為代表的文生圖（T2I）模型在圖像合成上表現強勁，但在實際的工業設計流中，它們因無法處理分層結構，往往導致用戶素材失真且無法進行精細化控制。
為了解決這一問題，業界開始嘗試利用多模態大模型（LMMs）進行布局規劃，然而研究團隊發現，現有的 LMMs 方案反而暴露出了四大致命短板：
幾何布局的「先天缺陷」：現有的多模態布局模型通常將連續的空間坐標量化為離散的文本 Token 。這種將數值視為文本的處理方式，從根本上破壞了歐幾里得空間的幾何連續性，導致模型難以理解真實的物理距離與空間關系，生成的布局頻頻出現對齊錯誤與比例失調。視覺反饋的「盲區」：這是現有模型最嚴重的缺失之一。目前的布局模型在訓練過程中僅進行純粹的坐標回歸，卻從未「看」到過布局渲染后的實際圖像。由于缺乏對渲染結果的視覺反?。 ╒isual Feedback），模型無法像人類設計師一樣基于審美直覺和視覺規律來審視并優化構圖，只能處于「盲人摸象」的狀態。單一真值的「回歸陷阱」：海報設計屬于高度主觀的創意領域，符合人類審美的布局方案往往是多樣的、非唯一的。然而，傳統的監督訓練強迫模型死板地向單一的 Ground Truth 回歸。這種刻板的訓練方式不僅導致生成的布局喪失多樣性，更扼殺了模型的探索潛力，使其錯失了涌現超越訓練數據、比原始真值更具美學表現力的創新設計的機會。圖層級編輯的「斷層」：專業設計師的工作流本質上是迭代的（Iterative），需要對特定圖層進行反復微調。而目前的端到端模型往往是「一錘子買賣」，面對「只改一個圖層」的需求時往往束手無策——要么無法支持，要么「牽一發而動全身」，在修改時破壞了用戶原有的素材或非編輯區域。在 PosterCopilot 的對比測試中，這些弱點暴露無遺：

現有模型在處理復雜多素材場景時，常出現嚴重的元素重疊、文字遮擋以及美學災難。這反映了現有模型在細粒度布局推理和美學對齊上的根本不足。
【南大聯合LibLib.ai、中科院自動化所，共同提出PosterCopilot】同時，如圖所示：

基于完全相同的元素可以有眾多符合人類審美的布局方案，按照單一真值進行回歸的訓練方式容易扼殺模型的創造力。
核心成果：
構建專業級設計的「智能工作流」
為填補現有單步生成與專業工作流之間的鴻溝，研究團隊提出了一套系統性的解決方案 PosterCopilot ，并通過漸進式三階段訓練策略賦予模型設計推理能力。
獨創三階段訓練：從幾何糾偏到美學對齊
這是首個將布局生成任務從簡單的回歸問題轉化為分布學習與強化學習結合的范式。
階段一：擾動監督微調（PSFT）：針對 Token 坐標導致的幾何空間扭曲問題，團隊提出引入高斯噪聲擾動，迫使模型學習坐標的分布而非死記硬背離散點，修復了優化空間的幾何結構。階段二：視覺-現實對齊強化學習（RL-VRA）：引入基于 DIoU 和元素保真的驗證性獎勵信號，專門修正「幻覺」導致的重疊和比例失調。階段三：美學反饋強化學習（RLAF）：利用美學獎勵模型進行偏好對齊，鼓勵模型探索超出 Ground Truth 但更具視覺沖擊力的布局方案。
生成式智能體（Generative Agent）：打通迭代編輯閉環
PosterCopilot 不僅僅是一個布局生成器，更是一個全能設計助手。團隊設計了一個包含「接待模型」和「T2I 模型」的智能體，支持從靈感到素材的無縫轉化：用戶僅需輸入抽象的設計構思，內置的接待模型（Reception Model）即可充當「創意策劃」，自動將用戶意圖拆解為前景主體與背景氛圍的詳細規劃。
隨后，模型會生成精準的工程級提示詞（Prompts），驅動 T2I 模型即時生成風格契合的高質量素材，實現從「抽象靈感」到「具體物料」的自動化落地。
通過將具備精密布局推理能力的設計模型與支持多輪交互的生成式智能體（Generative Agent）深度耦合，團隊構建了 PosterCopilot 的完整框架，其從素材規劃到最終成稿的推理流水線如下所示：

全能設計助手 PosterCopilot：覆蓋專業設計的全鏈路需求
基于 Generative Agent 的強大賦能， PosterCopilot 能夠完美勝任從「從零構建」到「后期精修」的多種專業場景：
全素材海報生成（Generation from Fully-provided Assets）：當用戶提供完整素材時，模型專注于「布局推理」，能夠將多模態元素在畫布上進行符合美學規律的精準排列，同時嚴格保障用戶原有素材零失真、無篡改。
缺素材智能補全（Generation from Insufficient Assets）：針對素材缺失的冷啟動場景，智能體能夠理解設計意圖，自動生成風格統一的背景或前景裝飾層，實現從「抽象想法」到「完整海報」的無縫落地。
多輪精細化編輯（Multi-round Fine-grained Edit）：打破了傳統模型「無法精準局部修改」的魔咒，支持多種專業級操作：精準單層編輯：支持僅修改特定圖層（如更換模特發色、改變物體材質），同時完美「凍結」其他非編輯區域。在「相機廣告」案例中，模型能夠僅修改相機鏡頭的特效（如巖漿、大理石、水晶），而背景文字和排版紋絲不動。
全局主題遷移：能夠將海報從「棒棒糖促銷」無縫切換為「冰淇淋推廣」，自動替換主體并調整相關元素，且保留原有排版骨架。
智能尺寸重構（Poster Reframe）：只需更改畫布尺寸參數，模型即可根據新的長寬比，智能重新推理布局，實現一鍵適配不同媒體版面。
PosterCopilot 數據集：高質量分層海報庫
為解決數據匱乏問題，團隊構建了包含 16 萬張專業海報、總計 260 萬個圖層的高質量數據集。通過 OCR 輔助的細粒度圖層融合技術，解決了傳統數據集中圖層過度碎片化（Over-segmentation）的難題，為社區提供了寶貴的數據資源。

實驗結果：
全面超越商業競品與 SOTA 模型
PosterCopilot 以 Qwen-2.5-VL-7B-Instruct 為 backbone ，在多項指標上實現了對現有頂尖模型的超越。
在涵蓋布局合理性、文本可讀性、素材保真度等六大維度的評測中， PosterCopilot 展現了統治級表現。
綜合勝率：在人工評測中， PosterCopilot 對比微軟 Microsoft Designer、Nano-Banana 以及學術界 SOTA（如 CreatiPoster、LaDeCo），平均勝率超過 74% 。
GPT-5 評測：在 GPT-5 的打分中， PosterCopilot 在布局合理性（Layout Rationality）和風格一致性（Style Consistency）上均大幅領先 Qwen-VL-2.5-72B 和 Gemini 2.5 Pro 。
結論與展望
對于平面設計這樣兼具嚴謹幾何約束與感性美學追求的領域，簡單的端到端生成并非最優解。
PosterCopilot 通過解耦「布局推理」與「生成式編輯」，并引入強化學習對齊人類美學，成功讓大模型掌握了專業設計師的「圖層思維」。這不僅為智能設計工具樹立了新的基準，也為未來 AI 輔助創意工作流提供了新的范式。

推薦閱讀

上一篇：小米“亂套了”，16GB+512GB跌價2110元，高配旗艦售價“大跳水”

下一篇：獲得特斯拉能源業務大單后三星SDI在美國再獲電池大單