蘋果把傳統手藝交給AI了:微調千問模型自動完成UI設計

蘋果把傳統手藝交給AI了:微調千問模型自動完成UI設計

文章圖片

蘋果把傳統手藝交給AI了:微調千問模型自動完成UI設計

文章圖片


對于軟件開發者而言 , AI 及通用大語言模型(LLM)固然可在創意寫作和基礎編程任務上“搭把手” 。 然而 , 面對圖形用戶界面(UI)這一占據現代應用程序半壁江山的領域時 , 它們往往顯得力不從心 。

UI 開發是一項涉及多任務處理的繁雜工作 , 一個能夠從頭設計 UI 的大模型 , 必須具備像素級的視覺理解能力、能夠生成邏輯嚴謹的可編譯代碼 , 還要擁有符合人類審美與交互直覺的設計判斷力 。

蘋果(Apple)公司的研究團隊認為 , 做好 UI 設計的關鍵在于設計師的“隱性領域知識”(tacit domain knowledge) 。 這種關于美學、交互和權衡的直覺 , 無法通過簡單的爬取網頁數據獲得 , 畢竟 , UI 代碼在通用代碼數據集中的占比甚至不足 1% 。

為填補這一鴻溝 , 近期 , 蘋果公司的機器學習研究團隊聯合卡內基梅隆大學、阿爾托大學等多家頂尖科研機構 , 通過一系列層層遞進的研究 , 讓 AI 學會了“看懂”復雜的移動端屏幕 , 并結合獨特的自動化反饋機制讓模型“自學”編寫 UI 代碼 , 甚至將其引入專業設計師的工作流 , 由人類專家教導 AI , 提高其審美與交互設計的能力 。


(來源:Apple)

首先 , 要讓 AI 生成 UI , 必須讓它能夠像人類一樣精準地理解屏幕上的每一個像素 。 然而 , 通用的多模態模型在處理移動 UI 時存在天然的劣勢:移動設備屏幕通常具有細長的縱橫比 , 充滿了極其微小卻功能關鍵的圖標和文本 , 這些細節在傳統模型的圖像壓縮處理中往往會丟失 。

為了解決這一感知瓶頸 , 研究團隊率先于 2024 年 4 月推出了 Ferret-UI 模型 。 該模型引入了一種創新的“下任意分辨率”技術 , 它不再粗暴地縮放圖像 , 而是根據屏幕的原始縱橫比(如手機的豎屏或平板的橫屏) , 將畫面靈活切割為多個子圖像 , 在對此進行獨立編碼 。 這種處理方式如同給了 AI 一把清晰的“放大鏡” , 使其能夠捕捉到微小的 UI 元素 。


(來源:Apple)

通過在涵蓋圖標識別、文本查找、組件列表等基礎任務 , 包含功能推斷、交互對話等高級任務的精選數據集上進行訓練 , Ferret-UI 展現出了卓越的指代(Referring)與定位(Grounding)能力 , 其能描述屏幕內容 , 處理點、框、線條等空間指令都不在話下 , 還能對具體內容進行精確的坐標區域定位 , 在理解移動 UI 的基礎任務方面甚至超越了當時占據領先地位的 GPT-4V 模型 。

此外 , 針對 UI 領域稀缺高質量訓練數據的痛點 , 團隊也早在 2023 年發布的另一項名為 ILuvUI 的研究中 , 提出一種無需人工介入的數據生成方案 , 證明了合成數據在提升模型視覺理解力方面的巨大潛力 。

研究者利用現有的 UI 檢測技術提取屏幕元數據 , 再結合 GPT-3.5 , 生成逼真的問答與描述 , 形成一套包含 33.5 萬個樣本的豐富數據集 。 利用這一高質量數據集 , 研究人員初步訓練出了一個既能理解界面 , 也能進行多步交互規劃的大模型 。

在解決“看懂”的問題后 , 下一個挑戰是如何讓模型寫出高質量的 UI 代碼 。 在 UI 開發中 , 代碼不僅要語法正確 , 還必須能被編譯器接受 , 同時渲染出符合預期的視覺效果 。 然而 , 現有的開源代碼數據集(如 TheStack)中 , SwiftUI 等特定 UI 框架的代碼占比極低 , 這就讓通用模型難以掌握其編程范式 。

2024 年 6 月 , 蘋果的研究團隊再次優化了他們的 UI 模型 , 提出一種巧妙的“自動化反饋閉環”訓練方法 。 他們首先使用一個幾乎沒有接觸過 SwiftUI 數據的開源基礎模型(StarChat-Beta) , 要求其根據文本描述強行生成大量代碼 。

隨后 , 系統引入了兩個冷酷的“判官”:一個是 Swift 編譯器 , 負責剔除無法運行的垃圾代碼;另一個是視覺-語言模型(CLIP) , 負責對比生成的界面截圖與原始描述的匹配度 。 只有同時通過編譯檢查且視覺評分高的代碼 , 才會被用于微調模型 。

經過五輪“代碼生成-編譯器驗證-視覺匹配度評分(CLIP)-篩選去重”的迭代 , 這個名為 UICoder、參數僅有 15.5B 的模型最終“無中生有”地掌握了 SwiftUI 編程 , 不僅在代碼的可編譯性上大幅超越基準模型 , 還在編譯成功率上擊敗了 GPT-4 。

這項技術成功解決了“理解需求”和“寫出能跑的代碼”之間的 UI 工程鴻溝 , 確立了利用自動化工具反饋來提升代碼生成質量的技術范式 。


(來源:Apple)

蘋果團隊并不想止步于此 。 眾所周知 , 在蘋果哲學中 , “設計”從來不僅僅意味著外觀 , 它是功能的靈魂 , 更是其軟硬件生態難以被逾越的護城河 。 通用 AI 最多能寫出邏輯正確的代碼 , 卻缺乏對人類交互直覺的深刻理解 , 簡而言之 , AI“沒品味” , 也不知道什么是真正的“好設計” 。

為了讓 AI 也能做出蘋果級別的優質設計 , 研究人員將目光投向了人類設計師的專業知識 。 傳統的強化學習(RLHF)通常要求人類在兩個選項中進行簡單排名(Ranking) , 但在主觀性極強的設計領域 , 這種二元選擇會導致數據噪聲極大 , 難以傳達具體的設計意圖 。

時間來到 2025 年 9 月 , 研究團隊在一項最新研究中展示了他們的最終成果 , 他們推出了一款貼合 UI 設計師日常工作流的反饋工具 , 允許設計師“評論”(Commenting)、“繪圖標注”(Sketching)甚至直接“修改”(Revising)AI 生成的界面 , 對其提供反饋 。 設計師的修改痕跡也將轉化為訓練數據 , 用于對模型進行獎勵型微調 。


(來源:Apple)

實驗數據表明 , 相比于簡單的比較排名 , 人類設計師直接上手修改的調整數據具有極高的一致性 , 大模型由此得以精準捕捉到設計師在布局、層級和美學方面的隱性知識 。

令人驚訝的是 , 僅需使用 181 個高質量的繪圖反饋樣本 , 對開源模型 Qwen2.5-Coder 進行微調 , 其與其變體系列生成的 UI 質量就能在盲測中擊敗包括 GPT-5 在內的頂尖專有模型 。 研究還強調 , 在 UI 生成的高階階段 , 領會相應領域專家的具體修改意圖遠比海量的模糊評分更為關鍵 。

最終 , 這項歷時近三年的系列研究工作共同構成了一個完整的技術進化鏈條:Ferret-UI 賦予了 AI 精準的視覺感知能力 , UICoder 通過自動化反饋解決了代碼實現的工程難題 , 而基于設計師反饋的研究則注入了人類的審美與設計智慧 。

長久以來 , 軟件開發的本質是一場耗時的“翻譯”游戲:設計師將意圖翻譯成圖紙 , 工程師將圖紙翻譯成代碼 , 機器將代碼翻譯成界面 。 未來 , 這種轉譯之間的損耗有望被消滅:設計師落筆的瞬間 , 就是產品誕生的時刻 。

參考資料:
https://9to5mac.com/2026/02/05/designers-teach-ai-to-generate-better-ui-in-new-apple-study/
https://9to5mac.com/2025/08/14/apple-trained-an-llm-to-teach-itself-good-interface-design-in-swiftui/
https://arxiv.org/pdf/2310.04869
https://arxiv.org/pdf/2404.05719
https://arxiv.org/pdf/2406.07739
https://arxiv.org/pdf/2509.16779

【蘋果把傳統手藝交給AI了:微調千問模型自動完成UI設計】排版:劉雅坤

    推薦閱讀