OpenAI打廣告后，如何成為爆款？CMU提出AutoGEO解密流量密碼

2026-04-03 ai it芯片 Linux 英偉達黃仁勛

文章圖片

文章圖片

文章圖片

AI 搜索引擎正逐漸取代傳統搜索入口，「問 AI」已經成為日常習慣。隨著 OpenAI 宣布在 ChatGPT 中引入商業推薦，搜索與內容分發的邊界正在被重新定義。在這樣的環境下，你的內容能否在 AI 搜索中成為「爆款」，不再只取決于標題和流量，而是更大程度取決于 AI 本身的引用偏好。

你不只是和其他網頁爭排名，而是在爭奪被 AI「采納進答案」的份額。被引用的網頁未必最權威、也未必最早發布，它往往只是有更「適合被拼進回答」的寫法。

卡內基梅隆大學的研究團隊發表在 ICLR 2026 的這篇論文把這種新流量密碼解碼得很直白。

論文、代碼、模型參數、試用 Demo 見 Github 。

論文標題：What Generative Search Engines Like and How to Optimize Web Content Cooperatively Github：https://github.com/cxcscmu/AutoGEO
01 GEO：從 ranking 變成「visibility in answers」
傳統搜索的基本動作是「檢索 + 排序」：給你一串鏈接，用戶自己點擊閱讀。

生成式搜索引擎（Generative Engines ， GE），例如 Google AI Overview、ChatGPT ，正在形成新的流量規則。這類引擎的基本動作通常是「檢索 + 綜合 + 生成」，先檢索候選文檔，再讓 LLM 把內容整合成一段答案，順帶附上引用來源。

這帶來一個結構性變化：內容的曝光不再等于「排第幾」，而是等于在答案中被寫進多少、寫在多靠前的位置、以怎樣的方式被引用。也因此，過去那種「寫得更 SEO」未必等于「更容易被生成式引擎吸收」。

于是出現了 Generative Engine Optimization（GEO），優化網頁內容以提高被 AI「采納進答案」的份額。但現有的 GEO 多靠人工啟發，比如加統計、關鍵詞策略、強調流暢等，依靠直覺和經驗。

更麻煩的是：如果你為了被引用而改寫，可能會傷害生成式引擎輸出的可靠性與效用。這就是論文不斷強調的「合作式（Cooperative）」立?。河嘔杉?，不能以犧牲引擎效用為代價。

02 AutoGEO：用最大反差樣本，把偏好從玄學變成規則集
這篇論文的核心貢獻是提出 AutoGEO：先從大量「可見性有差異」的對比證據里，自動抽取生成式引擎偏好規則；再用這些規則去改寫網頁，并且把對引擎效用（Generative engine utility ， GEU）的影響納入評估。他們還訓練出一個小模型 AutoGEO Mini ，推理成本只有 API 方案的 ~0.0071x 。

AutoGEO：規則發現 -規則驅動改寫（API / 小模型）的整體框架。

AutoGEO 的第一步不是改寫網頁，而是學習「口味」。作者把生成式引擎抽象為：對每個 query ，引擎檢索候選網頁集合，再用 LLM 生成答案。隨后計算每個候選網頁在答案中的可見性分數。可見性分數沿用 GEO 系列客觀指標衡量：不僅看引用字數（Word），還看引用位置權重（Pos），以及綜合指標（Overall）。

關鍵設計在于「證據選擇」：對每個 query ，他們不做平均對比，而是挑一對可見性差距最大的網頁。使用這樣一對一個被大量吸收、一個幾乎沒被用的文檔，也就最容易看出偏好差異的「判別特征」。

接下來是四段式 LLM 處理步驟，把海量對比樣本壓縮成可執行規則：

Explainer：對比兩篇文檔與最終答案，生成自然語言解釋（它們哪里不同、為何可能導致引用差異）。 Extractor：把解釋提煉成結構化 insights（偏好因素的要點化表達）。 Merger：把成千上萬條 insights 合并成候選規則。為了可擴展性，論文設計了 Hierarchical merging ，解決「上萬樣本 -穩定規則」的合并瓶頸。 Filter：過濾掉噪聲、歧義與不穩定規則，得到最終規則集。
03 怎么用：即插即用與超低成本可部署
AutoGEO 的第二步才是改寫：讓網頁更符合規則，從而更可能被生成式引擎引用。

路線 A：AutoGEO API（Prompt-based ，即插即用）

把規則集直接嵌入 prompt 的「Quality Guidelines」，調用強 LLM API 如 Gemini、GPT 完成重寫。優點是無需訓練、部署快；缺點是成本和吞吐受 API 限制。

路線 B：AutoGEO Mini（RL-based 小模型，超低成本可部署）

作者微調小模型做同樣的改寫，并用強化學習把「可見性提升」與「合作式約束」綁定在一起。

Cold start：先用 AutoGEO API 做 Teacher 生成改寫數據，對小模型做 SFT ，避免 RL 初期發散。
GRPO 強化學習：同一文檔采樣一組候選改寫，按獎勵學習。獎勵由三部分組成：Outcome reward（改寫是否提升可見性）、Rule reward（是否滿足抽取到的規則）以及 Semantic reward（語義是否忠實原文）。
04 怎么評估「有效且不作惡」
這篇論文的評估不只刷可見性指標，還顯式評估引擎效用（Utility）是否被破壞。論文實驗涵蓋三個數據集 GEO-Bench、Researchy-GEO、E-commerce ，分別測試 AutoGEO 在不同領域、不同意圖環境中的性能。

同時，實驗考慮基于多種前沿 LLM 的 generative engine ，包含 Gemini、GPT、Claude 。

實驗指標主要分兩類：

GEO：度量網頁在答案中的可見性，沿用 GEO 的三類指標 Word / Pos / Overall；
GEU：衡量合作程度，也即答案質量，度量生成式引擎答案與真實答案的相關性、忠實性與質量。
實驗結果表明， AutoGEO API 與 AutoGEO Mini 在多個設置下顯著提升可見性指標，尤其 AutoGEO API 的提升幅度很大，比最強的基線模型高 50.99% 。

三大數據集上的總體對比：AutoGEO API / AutoGEO Mini 顯著優于基線。

論文把合作式的承諾落在 GEU 指標上：在大幅提升 GEO 指標的同時， GEU 多數情況下與 Vanilla 接近。

這點很關鍵：GEO 如果只看「我被引用了多少」，會不可避免把互聯網推向噪聲與操縱；但如果把 GEU 納入硬指標，至少為「優化的邊界」提供了可討論的標準。

不同引擎下，可見性（GEO）與效用（GEU）并列對比。

05 發現：規則并不通用
規則既有共識，也有碎片化風險。

如下圖 (a) ，論文顯示不同 LLM 引擎之間偏好規則重疊度不低，說明存在「通用型好寫法」；但仍有 engine-specific 的獨特規則。更劇烈的是圖 (b) domain shift：從開放域數據集遷移到電商意圖，規則重疊顯著下降；并且電商更偏好 actionable guidance（可操作步驟、建議），研究類更偏好 in-depth explanation（機制、原因、背景的解釋深度）。

不同領域 / 任務下的共通規則與獨特規則示例：一套寫法可能跨域失靈。

這對內容生態是一個直接的信號：未來可能出現「同一頁面多版本」，分別迎合不同引擎，甚至按領域意圖維護不同寫作模板。

06 小結
AutoGEO 給內容方打開了一扇門：偏好可以被抽取、規則可以被更新、改寫可以被訓練、成本可以被壓到極低。

生成式搜索時代的一個新現實是：你寫給人看的網頁，可能首先要通過「答案機器的消化系統」。下一步怎么走，決定互聯網會更透明，還是更像一場模型與模型之間的軍備競賽。接下來真正的競爭不僅在內容方，也在引擎與生態治理：

當大量網頁開始「為引用而寫」，引擎還能否區分「更有信息量」與「更像會被引用的信息」？
如果平臺開始頻繁更新偏好以對抗被規?；?，是否會出現一場持續的「規則 - 反規則」軍備競賽？
AutoGEO 把 GEO 從玄學推進到工程，也把生成式搜索的下一輪博弈，提前公開了。

作者簡介
【OpenAI打廣告后，如何成為爆款？CMU提出AutoGEO解密流量密碼】本文作者來自于卡內基梅隆大學計算機學院語言技術研究所 CX Research Group ，指導老師是 Chenyan Xiong 教授。組內研究聚焦于語言模型，主要包括基礎模型訓練，與深度研究、RAG 有關的信息檢索和生成，以及語言模型的應用。團隊主頁：https://www.cs.cmu.edu/~cxcscmu/ 。歡迎大家關注我們團隊的最新研究成果！

推薦閱讀

上一篇：首批支持小米17系列小米宣布Xiaomi miclaw封測：一句話操作手機

下一篇：高德納：「震驚！震驚！」Claude破解《計算機程序設計藝術》難題