OpenAI打廣告后,如何成為爆款?CMU提出AutoGEO解密流量密碼

OpenAI打廣告后,如何成為爆款?CMU提出AutoGEO解密流量密碼

文章圖片

OpenAI打廣告后,如何成為爆款?CMU提出AutoGEO解密流量密碼

文章圖片

OpenAI打廣告后,如何成為爆款?CMU提出AutoGEO解密流量密碼

文章圖片

OpenAI打廣告后,如何成為爆款?CMU提出AutoGEO解密流量密碼



AI 搜索引擎正逐漸取代傳統搜索入口 , 「問 AI」已經成為日常習慣 。 隨著 OpenAI 宣布在 ChatGPT 中引入商業推薦 , 搜索與內容分發的邊界正在被重新定義 。 在這樣的環境下 , 你的內容能否在 AI 搜索中成為「爆款」 , 不再只取決于標題和流量 , 而是更大程度取決于 AI 本身的引用偏好 。

你不只是和其他網頁爭排名 , 而是在爭奪被 AI「采納進答案」的份額 。 被引用的網頁未必最權威、也未必最早發布 , 它往往只是有更「適合被拼進回答」的寫法 。

卡內基梅隆大學的研究團隊發表在 ICLR 2026 的這篇論文把這種新流量密碼解碼得很直白 。

論文、代碼、模型參數、試用 Demo 見 Github 。



論文標題:What Generative Search Engines Like and How to Optimize Web Content Cooperatively Github:https://github.com/cxcscmu/AutoGEO
01 GEO:從 ranking 變成 「visibility in answers」
傳統搜索的基本動作是「檢索 + 排序」:給你一串鏈接 , 用戶自己點擊閱讀 。

生成式搜索引擎(Generative Engines , GE) , 例如 Google AI Overview、ChatGPT , 正在形成新的流量規則 。 這類引擎的基本動作通常是「檢索 + 綜合 + 生成」 , 先檢索候選文檔 , 再讓 LLM 把內容整合成一段答案 , 順帶附上引用來源 。

這帶來一個結構性變化:內容的曝光不再等于「排第幾」 , 而是等于在答案中被寫進多少、寫在多靠前的位置、以怎樣的方式被引用 。 也因此 , 過去那種「寫得更 SEO」未必等于「更容易被生成式引擎吸收」 。

于是出現了 Generative Engine Optimization(GEO) , 優化網頁內容以提高被 AI「采納進答案」的份額 。 但現有的 GEO 多靠人工啟發 , 比如加統計、關鍵詞策略、強調流暢等 , 依靠直覺和經驗 。

更麻煩的是:如果你為了被引用而改寫 , 可能會傷害生成式引擎輸出的可靠性與效用 。 這就是論文不斷強調的「合作式(Cooperative)」立?。 河嘔杉?, 不能以犧牲引擎效用為代價 。

02 AutoGEO:用最大反差樣本 ,把偏好從玄學變成規則集
這篇論文的核心貢獻是提出 AutoGEO:先從大量「可見性有差異」的對比證據里 , 自動抽取生成式引擎偏好規則;再用這些規則去改寫網頁 , 并且把對引擎效用(Generative engine utility , GEU)的影響納入評估 。 他們還訓練出一個小模型 AutoGEO Mini , 推理成本只有 API 方案的 ~0.0071x 。


AutoGEO:規則發現 -規則驅動改寫(API / 小模型)的整體框架 。

AutoGEO 的第一步不是改寫網頁 , 而是學習「口味」 。 作者把生成式引擎抽象為:對每個 query , 引擎檢索候選網頁集合 , 再用 LLM 生成答案 。 隨后計算每個候選網頁在答案中的可見性分數 。 可見性分數沿用 GEO 系列客觀指標衡量:不僅看引用字數(Word) , 還看引用位置權重(Pos) , 以及綜合指標(Overall) 。

關鍵設計在于「證據選擇」:對每個 query , 他們不做平均對比 , 而是挑一對可見性差距最大的網頁 。 使用這樣一對一個被大量吸收、一個幾乎沒被用的文檔 , 也就最容易看出偏好差異的「判別特征」 。

接下來是四段式 LLM 處理步驟 , 把海量對比樣本壓縮成可執行規則:

Explainer:對比兩篇文檔與最終答案 , 生成自然語言解釋(它們哪里不同、為何可能導致引用差異) 。 Extractor:把解釋提煉成結構化 insights(偏好因素的要點化表達) 。 Merger:把成千上萬條 insights 合并成候選規則 。 為了可擴展性 , 論文設計了 Hierarchical merging , 解決「上萬樣本 -穩定規則」的合并瓶頸 。 Filter:過濾掉噪聲、歧義與不穩定規則 , 得到最終規則集 。
03 怎么用: 即插即用與超低成本可部署
AutoGEO 的第二步才是改寫:讓網頁更符合規則 , 從而更可能被生成式引擎引用 。

路線 A:AutoGEO API(Prompt-based , 即插即用)

把規則集直接嵌入 prompt 的「Quality Guidelines」 , 調用強 LLM API 如 Gemini、GPT 完成重寫 。 優點是無需訓練、部署快;缺點是成本和吞吐受 API 限制 。



路線 B:AutoGEO Mini(RL-based 小模型 , 超低成本可部署)

作者微調小模型做同樣的改寫 , 并用強化學習把「可見性提升」與「合作式約束」綁定在一起 。

Cold start:先用 AutoGEO API 做 Teacher 生成改寫數據 , 對小模型做 SFT , 避免 RL 初期發散 。
GRPO 強化學習:同一文檔采樣一組候選改寫 , 按獎勵學習 。 獎勵由三部分組成:Outcome reward(改寫是否提升可見性)、Rule reward(是否滿足抽取到的規則)以及 Semantic reward(語義是否忠實原文) 。
04 怎么評估「有效且不作惡」
這篇論文的評估不只刷可見性指標 , 還顯式評估引擎效用(Utility)是否被破壞 。 論文實驗涵蓋三個數據集 GEO-Bench、Researchy-GEO、E-commerce , 分別測試 AutoGEO 在不同領域、不同意圖環境中的性能 。

同時 , 實驗考慮基于多種前沿 LLM 的 generative engine , 包含 Gemini、GPT、Claude 。

實驗指標主要分兩類:

GEO:度量網頁在答案中的可見性 , 沿用 GEO 的三類指標 Word / Pos / Overall;
GEU:衡量合作程度 , 也即答案質量 , 度量生成式引擎答案與真實答案的相關性、忠實性與質量 。
實驗結果表明 , AutoGEO API 與 AutoGEO Mini 在多個設置下顯著提升可見性指標 , 尤其 AutoGEO API 的提升幅度很大 , 比最強的基線模型高 50.99% 。


三大數據集上的總體對比:AutoGEO API / AutoGEO Mini 顯著優于基線 。

論文把合作式的承諾落在 GEU 指標上:在大幅提升 GEO 指標的同時 , GEU 多數情況下與 Vanilla 接近 。

這點很關鍵:GEO 如果只看「我被引用了多少」 , 會不可避免把互聯網推向噪聲與操縱;但如果把 GEU 納入硬指標 , 至少為「優化的邊界」提供了可討論的標準 。


不同引擎下 , 可見性(GEO)與效用(GEU)并列對比 。

05 發現:規則并不通用
規則既有共識 , 也有碎片化風險 。

如下圖 (a) , 論文顯示不同 LLM 引擎之間偏好規則重疊度不低 , 說明存在「通用型好寫法」;但仍有 engine-specific 的獨特規則 。 更劇烈的是圖 (b) domain shift:從開放域數據集遷移到電商意圖 , 規則重疊顯著下降;并且電商更偏好 actionable guidance(可操作步驟、建議) , 研究類更偏好 in-depth explanation(機制、原因、背景的解釋深度) 。


不同領域 / 任務下的共通規則與獨特規則示例:一套寫法可能跨域失靈 。

這對內容生態是一個直接的信號:未來可能出現「同一頁面多版本」 , 分別迎合不同引擎 , 甚至按領域意圖維護不同寫作模板 。

06 小結
AutoGEO 給內容方打開了一扇門:偏好可以被抽取、規則可以被更新、改寫可以被訓練、成本可以被壓到極低 。

生成式搜索時代的一個新現實是:你寫給人看的網頁 , 可能首先要通過「答案機器的消化系統」 。 下一步怎么走 , 決定互聯網會更透明 , 還是更像一場模型與模型之間的軍備競賽 。 接下來真正的競爭不僅在內容方 , 也在引擎與生態治理:

當大量網頁開始「為引用而寫」 , 引擎還能否區分「更有信息量」與「更像會被引用的信息」?
如果平臺開始頻繁更新偏好以對抗被規?;?, 是否會出現一場持續的「規則 - 反規則」軍備競賽?
AutoGEO 把 GEO 從玄學推進到工程 , 也把生成式搜索的下一輪博弈 , 提前公開了 。

作者簡介
【OpenAI打廣告后,如何成為爆款?CMU提出AutoGEO解密流量密碼】本文作者來自于卡內基梅隆大學計算機學院語言技術研究所 CX Research Group , 指導老師是 Chenyan Xiong 教授 。 組內研究聚焦于語言模型 , 主要包括基礎模型訓練 , 與深度研究、RAG 有關的信息檢索和生成 , 以及語言模型的應用 。 團隊主頁:https://www.cs.cmu.edu/~cxcscmu/ 。 歡迎大家關注我們團隊的最新研究成果!

    推薦閱讀