首個完整開源的生成式推薦框架MiniOneRec,輕量復現工業級OneRec

首個完整開源的生成式推薦框架MiniOneRec,輕量復現工業級OneRec

文章圖片

首個完整開源的生成式推薦框架MiniOneRec,輕量復現工業級OneRec

文章圖片

首個完整開源的生成式推薦框架MiniOneRec,輕量復現工業級OneRec

文章圖片

首個完整開源的生成式推薦框架MiniOneRec,輕量復現工業級OneRec



中科大 LDS 實驗室何向南、王翔團隊與 Alpha Lab 張岸團隊聯合開源 MiniOneRec , 推出生成式推薦首個完整的端到端開源框架 , 不僅在開源場景驗證了生成式推薦 Scaling Law , 還可輕量復現「OneRec」 , 為社區提供一站式的生成式推薦訓練與研究平臺 。


近年來 , 在推薦系統領域 , 傳統 “召回 + 排序” 級聯式架構的收益正逐漸觸頂 , 而 ChatGPT 等大語言模型則展現了強大的涌現能力和符合 Scaling Law 的巨大潛力 —— 這股變革性的力量使 “生成式推薦” 成為當下最熱門的話題之一 。 不同于判別式模型孤立地計算用戶喜歡某件物品的概率 , “生成式推薦” 能夠利用層次化語義 ID 表示用戶歷史行為序列 , 并基于生成式模型結構直接生成用戶下一批可能交互的物品列表 。 這種推薦模式顯著提升了模型的智能上限 , 并為推薦場景引入 Scaling Law 的可能性 。


快手 OneRec 的成功落地 , 更是徹底引爆了推薦圈子 。 憑借端到端的推薦大模型 , 重構現今的推薦系統不再是空談 , 它已證明是一場資源可控、能帶來真實線上收益的推薦革命 。


然而 , 對于這一可能革新整個推薦系統的新范式 , 各大廠卻諱莫如深 , 核心技術細節與公開表現鮮有披露 。 開源社區與一線大廠的探索似乎正在脫鉤 , 技術鴻溝日漸明顯 。
【首個完整開源的生成式推薦框架MiniOneRec,輕量復現工業級OneRec】

如何破局?


近日 , 中國科學技術大學 LDS 實驗室何向南、王翔團隊聯合 Alpha Lab 張岸團隊正式發布 MiniOneRec 。 這一框架作為生成式推薦領域首個完整開源方案 , 為社區提供了全鏈路、一站式、端到端的訓練與研究平臺 。





  • 論文標題:MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation
  • 論文鏈接:https://arxiv.org/abs/2510.24431
  • 代碼鏈接:https://github.com/AkaliKong/MiniOneRec
  • Huggingface 鏈接: https://huggingface.co/kkknight/MiniOneRec


核心貢獻:


  • 端到端流程支持:從 SID 生成、 模型監督微調、 推薦驅動的強化學習 , 全鏈路打通 。
  • 開源場景 Scaling Law 驗證:首次在開源數據與模型上 , 驗證了生成式推薦的 Scaling Law 。
  • 優化后訓練框架:提供一套輕量、完整的后訓練框架 , 并引入多項針對推薦任務的改進 。


自 10 月 28 日發布以來 , MiniOneRec 就廣受推薦社區關注 。 其代碼、數據集、模型權重已全部開源 , 僅需 4-8 卡 A100 同級算力即可輕松復現 。


1. 首次公開數據集驗證生成式推薦 Scaling Law:


研究人員首次在公共數據集上 , 驗證了生成式推薦模型的 Scaling Law 。



圖 1. 模型參數從 0.5B 到 7B 的訓練 Loss 變化 。


團隊在 Amazon Review 公開數據上 , 以統一的設置訓練了從 0.5B 到 7B 的 MiniOneRec 版本 。 結果驚艷:隨著模型規模(訓練 FLOPs)的增大 , 最終訓練損失和評估損失持續下降 , 充分展示了生成式推薦范式在參數利用效率上的優勢 。


2. MiniOneRec 核心技術框架:


該框架提供一站式的生成式推薦輕量實現與改進 , 具體包括:


(1)豐富的 SID Construction 工具箱


MiniOneRec 為開源社區提供了豐富的的 SID Construction 工具選擇 , 已集成 RQ-VAE RQ-Kmeans RQ-VAE-v2 (Google 最新工作 PLUM) 并將更新 RQ-OPQ 在內的先進量化算法實現 。





下一步 , 團隊正積極更新接口 , 以對齊業界的多模態需求 。


(2)引入世界知識:全流程 SID 對齊策略


研究人員驗證了一個關鍵發現:引入大模型世界知識 , 能顯著提升生成式推薦的性能 。 團隊分別評測了 MiniOneRec 與其變體在不同訓練階段的性能表現 , 具體包括:


  • MiniOneRec-Scratch: 基于隨機初始化的 LLM 權重訓練 , 不做任何 SID - 文本對齊任務 。
  • MiniOneRec- W/O ALIGN: 基于預訓練 LLM 進行后訓練 , 不做任務 SID - 文本對齊 。
  • MiniOneRec: 基于預訓練 LLM 進行后訓練 , 并進行全流程的 SID 對齊 。



圖 3. 世界知識對于生成式推薦性能的影響 。


結果顯示 , 基于預訓練 LLM 初始化并進行語義對齊的 MiniOneRec(紅線)始終優于未充分對齊的對應變體(黃 / 藍線) 。 這表明預訓練 LLM 已具備的通用序列處理能力和世界知識 , 為推薦任務帶來了顯著的額外收益 。


基于此發現 , MiniOneRec 將 SID token 添加至 LLM 詞表 , 并在 SFT 和 RL 階段共同優化推薦與對齊兩大任務 , 將 LLM 語言空間與 SID 信號緊密對齊 。


(3)獨家優化:面向推薦的強化學習策略



圖 4. MiniOneRec 框架 。


MiniOneRec 基于 GRPO 進一步實現了面向推薦的強化學習算法 , 具體包括


  • 面向推薦的采樣策略


由于采取 Constrained-Decoding 策略規范模型生成合法 SID , 模型的輸出被限制在遠比自然語言狹窄的有限空間 。 隨著強化學習訓練的深入 , 傳統采樣策略的熵迅速降低 , 使得模型在多次采樣時容易反復生成相同的冗余物品 , 導致優化效率低下 。 基于這個發現 , MiniOneRec 替換常規采樣策略為 Constrained Beam-Search , 高效生成多樣化的候選物品 , 兼顧采樣效率和對負樣本的曝光率 。


  • 面向推薦的獎勵塑造


推薦場景用戶交互稀疏 , 常規的二元獎勵使得負樣本 “坍縮” 為同一獎勵值 , 使得強化學習監督信號粒度粗糙 。 MiniOneRec 在準確性獎勵之外 , 創新性引入排名獎勵 , 對于高置信度 “困難負樣本” 施加額外懲罰 , 從而強化排序信號的區分度 。


  • 開源基準測試全面領先


在同一 Amazon 基準上 , 研究人員將 MiniOneRec 同當前 SOTA 的傳統推薦范式、生成式推薦范式、基于大模型的推薦范式進行了全面對比 。



圖 5. MiniOneRec 同傳統推薦、生成式推薦、LLM 推薦性能對比 。


結果顯示 , MiniOneRec 展現出全面的領先優勢:


在 HitRate@K 和 NDCG@K 兩項推薦指標上 , MiniOneRec 始終顯著優于以往的傳統推薦范式與生成式推薦范式 , 領先 TIGER 約 30 個百分點 。 而對于基于大模型的推薦范式 , MiniOnRec 呈現總體的領先的同時擁有顯著的上下文 token 優勢 。


這表明 , 生成式推薦作為可能的下一代推薦范式擁有顯著潛力 。


4. 生成式推薦的展望與思考:


生成式推薦會成為下一代推薦系統的新范式嗎?這個問題似乎還難以有一個定論 。


一方面 , 以美團 MTGR、淘天 URM 等為代表的推薦系統 “改革派” , 利用生成式架構的長序列建模等能力賦能判別式 , 在現有的體系內基于 “生成式召回” 方案進行增量改進 。


另一方面 , 以快手 OneRec 為代表的更為激進的 “革命派” , 則想要直接顛覆傳統多階段級聯的判別式方案、實現真正端到端自回歸地生成用戶興趣列表 。


雖然兩條路線取舍不同 , 但都在規?;瘜嵺`中驗證了生成式范式的實際價值 。 對部分大廠而言 , 生成式范式已經走出 “可行性驗證” 階段 , 開始在業務上創造真實收益 。 相較于業界的快速推進 , 學術界與開源社區在這一方向仍顯薄弱 。 面對這場可能重塑推薦技術版圖的機遇 , 我們期待更多研究者與工程實踐者大膽嘗試 , 擁抱這或許是推薦領域的 “GPT 時刻” 。

    推薦閱讀