LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

文章圖片

LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

文章圖片

LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

文章圖片

LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

文章圖片

LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

文章圖片

LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

文章圖片

LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力

文章圖片




大模型的能力正在被不同的范式逐步解鎖:In-Context Learning 展示了模型無需微調即可泛化到新任務;Chain-of-Thought 通過引導模型分步推理來提升復雜問題的求解能力;近期 , 智能體框架則賦予模型調用工具、多輪交互的能力 。

沿著這條技術演進路線 , 下一步是什么?

近日 , 來自中國人民大學高瓴人工智能學院、微軟研究院和清華大學的研究者提出了一個簡潔而有效的范式:LLM-in-Sandbox——讓大模型在代碼沙盒(即虛擬電腦)中自由探索來完成任務 。 實驗表明 , 這一范式不僅在代碼任務上有效 , 更能顯著提升模型在數學、物理、化學、生物醫學、長文本理解、指令遵循等多個非代碼領域的表現 , 且無需額外訓練 , 同時顯著減少長文本場景下的 token 消耗 , 并保持相當水平的推理速度 。

研究者已將 LLM-in-Sandbox 開源為 Python 包 , 可與 vLLM、SGLang 等主流推理后端無縫集成 。 LLM-in-Sandbox 應當成為大模型的默認部署范式 , 取代純 LLM 推理 。



論文標題:LLM-in-Sandbox Elicits General Agentic Intelligence 論文鏈接:https://arxiv.org/abs/2601.16206 代碼鏈接:https://github.com/llm-in-sandbox/llm-in-sandbox 項目主頁:https://llm-in-sandbox.github.io
1. 核心思想:給大模型一臺電腦

電腦可能是人類創造的最通用的工具 , 幾乎任何任務都可以通過電腦完成 。 這種通用性源于三大元能力(Meta-Capabilities):

外部資源訪問:通過網絡獲取信息和知識 文件管理:持久化地讀寫和組織數據 程序執行:編寫并運行任意程序
正如人類借助電腦完成各種任務 , 研究者假設:將大模型與虛擬電腦結合 , 或許能夠解鎖其通用智能的潛力 。



2. LLM-in-Sandbox:
代碼沙盒激發通用能力

2.1 輕量級通用沙盒

與現有軟件工程智能體(SWE-Agent)需要為每個任務配置特定環境不同 , LLM-in-Sandbox 采用輕量級、通用化的設計:

基于 Docker 的 Ubuntu 環境 僅預裝 Python 解釋器和基礎科學計算庫 將領域特定工具的獲取交給模型自主完成


這種設計帶來兩個優勢:泛化性(同一環境支持多種任務)和可擴展性(無需為每個任務維護獨立鏡像) 。 例如 , 當擴展到數千個任務時 , SWE 智能體可能需要高達 6TB 的存儲空間用于任務特定鏡像 , 而 LLM-in-Sandbox 僅需約 1.1GB 的共享鏡像 。

2.2 最小化工具集

研究者為模型配備了三個基礎工具:

execute_bash:執行任意終端命令 str_replace_editor:文件的創建、查看和編輯 submit:標記任務完成
這三個工具共同實現了電腦的核心能力 , 足以支撐復雜任務的完成 。

2.3 探索式工作流

LLM-in-Sandbox 采用多輪交互的工作流:模型在每一輪生成工具調用 , 接收執行結果作為反饋 , 然后決定下一步行動 , 直到調用 submit 或達到最大輪次限制 。



2.4 實驗結果:無需訓練的顯著提升

研究者在六個非代碼領域進行了實驗:數學、物理、化學、生物醫學、長文本理解和指令遵循 。



實驗結果表明 , 強大的語言模型在 LLM-in-Sandbox 模式下獲得了一致性的提升 。 值得注意的是 , 這些提升完全無需額外訓練:模型能夠自發地利用沙盒環境來增強任務表現 。

2.5 涌現的工具使用能力

研究者通過案例分析揭示了模型如何自主利用沙盒的三大能力 。

外部資源訪問:在化學任務中 , 模型被要求根據化合物名稱預測分子性質 。 為此 , 模型自主安裝了 Java 運行環境 , 并下載了 OPSIN 庫來將化學名稱轉換為分子結構 , 這些工具并非預裝在基礎環境中 。


文件管理:在長文本理解任務中 , 面對超過 100K tokens 的行業報告 , 模型并未嘗試在 prompt 中處理整個文檔 , 而是使用 grep、sed 等 shell 工具定位相關段落 , 然后編寫 Python 腳本系統性地提取信息 。


計算執行:在指令遵循任務中 , 模型被要求生成三個滿足嚴格約束的句子:所有句子必須具有相同的字符數 , 同時使用完全不同的詞匯 。 模型編寫了 Python 腳本來統計字符、檢測詞匯重疊 , 并迭代優化候選句子 。


【LLM-in-Sandbox:給大模型一臺電腦,激發通用智能體能力】3. LLM-in-Sandbox RL:
通過強化學習增強泛化能力

雖然強大的智能體模型能夠直接受益于 LLM-in-Sandbox , 但較弱的模型(如 Qwen3-4B-Instruct)往往難以有效利用沙盒環境 , 甚至表現不如純 LLM 模式 。

為此 , 研究者提出了 LLM-in-Sandbox RL:使用非智能體數據在沙盒環境中訓練模型 。

3.1 方法設計



核心思想是采用基于上下文的任務(context-based tasks):每個任務包含背景材料和需要基于這些材料完成的目標 。 由于完成目標依賴于提供的材料 , 模型必須主動探索沙盒以找到相關信息 , 從而自然地學會利用沙盒能力 。

3.2 泛化能力



實驗在 Qwen3-4B-Instruct 和 Qwen3-Coder-30B-A3B 兩個模型上進行 。 關鍵發現是 LLM-in-Sandbox RL 展現出強大的泛化能力:

跨領域泛化: 訓練數據來自通用領域 , 但模型在數學、物理、化學、長文本、指令遵循等多個下游任務上都獲得了一致的提升 , 甚至在軟件工程任務上也有改善 。 跨推理模式泛化:有趣的是 , LLM-in-Sandbox RL 不僅提升了沙盒模式的表現 , 還同時提升了純 LLM 模式的表現 。 這說明在沙盒中學到的探索和推理能力可以遷移到非沙盒場景 。 跨模型能力泛化: 無論是較弱的通用模型(Qwen3-4B-Instruct)還是較強的代碼專用模型(Qwen3-Coder-30B-A3B) , LLM-in-Sandbox RL 都能帶來一致的提升 , 表明這一方法具有良好的模型通用性 。
4. 效率分析:
LLM-in-Sandbox 的實際部署價值

4.1 Token 消耗



在長文本場景下 , LLM-in-Sandbox 將文檔存儲在沙盒中而非放入 prompt , 可將 token 消耗降低最多 8 倍(100K → 13K tokens) 。

4.2 推理速度



通過將計算卸載到沙盒 , LLM-in-Sandbox 將工作負載從慢速的自回歸生成(decode)轉移到快速的并行預填充(prefill) , 在平均情況下保持有競爭力的吞吐量(QPM):MiniMax 可實現 2.2 倍加速 。

5. LLM-in-Sandbox 超越文本生成

前面的實驗評估的是 LLM 和 LLM-in-Sandbox 都能完成的任務 。 然而 , LLM-in-Sandbox 還能實現純 LLM 根本無法完成的能力 。 通過給 LLM 提供虛擬電腦 , LLM-in-Sandbox 突破了 text-in-text-out 的范式 , 解鎖了新的可能性:

跨模態能力:LLM 局限于文本輸入輸出 , 但 LLM-in-Sandbox 可以通過在沙盒中調用專業軟件來處理和生成圖像、視頻、音頻和交互式應用 文件級操作:不再是描述文件應該包含什么 , 而是直接生成可用的文件 ——.png、.mp4、.wav、.html 自主工具獲?。 翰煌讜ざㄒ宓墓ぞ叩饔?, LLM-in-Sandbox 使 LLM 能夠自主發現、安裝和學習使用任意軟件庫


這些案例揭示了一個有前景的方向:隨著 LLM 能力的增強和沙盒環境的完善 , LLM-in-Sandbox 可能演化為真正的通用數字創作系統 。

6. 總結與展望

LLM-in-Sandbox 提出了一個簡潔而有效的范式:通過給大模型提供一臺虛擬電腦 , 讓其自由探索來完成任務 。 實驗表明 , 這一范式能夠顯著提升模型在非代碼領域的表現 , 且無需額外訓練 。

研究者認為 , LLM-in-Sandbox 應當成為大模型的默認部署范式 , 取代純 LLM 推理 。 當沙盒可以帶來顯著的性能提升 , 并且部署成本幾乎可以忽略不計時 , 為什么還要用純 LLM?

    推薦閱讀