LLM-in-Sandbox：給大模型一臺電腦，激發通用智能體能力

2026-04-07 尼康尼克爾

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

大模型的能力正在被不同的范式逐步解鎖：In-Context Learning 展示了模型無需微調即可泛化到新任務；Chain-of-Thought 通過引導模型分步推理來提升復雜問題的求解能力；近期，智能體框架則賦予模型調用工具、多輪交互的能力。

沿著這條技術演進路線，下一步是什么？

近日，來自中國人民大學高瓴人工智能學院、微軟研究院和清華大學的研究者提出了一個簡潔而有效的范式：LLM-in-Sandbox——讓大模型在代碼沙盒（即虛擬電腦）中自由探索來完成任務。實驗表明，這一范式不僅在代碼任務上有效，更能顯著提升模型在數學、物理、化學、生物醫學、長文本理解、指令遵循等多個非代碼領域的表現，且無需額外訓練，同時顯著減少長文本場景下的 token 消耗，并保持相當水平的推理速度。

研究者已將 LLM-in-Sandbox 開源為 Python 包，可與 vLLM、SGLang 等主流推理后端無縫集成。 LLM-in-Sandbox 應當成為大模型的默認部署范式，取代純 LLM 推理。

論文標題：LLM-in-Sandbox Elicits General Agentic Intelligence 論文鏈接：https://arxiv.org/abs/2601.16206 代碼鏈接：https://github.com/llm-in-sandbox/llm-in-sandbox 項目主頁：https://llm-in-sandbox.github.io
1. 核心思想：給大模型一臺電腦

電腦可能是人類創造的最通用的工具，幾乎任何任務都可以通過電腦完成。這種通用性源于三大元能力（Meta-Capabilities)：

外部資源訪問：通過網絡獲取信息和知識文件管理：持久化地讀寫和組織數據程序執行：編寫并運行任意程序
正如人類借助電腦完成各種任務，研究者假設：將大模型與虛擬電腦結合，或許能夠解鎖其通用智能的潛力。

2. LLM-in-Sandbox：
代碼沙盒激發通用能力

2.1 輕量級通用沙盒

與現有軟件工程智能體（SWE-Agent）需要為每個任務配置特定環境不同， LLM-in-Sandbox 采用輕量級、通用化的設計：

基于 Docker 的 Ubuntu 環境僅預裝 Python 解釋器和基礎科學計算庫將領域特定工具的獲取交給模型自主完成

這種設計帶來兩個優勢：泛化性（同一環境支持多種任務）和可擴展性（無需為每個任務維護獨立鏡像）。例如，當擴展到數千個任務時， SWE 智能體可能需要高達 6TB 的存儲空間用于任務特定鏡像，而 LLM-in-Sandbox 僅需約 1.1GB 的共享鏡像。

2.2 最小化工具集

研究者為模型配備了三個基礎工具：

execute_bash：執行任意終端命令 str_replace_editor：文件的創建、查看和編輯 submit：標記任務完成
這三個工具共同實現了電腦的核心能力，足以支撐復雜任務的完成。

2.3 探索式工作流

LLM-in-Sandbox 采用多輪交互的工作流：模型在每一輪生成工具調用，接收執行結果作為反饋，然后決定下一步行動，直到調用 submit 或達到最大輪次限制。

2.4 實驗結果：無需訓練的顯著提升

研究者在六個非代碼領域進行了實驗：數學、物理、化學、生物醫學、長文本理解和指令遵循。

實驗結果表明，強大的語言模型在 LLM-in-Sandbox 模式下獲得了一致性的提升。值得注意的是，這些提升完全無需額外訓練：模型能夠自發地利用沙盒環境來增強任務表現。

2.5 涌現的工具使用能力

研究者通過案例分析揭示了模型如何自主利用沙盒的三大能力。

外部資源訪問：在化學任務中，模型被要求根據化合物名稱預測分子性質。為此，模型自主安裝了 Java 運行環境，并下載了 OPSIN 庫來將化學名稱轉換為分子結構，這些工具并非預裝在基礎環境中。

文件管理：在長文本理解任務中，面對超過 100K tokens 的行業報告，模型并未嘗試在 prompt 中處理整個文檔，而是使用 grep、sed 等 shell 工具定位相關段落，然后編寫 Python 腳本系統性地提取信息。

計算執行：在指令遵循任務中，模型被要求生成三個滿足嚴格約束的句子：所有句子必須具有相同的字符數，同時使用完全不同的詞匯。模型編寫了 Python 腳本來統計字符、檢測詞匯重疊，并迭代優化候選句子。

【LLM-in-Sandbox：給大模型一臺電腦，激發通用智能體能力】3. LLM-in-Sandbox RL：
通過強化學習增強泛化能力

雖然強大的智能體模型能夠直接受益于 LLM-in-Sandbox ，但較弱的模型（如 Qwen3-4B-Instruct）往往難以有效利用沙盒環境，甚至表現不如純 LLM 模式。

為此，研究者提出了 LLM-in-Sandbox RL：使用非智能體數據在沙盒環境中訓練模型。

3.1 方法設計

核心思想是采用基于上下文的任務（context-based tasks）：每個任務包含背景材料和需要基于這些材料完成的目標。由于完成目標依賴于提供的材料，模型必須主動探索沙盒以找到相關信息，從而自然地學會利用沙盒能力。

3.2 泛化能力

實驗在 Qwen3-4B-Instruct 和 Qwen3-Coder-30B-A3B 兩個模型上進行。關鍵發現是 LLM-in-Sandbox RL 展現出強大的泛化能力：

跨領域泛化：訓練數據來自通用領域，但模型在數學、物理、化學、長文本、指令遵循等多個下游任務上都獲得了一致的提升，甚至在軟件工程任務上也有改善。跨推理模式泛化：有趣的是， LLM-in-Sandbox RL 不僅提升了沙盒模式的表現，還同時提升了純 LLM 模式的表現。這說明在沙盒中學到的探索和推理能力可以遷移到非沙盒場景。跨模型能力泛化：無論是較弱的通用模型（Qwen3-4B-Instruct）還是較強的代碼專用模型（Qwen3-Coder-30B-A3B）， LLM-in-Sandbox RL 都能帶來一致的提升，表明這一方法具有良好的模型通用性。
4. 效率分析：
LLM-in-Sandbox 的實際部署價值

4.1 Token 消耗

在長文本場景下， LLM-in-Sandbox 將文檔存儲在沙盒中而非放入 prompt ，可將 token 消耗降低最多 8 倍（100K → 13K tokens）。

4.2 推理速度

通過將計算卸載到沙盒， LLM-in-Sandbox 將工作負載從慢速的自回歸生成（decode）轉移到快速的并行預填充（prefill) ，在平均情況下保持有競爭力的吞吐量（QPM）：MiniMax 可實現 2.2 倍加速。

5. LLM-in-Sandbox 超越文本生成

前面的實驗評估的是 LLM 和 LLM-in-Sandbox 都能完成的任務。然而， LLM-in-Sandbox 還能實現純 LLM 根本無法完成的能力。通過給 LLM 提供虛擬電腦， LLM-in-Sandbox 突破了 text-in-text-out 的范式，解鎖了新的可能性：

跨模態能力：LLM 局限于文本輸入輸出，但 LLM-in-Sandbox 可以通過在沙盒中調用專業軟件來處理和生成圖像、視頻、音頻和交互式應用文件級操作：不再是描述文件應該包含什么，而是直接生成可用的文件 ——.png、.mp4、.wav、.html 自主工具獲?。翰煌讜ざㄒ宓墓ぞ叩饔?， LLM-in-Sandbox 使 LLM 能夠自主發現、安裝和學習使用任意軟件庫

這些案例揭示了一個有前景的方向：隨著 LLM 能力的增強和沙盒環境的完善， LLM-in-Sandbox 可能演化為真正的通用數字創作系統。

6. 總結與展望

LLM-in-Sandbox 提出了一個簡潔而有效的范式：通過給大模型提供一臺虛擬電腦，讓其自由探索來完成任務。實驗表明，這一范式能夠顯著提升模型在非代碼領域的表現，且無需額外訓練。

研究者認為， LLM-in-Sandbox 應當成為大模型的默認部署范式，取代純 LLM 推理。當沙盒可以帶來顯著的性能提升，并且部署成本幾乎可以忽略不計時，為什么還要用純 LLM？

推薦閱讀

上一篇：主攝和長焦都升級2億像素 OPPO Find X9s小屏旗艦曝光

下一篇：蘋果新Siri史詩級進化！每年10億借谷歌“大腦”，或下月發布