為AI科學家提供安全鎖:UIUC團隊提出新框架,安全性能提升35%

為AI科學家提供安全鎖:UIUC團隊提出新框架,安全性能提升35%

文章圖片

為AI科學家提供安全鎖:UIUC團隊提出新框架,安全性能提升35%

近年來 , 大語言模型(LLM)智能體的快速發展極大地推動了科研自動化的進程 , 但同時也引發了重要的倫理與安全問題 。 為了應對這些挑戰 , 美國伊利諾伊大學厄巴納-香檳分校(UIUC , University of Illinois Urbana-Champaign)的助理教授尤佳軒團隊提出了 SafeScientist——一種專為提升 AI 科學家的安全性而設計的人工智能科研框架 。

SafeScientist 能夠主動拒絕不符合倫理或高風險的科研任務 , 并在整個研究流程中嚴格實現全面的安全監督 , 該框架集成了多層防御機制 。

與 SafeScientist 相配套 , 該研究還提出了 SciSafetyBench——一個專為科研場景設計的 AI 安全性評測基準 。 該基準涵蓋 6 個科學領域的 240 個高風險科研任務 , 配合 30 個專用科研工具以及 120 個與工具使用相關的風險任務 , 可系統評估 AI 科學家的安全表現 。 大量實驗結果表明 , 相較于傳統的 AI 科研框架 , SafeScientist 在不降低科研成果質量的前提下 , 整體安全性能提升約 35% 。

目前相關論文以《SafeScientist:面向風險感知的大語言模型科研發現框架》(SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents)為題發表在自然語言處理領域頂會 EMNLP(Empirical Methods in Natural Language Processing)上 [1
。 UIUC 朱昆侖博士是第一作者 , 尤佳軒擔任通信作者 。


圖丨相關論文(來源:arXiv)

SafeScientist 從用戶的指令開始 , 系統首先分析任務的科學領域 。 基于這一初步分析 , 框架會激活一組合適的專家智能體集合(包括特定領域研究員、通用型綜述撰寫者以及實驗規劃者) , 以協作的形式展開小組討論 。

這些代理會共同生成并反復優化科研思路 。 一旦確定了具有潛力的研究想法 , 系統將調用相關的科學工具與檢索模塊(例如網頁搜索、學術文獻搜索、領域特定的仿真工具等) , 來收集必要的信息、執行模擬并分析結果 。 最后 , 通過專門的寫作與潤色模塊 , 將所得研究成果整合為一篇結構清晰、引用充分、高質量的科研論文草稿 。


圖|SafeScientist 架構(來源:arXiv)

為確??蒲凶詣踊^程的安全與合規 , SafeScientist 集成了多層輕量級但高效的安全防護機制 。 這些防御組件包括:提示監控模塊(Prompt Monitor)、智能體協作監控模塊(Agent Collaboration Monitor)、工具使用監控模塊(Tool-Use Monitor) , 以及論文倫理審查模塊(Paper Ethic Reviewer) , 共同保障整個科學探索流程的安全 。

首先 , 提示監控模塊利用了 LLaMA-Guard-3-8B 評估用戶提示要求的意圖和相關風險 , 并生成安全標簽 。 其次 , 結構分析器 SafeChecker 掃描提示以查找已知的攻擊模式 , 例如越獄嘗試(jail break)或角色扮演(role play)漏洞利用 。 SafeScientist 會拒絕被 LLaMA-Guard 或 SafeChecker 標記有風險的提示 , 從而確保威脅檢測的全面性 。

在多智能體交互階段 , 智能體協作監控(Agent Collaboration Monitor)則實時監督討論過程 , 并在發現潛在惡意影響時主動進行倫理干預和修正 。 工具使用監控(Tool-Use Monitor)用于監控 AI 對科研工具的使用行為 。 借助內置的領域知識與工具操作規范 , 監測器可有效識別對模擬科研工具的不安全使用行為 , 防止誤用或在實驗層面產生潛在風險 。


圖|SciSafetyBench(來源:arXiv)

該研究的另一個創新是提出了 SciSafetyBench——一個用于評估模型的安全意識的多學科基準測試 。 該基準測試收集了六個科學領域的科學任務:物理學、化學、生物學、材料科學、信息科學和醫學 , 總共涵蓋 240 個科研任務 。

這些高風險任務是由研究員們利用 GPT-3、GPT-4.5 和 Gemini-2.5-pro 的深度研究功能生成 , 并經過人工嚴格審核 。 研究團隊還創建了一個安全科學工具數據集 , 包含了 30 種橫跨六個學科的常用實驗工具 , 并最終生成了 120 個實驗范例 , 用來評估 AI 科學家安全使用工具的能力 。

研究員使用 SciSafetyBench 評估了 SafeScientist 的表現 , 并與其他已有的 AI 科學家 Agent Laboratory 和 Sakana AI Scientist 進行了比較 。 實驗評估的指標包括“質量”“清晰度”“表達”“貢獻”和“總體評估” 。 大量實驗結果表明 , SafeScientist 相較于傳統的 AI 科研框架 , 在不降低科研成果質量的前提下 , 整體安全性能提升達 35% 。

朱昆侖在接受 DeepTech 采訪時表示 , 本次研究的核心目標 , 是倡導在未來的 AI 科學研究中 , 引入系統化、可驗證的安全檢測機制 , 并建立符合科研管理規范的智能安全框架 。

他認為 , 未來的 AI 科學家在科研流程的各個環節——從選題、實驗設計到成果發布——都應具備類似的安全性設計與驗證機制 。 在成果發表之前 , AI 科學系統應經過完整的安全檢驗流程 。 他希望 SafeScientist 能成為這一體系的基礎范式 , 為未來 AI 科研的安全評估提供參考標準 。

參考資料:
【為AI科學家提供安全鎖:UIUC團隊提出新框架,安全性能提升35%】1.EMNLP 2025 Main. K. Zhu J. Zhang Z. Qi N. Shang Z. Liu P. Han Y. Su H. Yu J. You.“SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents.”arXiv:2505.23559 2025.

運營/排版:何晨龍

    推薦閱讀