具身智能“統考卷”:上海交通大學發布大規模開源測評集GM-100


2026年開年 , 由上海交通大學等機構聯合研發的具身智能測評集GM-100正式發布 , 迅速成為機器人學習與人工智能交叉領域內引發廣泛關注與討論的焦點 。 這一測評集旨在為衡量機器人“大腦”(智能模型)與“身體”(物理執行)的協同能力 , 提供一個更系統、開放且可復現的評估基準 。 GM-100的發布及其開源開放的姿態 , 標志著學術界與工業界在構建更科學、透明、協作的具身智能評測生態道路上 , 邁出了關鍵而務實的一步 。
GM-100包含了100個具體任務 , 總計13000條操作軌跡數據 , 規??捎^ 。 但與其單純追求數據量 , 研發團隊更強調其任務設計的廣度與評估體系的深度 , 這正是GM-100區別于現有測評集的關鍵 。
項目牽頭人、上海交通大學副教授李永露在接受采訪時闡述了其團隊的理念——“以數據為中心的具身智能” 。 他指出 , 在當前研究階段 , 高質量的數據集和評測體系對科研的貢獻至關重要 , 優化數據分布能有效推動模型能力進步 。
GM-100的任務設計過程系統而嚴謹:研究團隊首先分析人類與物體交互的基本“原語” , 隨后利用大語言模型生成大量候選任務 , 再經專家篩選優化 , 最終形成涵蓋從日常簡單操作到罕見復雜場景的百項任務 。
【具身智能“統考卷”:上海交通大學發布大規模開源測評集GM-100】為進行全面評估 , GM-100團隊在傳統的任務成功率之外 , 引入了兩項關鍵指標:
部分成功率:用于量化多步驟任務中 , 子步驟的完成情況 , 避免“非全即無”的粗暴判斷 。
動作預測誤差:衡量模型在面對新情況時 , 動作模仿的精度 。
這種多維指標使得研究者能從不同顆粒度分析模型優勢與弱點 。 研究團隊已對Diffusion Policy、π系列及GR00T等主流模型進行了測試 。 結果表明 , GM-100的任務設計難度合理 , 在不同機器人平臺上均可執行且具備區分度 , 其評估結果在不同硬件間也表現出穩定的泛化性 , 為跨平臺模型能力比較提供了可靠參考 。
為推動行業廣泛參與與評測公平 , GM-100團隊采取了極具開放性的舉措 。 所有100個任務的詳細說明、所需物料清單(甚至精確到具體購買鏈接)均已開源 。 更重要的是 , 團隊為每個任務上傳了約130條真實機器人操作軌跡數據 。 這極大地降低了研究機構與開發者的復現與參與門檻 , 使更多人能在同一基準上開展工作 。
對于開源的模型 , GM-100團隊建立了審核機制 , 要求提交者提供模型權重以供驗證 , 并為通過審核的提交打上“已驗證”標簽 , 確保結果的可信度 。 團隊還表示 , 未來將進一步完善社區功能 , 允許用戶對任務和結果進行點評、收藏與討論 , 旨在將其構建成一個活躍的交流與協作平臺 。
當前 , 具身智能領域評測標準分散且不統一 , 各團隊自建標準 , 聚焦點各異(如抓取、路徑規劃等) , 且多局限于高頻簡單場景 。 隨著技術進步 , 舊有基準的區分度下降 , 難以反映復雜環境下的核心挑戰 , 行業缺乏公認的客觀參照 。
GM-100應需而生 , 其目標并非建立一個絕對公平的物理測試環境(在當前階段這不現實) , 而是打造一個開放、透明、可復現的評測平臺 。 它通過提供標準化的“考題”(任務)、詳細的“考試說明”(開源資料)和靈活的“閱卷標準”(多維指標) , 努力成為一張“統考卷” 。 這不僅有助于橫向比較模型性能 , 更通過其題目設置 , 間接定義了該領域應關注的核心能力與前沿問題 , 有望引導研究方向 。
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀