谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

【谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝】谷歌DeepMind首發AGI終極考綱!20萬全球懸賞撕下所有大模型偽裝

文章圖片

編輯:好困 Aeneas
【新智元導讀】AGI , 究竟如何評判?剛剛 , 谷歌DeepMind發出重磅論文 , 直接從認知科學「借」了一套度量衡——把通用智能拆成10大認知能力 , 配一套三階段評估協議 , 還聯合Kaggle砸了20萬美金 , 向全球研究者懸賞:誰能測出真正的AGI?


如今的AGI , 究竟到達哪一站了?
就在剛剛 , 谷歌DeepMind給出了AGI的終極度量衡!
這篇名為《Measuring Progress Toward AGI: A Cognitive Framework》的論文 , 核心主張只有一句話:別再爭AGI是什么了 , 先把怎么測這件事搞清楚 。

論文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf
具體來說 , AGI的評估被細化為10個關鍵的認知領域 , 包括感知、生成、注意力、學習、記憶、推理、元認知、執行功能、問題解決以及社會認知 。
同時 , 谷歌DeepMind還想全球開發者 , 發起一場20萬美元的Kaggle黑客松 。
黑客松則是把出題權直接交給全球研究者——框架我搭好了 , 你們來幫忙造考卷 。



從「AGI分級」到「AGI體檢」
這不是DeepMind第一次嘗試給AGI畫路線圖 。
2023年 , 同一個團隊發表了著名的「Levels of AGI」框架 , 把通往AGI的路拆成了5個性能等級 。
從「新手」(Emerging)到「超人」(Superhuman) , 同時定義了6個自主性等級 , 從「純工具」到「完全自主」 。

那篇論文的影響力很大 , 它給了整個行業一套共同語言 , 就像自動駕駛領域的L1到L5一樣 , 讓大家至少能在同一個坐標系里對話 。
但它留下了一個巨大的空白:臺階畫好了 , 怎么測每一級?
新論文就是來補這個缺口的 。

10大認知能力:給通用智能畫一張地圖
它的核心 , 是一套把通用智能拆解為10種關鍵認知能力的「認知分類法」(Cognitive Taxonomy) 。
具體來說 , 要想評估AI和人類認知能力之間到底差多少 , 第一步就是要搞清楚:人類的認知都包括哪些關鍵過程 。
過去很多年里 , 心理學、神經科學和認知科學通過做實驗、腦成像、研究病例、以及建立模型等方式 , 已經積累了大量相關成果 。
正是基于這些研究 , 團隊整理出了一套認知分類體系 , 用來描述實現AGI所需要的核心能力 。

先看8種基礎能力 。
1. 感知(Perception)
從環境中提取和處理感官信息 。 包括視覺感知(從低級的邊緣檢測到高級的場景理解)、聽覺感知(從音高辨別到語音理解)、以及AI獨有的文本感知 。
LLM通過token化直接處理文本 , 本質上是一種人類不具備的獨特感知模態 。 這種「超能力」繞過了視覺 , 徑直抵達語言 。

2. 生成(Generation)
產生文本、語音、動作(機器人控制、計算機操作)等輸出 。
其中最耐人尋味的是「思維生成」 , 也就是產生內部思考來指導決策 。
DeepMind把這一項和OpenAI的o1式推理能力掛鉤 , 并指出由于思維本質上是「內部的」 , 評估起來可能極其困難 。
3. 注意力(Attention)
在信息過載時 , 就需要把認知資源集中到關鍵事物上 。
這里有個微妙的平衡:既要專注于當前目標不被干擾 , 又要對環境中的意外變化保持警覺 。 太專注會錯過危險信號 , 太分散又做不成事 。

4. 學習(Learning)
通過經驗獲取新知識和技能 。
包括概念形成、聯想學習、強化學習、觀察學習、程序性學習、語言學習六大類 。
關鍵在于 , 真正的AGI應該能在部署后持續學習并保留新知識 , 而不僅僅是在訓練階段或上下文窗口內「臨時抱佛腳」 。
5. 記憶(Memory)
存儲和檢索信息的能力 。
包括語義記憶(世界知識)、情景記憶(特定事件)、程序性記憶(技能)、前瞻性記憶(記住未來某個時刻該做的事) , 以及一個容易被忽視的能力——遺忘 。
沒錯 , 能夠主動清除過時或錯誤信息 , 也是智能的重要組成部分 。

6. 推理(Reasoning)
通過邏輯原則得出有效結論 。
涵蓋演繹、歸納、溯因、類比和數學推理五種 。
值得注意的是 , 自動模式匹配不算推理 。

7. 元認知(Metacognition)
這可能是10項能力中最能拉開差距的一項 。
它要求系統:

  • 知道自己知道什么、不知道什么(元認知知識);
  • 能實時監測自己的認知狀態 , 比如對答案的置信度是否準確(元認知監控);
  • 以及根據監控結果調整策略 , 比如發現自己在犯錯時主動切換方法(元認知控制) 。
說得直白一點:一個不知道自己在胡說八道的AI , 談什么可靠性?

8. 執行功能(Executive Functions)
支撐目標導向行為的高階能力集合 。
包括目標設定、規劃、抑制控制(抵制習慣性反應 , 選擇更合適的行動)、認知靈活性(在不同思維方式間切換)、沖突解決、以及工作記憶 。
除了以上8種「基礎構件」 , 框架還定義了2種「復合能力」:
9. 問題解決(Problem Solving)
綜合運用感知、推理、規劃、學習等能力來解決具體問題 。
下分流體推理、數學問題解決、算法問題解決、常識問題解決(包括時間推理、空間推理、因果推理、直覺物理)和知識發現 。
10. 社會認知(Social Cognition)
處理和解讀社會信息、在社交場景中做出恰當反應的能力 。
包括社會感知、心智理論(推斷他人的信念和意圖) , 以及合作、談判、說服甚至欺騙等社交技能 。
值得注意的是 , 說服和欺騙在某些語境下 , 也可能構成危險能力 。
總的來說 , 根據DeepMind的核心假設 , 如果一個系統在這10個維度中存在任何明顯短板 , 它就無法完成大多數人類能完成的現實任務 。
那么 , 它就不是真正的「通用」智能 。


三步驗出AI的真實成色


有了分類法 , 接下來的問題是怎么評估 。
對此 , 谷歌提出了三階段評估協議 。
第一步:認知評測 。
讓AI完成覆蓋全部10種認知能力的任務 。
任務設計有嚴格要求:
  • 必須針對具體認知能力(不能一個任務混測一堆東西);
  • 必須使用保密題庫;必須經獨立第三方審計;
  • 難度要有梯度(既有對人類容易但對AI難的題 , 也有挑戰人類極限的題);
  • 格式要多樣(選擇題、開放問答、多模態、多步驟) 。
第二步:收集人類基線 。
讓大量人類在完全相同的條件下做同樣的題 。
相同的指令、相同的回答格式、相同的工具訪問權限 。
對此DeepMind建議 , 樣本應該是「具有人口統計學代表性的、至少完成了高中教育的成年人」 。
第三步:構建認知畫像 。
把AI的表現放到人類表現的分布中定位——計算這個系統超過了多少比例的人類被試 , 在10個維度上畫出一張雷達圖 。
為什么一定要畫雷達圖?
因為AI能力的一個核心特征是「鋸齒狀」(Jagged)的 。 這也是DeepMind在另一項研究中反復驗證的現象:
一個模型可能在邏輯推理上碾壓99%的人類 , 卻在社會認知或常識推理上連人類中位數都不如 。
只看一個總分 , 根本看不出這種致命的偏科 。 而雷達圖就是用來撕下這層偽裝的 。
DeepMind展示了三種假想場景:
A. 某系統在部分維度上低于人類中位數 , 這樣的系統在某些真實場景中必然「掉鏈子」 。
B. 全部10項都超過人類中位數 , 至少能匹配50%的人類 。
C. 全部達到第99百分位 , 幾乎能匹配任何人 。

同時 , DeepMind也沒有回避不確定性的三大來源:(1)任務本身的質量是否過關、(2)測試是否真的在測目標能力(構念效度)、(3)生成式AI固有的隨機性——同一個問題問兩次 , 可能得到截然不同的答案 。

舊尺子為什么廢了
谷歌DeepMind的這項研究 , 意義究竟在哪里?
為什么以前衡量AGI的尺度 , 現在已經不行了?
原因就在于 , 現在根本無法判斷什么是AGI:GPT-4能考律師資格證 , Gemini能讀十萬token的論文 , Claude寫代碼比程序員還快 。
但究竟哪個才叫AGI?現有的評測體系不僅接不住這個問題 , 而且有兩個底層邏輯已經崩了 。
第一個是「小鎮做題家」困境:數據污染 。
如果一個AI系統在訓練階段就已經從海量互聯網數據里「見過」了測試題的答案或解題策略 , 那它拿高分根本無法證明它具備通用智能 , 頂多算個記憶力超群的復讀機 。
第二個更棘手:到底是評「模型」還是評「系統」?
以前我們測的是一個孤立的模型 , 但今天的AI是一個完整的系統 。 它帶著系統提示 , 能調用計算器 , 能執行代碼 , 能聯網搜索 , 甚至能調用其他AI模型 。
比如你想測一個AI的歷史知識儲備 , 但這個系統卻可以隨時搜索互聯網 。 那你測出來的到底是它的「記憶力」還是「搜索技能」?
題庫泄漏、評測對象模糊——舊體系千瘡百孔 , 這正是DeepMind要從認知科學重新建一套評估框架 , 并把出題權交給全世界的原因 。



20萬美金黑客松:全球極客集結
DeepMind坦承 , 在問題解決和世界知識等領域 , 現有的benchmark尚可一用;但在元認知、注意力、學習和社會認知這幾個深水區 , 幾乎是一片評測荒地 。
與論文同步推出的Kaggle黑客松 , 精準瞄向評估缺口最大的5種認知能力:學習、元認知、注意力、執行功能、社會認知 。
參賽者可以利用Kaggle新推出的Community Benchmarks平臺來構建自己的評估方案 , 直接在一系列前沿大模型上驗證效果 。

項目地址:https://www.kaggle.com/competitions/kaggle-measuring-agi
獎金總計20萬美元 。
5個賽道各設2個一等獎 , 每個1萬美元 , 這是對單項深度的獎勵 。
另外還有4個2.5萬美元的全場特等獎 , 頒給最優秀的跨賽道提交 。 以此鼓勵參賽者做出具有「通用性」的評估工具 , 而不是只在一個領域里精耕 。

時間線:3月17日開放提交 , 4月16日截止 , 6月1日公布結果 。

如果運轉良好 , 這套認知評估體系有機會成為AGI領域的公共基礎設施——就像ImageNet之于計算機視覺那樣 。

框架之外:那些更棘手的問題
此外 , 在討論章節 , 團隊還主動列出了幾個認知評估「管不到」但同樣重要的維度 。
處理速度 。
答對是一回事 , 答得快又是另一回事 。 一個能修bug但要6小時的系統和一個1分鐘搞定的系統 , 實用價值天差地別 。
系統傾向性 。
不僅要看系統「能做什么」 , 還要看它「傾向于做什么」 。 它的風險偏好如何?價值觀是否與人類對齊?這些行為特征深刻影響系統部署后的安全性 。
創造力 。
創造力的核心組件(認知靈活性、世界知識、問題解決)已被分類法覆蓋 , 但「創造力」作為一個整體 , 目前很難客觀地隔離和評估 。
端到端部署評估 。
認知評測不能替代應用場景的實測 。 認知評估幫你解釋模型「為什么在這里失敗了」 , 部署評估幫你預測「上線后會不會出事」 , 兩者互補 。

評估AGI , 只是起點
DeepMind在最后說了一句很關鍵的話:這套框架是一個「起點」 。
AI系統幾乎可以確定會發展出人類認知分類法無法完全覆蓋的能力 , 比如LiDAR感知、原生圖像生成這類人類根本不具備的能力 。 分類法本身也需要迭代 。
每種認知能力和現實世界表現之間的具體關系 , 目前只有理論推測 。
DeepMind這篇論文的意義 , 在于——
從今天起 , AGI評估這件事從主管判斷 , 開始走向有理論基礎、可操作、可迭代的科學軌道 。


接下來的問題只有一個 , 第一個在所有維度上點亮的 , 會是誰?
參考資料:
https://blog.google/innovation-and-ai/models-and-research/google-deepmind/measuring-agi-cognitive-framework/
https://storage.googleapis.com/deepmind-



    推薦閱讀