信AI排行榜,不如信它們的游戲排位分數

信AI排行榜,不如信它們的游戲排位分數

文章圖片

信AI排行榜,不如信它們的游戲排位分數

文章圖片

信AI排行榜,不如信它們的游戲排位分數

文章圖片

信AI排行榜,不如信它們的游戲排位分數

文章圖片

信AI排行榜,不如信它們的游戲排位分數

文章圖片

信AI排行榜,不如信它們的游戲排位分數


文章開頭問大家一個問題 , 如果想知道最近哪個 AI 牛 , 你會怎么查?
直接上 AI 競技場 , XX 排行榜?
沒錯 , 這些是有一定參考能力 。
但看完最近大模型圈的電競比賽后 , 我覺得現在多一種更靠譜的辦法了 , 那就是看——
AI的游戲排位天梯 。
前幾天 , Google 旗下 Kaggle 舉辦了首屆 AI 國際象棋比賽 , 一共有 8 名選手參加 , 個個都是狠角色 。
什么 Gemini 2.5 Pro、Grok 4、DeepSeek R1 。。

比賽規則很簡單 。 每場對決為“ 四局兩勝制 ” , 誰先拿到2分(勝1分 , 平0.5分)誰晉級 。 如果打成 2-2 平 , 將加賽一場絕殺局 。
比賽過程中 , 我們還能看到這些職業選手的思考過程 , 看看他們如何應對對方的進攻 , 看待自己的失誤 。
結果說起來你可能不信 , 在眾多排行榜都保持第一的 Gemini , 只拿下季軍 。
而 GPT-o3 , 則以一把沒輸的絕對統治力 , 奪得冠軍 。

看到這 , 可能有差友好奇 , 為啥要讓這些大模型下棋啊 , 誰贏誰輸和咱有關系么?
因為國際象棋 , 更能讓你看出 AI 的實力 。
相比那些傳統排行榜 , 國際象棋考驗的是一套無法靠刷題速成的綜合能力 , 更能展示出一個大模型的思考、涌現能力 。
過去 , 我們要想知道哪個模型牛 , 主要看兩種榜 。
第一種就是 AI 競技場 LMArena , 可以把它理解為大模型圈的《蒙面歌王》 。

你隨便問個問題 , 它給你兩個匿名模型的回答 , 你覺得哪個好就投哪個 。

聽起來很公平是吧?但它也有不少缺點 。
首先圈子太小了 。
我不提 , 可能很多人都沒聽過這網站 。 天天泡在上面投票的 , 不是專業的技術人員 , 就是一些前沿科技發燒友 。
這些人的問題和對答案的主觀判斷 , 跟咱們普通人可能并不一樣 。
這就導致 AI 競技場排名 , 更像是一種技術愛好者的口味榜 , 并非適合你我 。

其次 , 嘴甜的大模型在這種模式里 , 很容易占便宜 。
很多時候 , 大伙兒不會去做事實核查 。
如果有一個模型說錯了所有答案 , 但它回答地頭頭是道 , 答案很清晰 , 邏輯也很自洽 , 那它很有可能騙走一堆不該有的票數 。

除了 AI 競技場這種主觀排行榜 , 大模型還有 MMLU Pro和 AIME 這類客觀基準測試 。
MMLU 全稱是大規模多任務語言理解 , 它包含了從初中水平數理化到研究生水平的歷史、科學、法律等 57 個科目 , MMLU Pro 則在此基礎上進一步加大難度 , 總之它可以迅速衡量一個模型知識面的寬度 。
AIME 也類似 , 這是美國高中生數學競賽體系中的一環 , 可以測試出大模型們的邏輯推理深度 。
【信AI排行榜,不如信它們的游戲排位分數】
這兩類考試的優點 , 都是極度客觀 。
但缺點也很致命 。
一個大模型的 MMLU 分數高 , 只能說明它讀過很多書 , 或者提前訓練了題庫 , 并不能反饋出模型的理解能力 。
它可能知道“火鍋瞎掉一只眼是哪一年” , 但不一定能分析出火鍋瞎眼對狗圈顏值會帶來多大損失 。
而且啊 , 從去年開始 , 幾個頭部大模型們正確率就已超過了 80% , 正不斷接近于人類專家水平(89.8%) , 我們也很難看出這些模型之間的實力差距 。

同樣 , AIME 只能測試一種非常線性的、基于數學公理的邏輯 。
但真實世界的問題 , 哪有像數學題這樣邏輯清晰、條件充分的 。
一個在 AIME 里爆殺的大模型 , 或許并不擅長幫你解讀電影 , 幫你怎么理解領導的話中話 。
到這 , 你應該能明白 Kaggle 搞這場象棋比賽的邏輯了——
別再讓 AI 考試和選秀了 , 到底有沒有實力 , 直接線下真實一波就知道了 。
畢竟大眾普遍需要的 , 是一個能在復雜、多變的環境中 , 實時解決未知問題的大模型 。

而游戲 , 就是一個很不錯的修羅場 。
因為你想在游戲里贏 , 光會背書沒用 , 每一次對局都是完全不一樣的 。
在游戲中 , 你也得有大局觀 , 不能只盯著眼前這一步 , 最關鍵的是 , 還得有應變能力 , 對手一出招 , 局面又會發生變化 , 你要會調整戰術 , 甚至思考要不要壯士扼腕 。
這些能力 , 在靜態的考卷上是絕對測不出來的 。
雖然這次比賽直播采用錦標賽形式 , 但最終的排行榜是由全對全系統決定 , 這些大模型還要幕后進行上百場比賽 , 最終才會出現一個動態排行榜 , 給大家查看排名 。
國際象棋的比賽結束后 , Kaggle 還會繼續舉辦其他游戲比賽 , 比如撲克牌 , 甚至是狼人殺 。
該說不說 , 以后的 AI 排行榜 , 可能會越來越刺激了 。

    推薦閱讀