馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

文章圖片

馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

文章圖片

馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

文章圖片

馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

文章圖片

馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

文章圖片

馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

文章圖片

馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一

文章圖片


Grok 4跑分提前泄露 , 在「人類最后考試」中高達45%的得分 , 遠超Gemini與Claude , 成為當前測試中最強模型之一 。 馬斯克表示Grok 4以「第一性原理」構建推理機制 , Grok 4有望改寫LLM格局 。
Grok 4馬上就來 , 馬斯克說的!
甚至 , 現在部署的Grok , 已經在能力上有了顯著的提升 。
與此同時 , 網友LEGIT的一張截圖 , 更是直接泄露了Grok 4和Grok 4 Code在多個關鍵基準評測上的跑分 。
目前 , 這一消息已經得到了AI圈知名大佬Tibor Blaho的確認 。
根據泄露的數據 , Grok 4在GPQA、AIME 25和SWE-bench評測中可謂是「遙遙領先」 , 全面碾壓谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus 。
GPQA(研究生級物理和天文學問題):Grok 4得分87-88% , 略優于Gemini 2.5 Pro的86.4% , 明顯超過Claude 4 Opus的79.6% 。
AIME 25(2025美國數學邀請賽):Grok 4得分95% , 大幅超越Claude 4 Opus的75.5% , 并優于OpenAI o3的88.9% 。
SWE-bench(真實軟件工程問題):Grok 4 Code得分72-75% , 略優于Claude Opus 4的72.5% , 略高于OpenAI o3的71.7% 。
不僅如此 , Grok 4還在覆蓋范圍最廣、難度最高的終極閉卷學術基準「人類最后的考試」(Human Last Exam , HLE)上取得了默認35%、最高45%的驚人高分 。
這也意味著 , 最強狀態下的Grok 4 , 得分是現任老大Gemini 2.5 Pro的2倍——高出了整整24個百分點 。
相比正確率只有10.7%的Claude 4 Opus , 成績直接翻了4倍還多 。
HLF這門考試堪稱殘酷 , 是專為挫敗LLM的銳氣而設計:
橫跨100多個學科的2500道專家級試題
14%為多模態題型(文本+圖像)
24%的問題為多項選擇題
設有防記憶陷阱和隱藏測試集 , 用于阻止「作弊式訓練」
下圖是所含知識的高層次可視化圖表 , 其中的每個類別還包含有很多具體學科 。
項目主頁:https://lastexam.ai/
要知道 , 大多數前沿模型在這一分數面前都望塵莫及 。
如果此次泄露屬實 , 那么Grok 4就算闖過了AI基準測試領域最難的關卡之一 。
由于在HLF的得分異常地高 , Grok 4的發布再度引起了社區的廣泛討論 。
是的 , 如果屬實 , 這意味著該模型具有極其強大的世界知識 。
看到如此之強的Grok 4 , 網友們已經迫不及待了 , 紛紛在線催更:

Grok 4源代碼泄露大家對于Grok 4的期待可以說是完全拉滿了 。
馬斯克此前的采訪中 , 曾經透露說 。
Grok 3.5 正在嘗試從第一性原理出發進行推理 , 也就是將物理學的方法應用到思維過程中 。
Grok-3.5正是如今的Grok 4 , 老馬決定一步到位 , 從Grok-3直接到Grok 4 , 不再擠牙膏了 。
這似乎預示著Grok 4的能力會非常大的突破!
幾天前 , X上就有人發現在xAI控制臺源代碼中發現的2個Grok 4模型:Grok 4和Grok 4 Code
【馬斯克Grok 4逆天跑分泄露,“人類最后考試”豪取45%全場第一】Grok 4:
最新、最卓越的旗艦模型 , 在自然語言、數學及推理領域展現出無與倫比的性能 , 堪稱萬能的完美之選
Grok 4 Code:
專為編程伴侶量身打造的模型 。 可以向它咨詢代碼相關的問題 , 或直接將其嵌入到代碼編輯器中

也有人持懷疑態度當然也有人似乎是被之前Grok 3的炒作「傷透了心」 。
HLE的創建者Dan Hendrycks是xAI的親密顧問(相比其他實驗室而言) 。
網友們想知道Dan Hendrycks是否只提供了安全方面的建議 , 還是以某種方式給出了增強科學知識細節的具體研發建議 。
這不禁讓人們聯想到此前Llama 4的翻車鬧劇 , 也是因為提前進行了「針對性的訓練」 。

馬斯克親自帶貨馬斯克曾在6月27日發帖稱 , 正和團隊加班加點的研發Grok 。
將在7月4日后發布Grok 4 , 按照美東時間 , 今天開始 , 任何時候都有可能見證Grok 4的發布 。
馬斯克特地強調了 , 需要一次大型訓練來開發了「特殊」的編碼模型 。
在5月20日的微軟Build 2025大會上 , 馬斯克現場講述了Grok 3.5(Grok 4)將從第一性原理出發進行構建 。
馬斯克:
尤其是在即將發布的Grok 3.5中 , 我們的目標是讓模型從 第一性原理出發進行推理 。
也就是說 , 像物理學家那樣思考 , 借用物理的工具來分析問題 。
如果你想要探尋事物的本質真相 , 就必須把問題分解到最基本、最可能正確的公理層面 , 然后再從這些基礎出發向上推理 。
接著 , 你可以將最終結論與這些基本原理進行校驗 。在物理學中 , 如果你得出的結果違反了能量守恒或動量守恒 , 那你要么發現了諾獎級別的新理論 , 要么——更可能的是——你搞錯了 。
所以我們打造Grok 3.5的核心目標 , 就是以物理的基本原理為指導 , 應用這些方法來推理各種問題 , 力求以最小的誤差 , 接近真實 。
當然 , 出錯是難免的 , 但我們的目標是持續減少這些錯誤 。 這個方向對于 AI 安全 至關重要 。
我長久以來都在思考AI安全問題 , 而我最終得出的結論 , 其實可以用一句老話來概括: 誠實是最好的策略 。
這不僅是道德要求 , 更是安全保障 。當然我們也會犯錯 , 但我們承諾會盡快修正這些錯誤 。
我們也非常期待來自開發者社區的反饋——你們需要什么?我們哪里做錯了?又該如何改進?
我們希望Grok成為一個令開發者充滿期待的工具 , 一個他們的聲音能真正被聽到的平臺 。
Grok將不斷進化 , 努力滿足開發者的需求 。

編碼能力成為必爭之地根據Grok API此前的模型推測 , 這次Grok 4 Code將是發布的重頭戲 , 也許還會有Grok 4 mini 。
馬斯克特地提到Grok 4的編碼能力 , 也是受到如今各家的影響 , 編碼能力稱為了衡量新模型的試金石 。
谷歌
Gemini2.5包括改進的代碼生成、復雜代碼重構/轉換、上下文管理、更好的PR評審能力 , 以及可定制命令等 。
Gemini CLI是近期推出的命令行AI助手 , 基于Gemini2.5 Pro , 可處理長達百萬token的上下文 , 支持包括代碼編寫、調試、內容生成和任務管理于一體的多功能開發體驗 。
Anthropic
Claude 4(包含Opus與Sonnet)是Anthropic迄今最強大的模型系列 , 顯著提升編碼與AI agent能力 。
Claude Code專注于終端環境使用 , 提供從代碼編輯、問題修復、架構理解 , 到運行測試、lint、git操作、PR創建的一站式工具 。
OpenAI
新版Codex是基于OpenAI o3微調而來的 , 用于自然語言翻譯代碼 , 延續迄今生成工具(如GitHubCopilot)的核心能力 。
DeepSeek
DeepSeek?R1?0528是DeepSeek推出的R1最新版本 , 定位為全能推理與編碼能力提升模型 。
既然老馬著重提到了編碼能力 , 那么也許這次是值得期待的 。
參考資料:
https://x.com/WesRothMoney/status/1941227129875857869
https://x.com/legit_api/status/1941165728708874514

    推薦閱讀