馬斯克:Grok今日歸來!

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片

馬斯克:Grok今日歸來!

文章圖片



編輯|Panda、楊文
馬斯克又一次跳過了所有正式流程 。 沒有官方博客 , 沒有技術文檔 , 甚至連宣傳推文都把自家產品的名字給拼錯了 。 但就在這種極其「馬斯克」的氛圍中 , Grok 4.20 Beta 版悄無聲息地正式上線并進行了更新 。

正如馬斯克之前說的那樣 , Grok 4.20 采用了某種快速學習機制 , 能夠持續進化 。 18 號開始公測后能每周通過用戶真實交互持續迭代 , 不再等下一次大版本更新 。

對于當前版本的 Grok 4.20 , xAI 給出的官方介紹是「4 Agents」 , 也就是說 , 與以往單一的 Grok 模型不同 , 4.20 版本內置了一個由 4 個智能體組成的團隊 , 其會在應對復雜查詢時自動選擇啟用 。

根據之前內測用戶放出的截圖 , 這 4 個智能體有著各自專屬的名稱、設定和技能:
Grok:協調者 , 具有標志性的機智、誠實的個性;負責綜合最終輸出 。 Harper:研究專家 , 實時進行事實核查、收集來源、驗證信息 。 Benjamin:邏輯 / 編程 / 數學專家 , 負責處理嚴謹的推理、驗證和技術深度 。 Lucas:創意達人 , 挑戰假設 , 探索替代方案 , 減少群體思維 。這 4 個智能體會在內部進行討論(用戶通??梢钥吹綄崟r的思考過程) , 達成共識 , 并提供統一、更高質量的響應 。

這種方法可以大幅降低幻覺(X 用戶 @NoahKingJr 稱測試報告表明幻覺降低了約 65%) , 并能提高在工程、預測、戰略和多步推理等難題上的可靠性 。
不過需要說明的是 , 在機器之心最新的測試中 , Grok 4.20 卻沒有使用 Lucas、Harper、Benjamin 這三個名字 , 而是使用了 Agent 1、Agent 2、Agent 3 等代號 。

正如前文所言 , 目前 xAI 尚未發布相關博客和技術報告 , 也幾乎沒有官方評測數據流出 。 盡管如此 , 也已經有一些第三方評測機構放出了一些評測結果 。
比如 Arena AI 發布了一份數據 , 經過 3992 位用戶的評測 , Grok 4.20 在評估搜索實時信息、外部知識和可靠引用的能力的 Search Arena 中目前排名第一 , 超過了 GPT-5.2、Gemini 3.0 Pro 等模型 。

而在評估 LLM 在文本的通用性、語言精確性和文化背景方面的能力的 Text Arena 上 , Grok 4.20 排名第 4 。

下表展示了更多評測數據:

另外 , Grok 4.2 在真實股票交易基準 Alpha Arena 中表現也非常亮眼 , 其中采用 Situational Awareness 策略的 Grok 4.20 更是以顯著的勝率登頂排行榜 。

下面展示了更具體的數據:

【馬斯克:Grok今日歸來!】幾個實測
看看 Grok 4.20 的表現如何
我們也對這個新版 Grok 4.20 進行了一番實測 , 首先來看看其搜索能力 。 正好目前關于 Grok 4.20 的消息不多 , 我們就提出了一個關于其自身的問題:
搜索網絡上關于 Grok 4.20 的一切 , 將信息匯總成一份報告 , 涵蓋其技術細節、基準指標等 。

可以看到 , 因為這個任務比較簡單 , Grok 4.20 僅啟用了默認的 Grok 智能體 , 不到一分鐘就完成了任務 , 給出的報告中也納入了一些前文沒有提到的信息 。 整體而言 , 這是一份相當有用的報告 , 尤其是其得天獨厚的 X 推文檢索能力 , 更是可以成為輔助我們報道寫作的利器 。
再上一個難度更大的任務:編寫一個演示日晷工作原理的動態 SVG 。

這一次 , Grok 4.20 的多智能體模式被成功喚起 , 也成功創建了一個效果還算不錯的嵌入了 SVG 的網頁:

還有網友直接讓它用 three.js 制作一個 FPS 游戲 , 這個原型充分發揮了 Grok 4.2 高速精準的代碼生成、實時工具集成、清晰的邏輯結構的優勢 。

它在一口氣給出完整、可直接運行的文件這點上 , 比 Claude Code 和 Codex 明顯更有優勢。
「確實又準又快 , 幾乎不出錯 , 所以能把腦子里剛冒出來的想法 , 迅速做成備忘錄級別的原型 , 真的太爽了!」

接下來我們試了試 Grok 4.20 引以為傲的創作能力 , 讓其為當前這篇文章建議標題并將其改成適合發小紅書的風格 。 結果如下 , 大家可以看看它的小紅書味道正嗎?

最后 , 按照 Grok 系列一貫的傳統 , Grok 4.20 在毒舌懟人方面依然頗具天賦 。 正如馬斯克分享的這條推文一樣 , 當用戶問 AI「你為何如此弱智」時 , Claude 的回答一板一眼 , 而 Grok 4.20 直接來了一句「因為我在拉低智商配合你」 。

文中視頻鏈接:https://mp.weixin.qq.com/s/VFYbX07o6TNp5c3f9T3JDg

    推薦閱讀