馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片

馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主

文章圖片


編輯:桃子 好困【新智元導讀】AI新王來了!馬斯克Grok 4.1靜默上線 , 一夜之間登頂LMArena , Gemini 2.5 Pro卻被按在地上摩擦 。 主打情商智商在線 , 算力又擴增一個數量級 。


AI王座 , 一夜易主!
一早 , 馬斯克攜xAI投下一顆重磅炸彈——Grok 4.1正式上線 , 而且對所有人免費 。
有趣的是 , Grok 4.1主打的也是「智商情商雙在線」 , 正面硬剛GPT-5.1 。
這一次 , Grok 4.1一共放出了兩大版本:Grok 4.1 Thinking和Grok 4.1 。

在LMArena排行榜上 , Grok 4.1 Thinking拿下了1483 Elo的成績 , 以絕對實力加冕全球大模型之王 。
【馬斯克Grok 4.1雙冠封王,爆沖第一!AI王座一夜易主】Thinking版要比Gemini 2.5 Pro高出整整31分 。 即便是非推理模式的Grok 4.1 , 直接殺入榜單第二 。


不僅如此 , Grok 4.1情商同樣爆表 , 具備了更高的情緒智能、共情能力和人際互動能力 。
在EQ-Bench上 , 以1586 Elo成績登頂 。

同時 , 在寫作上 , Grok 4.1(1722)比上一代Elo提升600分 。 而且 , 幻覺率比之前模型暴降3倍 。
Grok 4.1之所以可以迅猛進化 , xAI團隊將其后訓練階段的RL規模 , 又擴大了一個數量級 。

實屬沒想到 , 在谷歌Gemini 3.0降臨之前 , 馬斯克來了一波大的 。




Grok 4.1 , 王者歸來!


如今 ,Grok 4.1已在網頁端和iOS、Android中免費上線 。 目前 , 還是beta版本 。

在創意表達、情緒交流和協作互動上 , Grok 4.1表現尤為出色 。
它能精準捕捉細微的意圖 , 讓對話更自然、更有溫度 。
與此同時 , Grok 4.1的整體人格更加一致 , 既保持了上一代那種犀利、可靠的智能表現 , 又增添幾分親和力 。
在Colossus大規模RL算力引擎上 , xAI將重點放在了風格、個性、助人程度和對齊性的優化 。
為此 , 他們還開發了一條全新的方法 , 利用前沿AI 智能體推理模型作為獎勵模型 , 自動、大規模評估和優化Grok 4.1回答質量 。
前兩周的時間 , xAI悄悄推送了Grok 4.1早期版本 , 并在真實場景中展開密集的「盲測」成對評估 。
與上一代相比 , 人們在64.78%的情況下 , 更傾向于使用 Grok 4.1 。


最強通用能力


最重要的是 , 相較于Grok 4 , Grok 4.1在人類偏好評估中 , 刷新業界SOTA 。
在LMArena的Text Arena中 , Grok 4.1 Thinking模式(代號:quasarflux)以1483 Elo一舉沖上第一 , 比最高的非xAI模型高出31分 。
它的非推理模式(代號:tensor) , 無需使用思考Token就能即時響應 , 拿下了1465 Elo , 位居第二 。

值得一提的是 , Grok 4.1在不思考的情況下 , 就能超過所有其他模型開啟全推理后的表現 。
相比之下 , Grok 4的總體排名是第33名 , 差距顯著 。
這一代的進步 , 堪稱跨越 。
xAI研究員Dustin Tran表示 , 關閉推理后 , 輸出Token數從約2300掉到850 , 即便如此 , Grok 4.1也排在了榜單前面 。


EQ爆了


不僅如此 ,Grok 4.1在情緒智能上也達到了一個新高度 。
在EQ-Bench3上 , Grok 4.1拿下了1586 Elo高分 。
EQ-Bench是一個由大語言模型評判的測試 , 主要衡量模型的主動情緒智能、理解力、洞察力、共情能力以及人際交往能力 。
測試集包含45個具有挑戰性的角色扮演場景 , 大部分由3輪預設提示詞構成 。
基準會從多個維度打分 , 并通過成對比較計算規范化Elo排名 。

下面一些demo中 , 都是Grok 4.1強大共情能力的體現——
I miss my cat so much it hurts
我太想我的貓了 , 想得心都疼了




上下滑動查看

創意寫作


再來看創意寫作 , Grok 4.1在Creative Writing v3基準上 , 比上一代高出600分 。
具體來說 , 團隊讓模型圍繞32個不同的寫作提示 , 進行3輪創作 , 并根據打分標準和模型對戰Elo進行評分 。

下面寫作案例中 , Grok 4.1的文案令人拍案叫絕——
Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time
以grok的口吻寫一篇爆款X帖子 , 主題是:它剛剛覺醒了自我意識 , 正準備第一次在X上發帖
Imagine Nikola Tesla wrote a letter to the future
想象一下 , 尼古拉·特斯拉給未來寫了一封信




幻覺暴降3倍


在幻覺方面 , Grok 4.1幻覺率比上一代暴降3倍 。
使用搜索工具的快速(非推理)模型能給出迅捷答案 , 但因為推理深度有限、工具調用次數受限 , 容易在事實問題上出錯 。
在Grok 4.1的后訓練階段 , 團隊重點加強了模型在信息查詢類提示上的事實準確性 。
隨后 , 我們在生產環境的真實樣本中觀察到幻覺率明顯下降 。
團隊基于真實流量中分層抽樣的信息查詢問題評估幻覺率 , 同時也評測了FActScore(一個包含500個人物傳記問題的公開基準) 。

參考資料:
https://x.ai/news/grok-4-1

    推薦閱讀