
《神奇寶貝》是人工智能的一個(gè)艱難基準(zhǔn)? 一組研究人員認(rèn)為《超級(jí)馬里奧兄弟》挑戰(zhàn)性更高 。 加利福尼亞大學(xué)圣迭戈分校Hao人工智能實(shí)驗(yàn)室(Hao AI Lab)的研究人員周五將人工智能投入到現(xiàn)場(chǎng)直播的《超級(jí)馬里奧兄弟》游戲中 。Anthropic 的 Claude 3.7 表現(xiàn)最好 , 其次是 Claude 3.5 。Google的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則表現(xiàn)不佳 。
要知道 , 《超級(jí)馬里奧兄弟》的版本與 1985 年發(fā)布的原版并不完全相同 。游戲在模擬器中運(yùn)行 , 并與 GamingAgent框架集成 , 讓人工智能控制馬里奧 。
Hao AI Lab自行開發(fā)的 GamingAgent 向人工智能提供了基本指令 , 如\"如果有障礙物或敵人靠近 , 向左移動(dòng)/跳躍躲避\"以及游戲截圖 。然后 , 人工智能以 Python 代碼的形式生成控制馬里奧的輸入 。
不過 , Hao說 , 游戲迫使每個(gè)模型\"學(xué)習(xí)\"規(guī)劃復(fù)雜的操作和制定游戲策略 。有趣的是 , 實(shí)驗(yàn)室發(fā)現(xiàn) , 推理模型(如 OpenAI 的 o1模型 , 通過一步步\"思考\"問題來得出解決方案)的表現(xiàn)不如\"非推理\"模型 , 盡管它們?cè)诖蠖鄶?shù)基準(zhǔn)測(cè)試中普遍更強(qiáng) 。
研究人員表示 , 推理模型在玩此類實(shí)時(shí)游戲時(shí)遇到困難的主要原因之一是 , 它們需要一段時(shí)間--通常是幾秒鐘--來決定行動(dòng) 。在《超級(jí)馬里奧兄弟》中 , 時(shí)間就是一切 。一秒鐘的時(shí)間意味著你是安全跳過還是摔下深淵 。
幾十年來 , 游戲一直被用來作為人工智能的基準(zhǔn) 。但是一些專家質(zhì)疑將人工智能的游戲技能與技術(shù)進(jìn)步聯(lián)系起來是否明智 。與現(xiàn)實(shí)世界不同 , 游戲往往是抽象的、相對(duì)簡(jiǎn)單的 , 而且從理論上講 , 它們?yōu)橛?xùn)練人工智能提供了無限量的數(shù)據(jù) 。
最近浮夸的游戲基準(zhǔn)表明 , OpenAI 的研究科學(xué)家和創(chuàng)始成員 Andrej Karpathy 正面臨著一場(chǎng)\"評(píng)估危機(jī)\" 。
他在 X 上的一篇帖子中寫道:\"我真的不知道現(xiàn)在該看什么 [AI
指標(biāo) 。 TLDR , 我的反應(yīng)是我真的不知道這些模型現(xiàn)在有多好 。 \"
【研究人員正使用《超級(jí)馬里奧》作為測(cè)試人工智能的基準(zhǔn)】但至少我們可以看人工智能玩馬里奧了 。
推薦閱讀
- 榮耀正式推出了全新的影像品牌AIMAGE
- 2025年度首部小折疊 努比亞Flip 2正式上市 售價(jià)3399元起
- 2025年度首部小折疊,努比亞Flip 2正式上市
- 傳輸速度達(dá)到3800MB/s!閃迪移動(dòng)固態(tài)硬盤正式進(jìn)入U(xiǎn)SB4時(shí)代
- 3月4日,努比亞Flip2正式發(fā)布:國民小折疊能否再創(chuàng)佳績?
- 怪不得魅族現(xiàn)在越來越少人使用了,魅族21 PRO真的太難用了
- ColorOS 15正式版升級(jí):不止是系統(tǒng)更新,更是生態(tài)戰(zhàn)略的關(guān)鍵落子
- 26億!天價(jià)光刻機(jī),正式投產(chǎn)
- 奔馳高管炮轟余承東“不正當(dāng)對(duì)比”,任正非為什么不管管余承東
- 清華、北大出的DeepSeek使用PDF,完整版!
