日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

研究人員正使用《超級(jí)馬里奧》作為測(cè)試人工智能的基準(zhǔn)

研究人員正使用《超級(jí)馬里奧》作為測(cè)試人工智能的基準(zhǔn)
《神奇寶貝》是人工智能的一個(gè)艱難基準(zhǔn)? 一組研究人員認(rèn)為《超級(jí)馬里奧兄弟》挑戰(zhàn)性更高 。 加利福尼亞大學(xué)圣迭戈分校Hao人工智能實(shí)驗(yàn)室(Hao AI Lab)的研究人員周五將人工智能投入到現(xiàn)場(chǎng)直播的《超級(jí)馬里奧兄弟》游戲中 。Anthropic 的 Claude 3.7 表現(xiàn)最好 , 其次是 Claude 3.5 。Google的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則表現(xiàn)不佳 。
要知道 , 《超級(jí)馬里奧兄弟》的版本與 1985 年發(fā)布的原版并不完全相同 。游戲在模擬器中運(yùn)行 , 并與 GamingAgent框架集成 , 讓人工智能控制馬里奧 。
Hao AI Lab自行開發(fā)的 GamingAgent 向人工智能提供了基本指令 , 如\"如果有障礙物或敵人靠近 , 向左移動(dòng)/跳躍躲避\"以及游戲截圖 。然后 , 人工智能以 Python 代碼的形式生成控制馬里奧的輸入 。
不過 , Hao說 , 游戲迫使每個(gè)模型\"學(xué)習(xí)\"規(guī)劃復(fù)雜的操作和制定游戲策略 。有趣的是 , 實(shí)驗(yàn)室發(fā)現(xiàn) , 推理模型(如 OpenAI 的 o1模型 , 通過一步步\"思考\"問題來得出解決方案)的表現(xiàn)不如\"非推理\"模型 , 盡管它們?cè)诖蠖鄶?shù)基準(zhǔn)測(cè)試中普遍更強(qiáng) 。
研究人員表示 , 推理模型在玩此類實(shí)時(shí)游戲時(shí)遇到困難的主要原因之一是 , 它們需要一段時(shí)間--通常是幾秒鐘--來決定行動(dòng) 。在《超級(jí)馬里奧兄弟》中 , 時(shí)間就是一切 。一秒鐘的時(shí)間意味著你是安全跳過還是摔下深淵 。
幾十年來 , 游戲一直被用來作為人工智能的基準(zhǔn) 。但是一些專家質(zhì)疑將人工智能的游戲技能與技術(shù)進(jìn)步聯(lián)系起來是否明智 。與現(xiàn)實(shí)世界不同 , 游戲往往是抽象的、相對(duì)簡(jiǎn)單的 , 而且從理論上講 , 它們?yōu)橛?xùn)練人工智能提供了無限量的數(shù)據(jù) 。
最近浮夸的游戲基準(zhǔn)表明 , OpenAI 的研究科學(xué)家和創(chuàng)始成員 Andrej Karpathy 正面臨著一場(chǎng)\"評(píng)估危機(jī)\" 。
他在 X 上的一篇帖子中寫道:\"我真的不知道現(xiàn)在該看什么 [AI
指標(biāo) 。 TLDR , 我的反應(yīng)是我真的不知道這些模型現(xiàn)在有多好 。 \"
【研究人員正使用《超級(jí)馬里奧》作為測(cè)試人工智能的基準(zhǔn)】但至少我們可以看人工智能玩馬里奧了 。

    推薦閱讀