免费夜色污私人影院在线观看,日韩人妻无码免费视频一区二区三区

《神奇寶貝》是人工智能的一個(gè)艱難基準(zhǔn)？一組研究人員認(rèn)為《超級(jí)馬里奧兄弟》挑戰(zhàn)性更高。加利福尼亞大學(xué)圣迭戈分校Hao人工智能實(shí)驗(yàn)室（Hao AI Lab）的研究人員周五將人工智能投入到現(xiàn)場(chǎng)直播的《超級(jí)馬里奧兄弟》游戲中。Anthropic 的 Claude 3.7 表現(xiàn)最好，其次是 Claude 3.5 。Google的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則表現(xiàn)不佳。
要知道，《超級(jí)馬里奧兄弟》的版本與 1985 年發(fā)布的原版并不完全相同。游戲在模擬器中運(yùn)行，并與 GamingAgent框架集成，讓人工智能控制馬里奧。
Hao AI Lab自行開發(fā)的 GamingAgent 向人工智能提供了基本指令，如\"如果有障礙物或敵人靠近，向左移動(dòng)/跳躍躲避\"以及游戲截圖。然后，人工智能以 Python 代碼的形式生成控制馬里奧的輸入。
不過， Hao說，游戲迫使每個(gè)模型\"學(xué)習(xí)\"規(guī)劃復(fù)雜的操作和制定游戲策略。有趣的是，實(shí)驗(yàn)室發(fā)現(xiàn) ，推理模型（如 OpenAI 的 o1模型，通過一步步\"思考\"問題來得出解決方案）的表現(xiàn)不如\"非推理\"模型，盡管它們?cè)诖蠖鄶?shù)基準(zhǔn)測(cè)試中普遍更強(qiáng) 。
研究人員表示，推理模型在玩此類實(shí)時(shí)游戲時(shí)遇到困難的主要原因之一是，它們需要一段時(shí)間--通常是幾秒鐘--來決定行動(dòng) 。在《超級(jí)馬里奧兄弟》中，時(shí)間就是一切。一秒鐘的時(shí)間意味著你是安全跳過還是摔下深淵。
幾十年來，游戲一直被用來作為人工智能的基準(zhǔn) 。但是一些專家質(zhì)疑將人工智能的游戲技能與技術(shù)進(jìn)步聯(lián)系起來是否明智。與現(xiàn)實(shí)世界不同，游戲往往是抽象的、相對(duì)簡(jiǎn)單的，而且從理論上講，它們?yōu)橛?xùn)練人工智能提供了無限量的數(shù)據(jù) 。
最近浮夸的游戲基準(zhǔn)表明， OpenAI 的研究科學(xué)家和創(chuàng)始成員 Andrej Karpathy 正面臨著一場(chǎng)\"評(píng)估危機(jī)\" 。
他在 X 上的一篇帖子中寫道：\"我真的不知道現(xiàn)在該看什么 [AI
指標(biāo) 。 TLDR ，我的反應(yīng)是我真的不知道這些模型現(xiàn)在有多好。 \"
【研究人員正使用《超級(jí)馬里奧》作為測(cè)試人工智能的基準(zhǔn)】但至少我們可以看人工智能玩馬里奧了。

研究人員正使用《超級(jí)馬里奧》作為測(cè)試人工智能的基準(zhǔn)

推薦閱讀

11月11日有滿減嗎

新車幾年審一次不同的車年審一樣嗎

蘋果公司商標(biāo)的含義是什么

黑米掉色是怎么回事,黑米掉色還能吃嗎

蜜薯烤箱200度烤多久

凌亂反義詞都在哪些古詩出現(xiàn)過

孩子逃學(xué)上網(wǎng)解決方法

qq刪除的好友怎么找回來

臺(tái)風(fēng)影響我國哪些地區(qū) 臺(tái)風(fēng)會(huì)影響我國哪些地區(qū)

大閘蟹能冷凍保存嗎

鄭州往東方向有哪些城市

子癇怎么讀

宜家為什么不上市,華為和老干媽為什么不上市

蛋仔派對(duì)怎么搜名字找朋友蛋仔派對(duì)怎么搜作者名字

房價(jià)什么時(shí)候能降下來南京,沈陽的房價(jià)什么時(shí)候能降下來

索尼1.850定焦怎么樣?,索尼a6300微單怎么樣