污污网站18禁在线永久免费观看,国产av香蕉一区二区三区

對(duì)棋類游戲的掌握程度，一直是判斷人工智能（AI）是否真正智能的依據(jù)之一，因?yàn)檫@類游戲可以被用來評(píng)估 AI 代理在受控環(huán)境下自主開發(fā)和執(zhí)行策略的能力。
如今，AI 在此前尚未掌握的經(jīng)典棋類游戲 Stratego（西洋陸軍棋）中，表現(xiàn)出了人類專家級(jí)一般的水準(zhǔn)——
以97%的最低勝率擊敗了其他 AI 機(jī)器人；在 Gravon 平臺(tái)上與人類專業(yè)玩家對(duì)弈，取得了84%的總勝率，在年初至今和歷史排行榜上都排在前三名。
值得注意的是，這一驚人表現(xiàn)是在沒有部署任何搜索方法的情況下實(shí)現(xiàn)的，這是 AI 之前在棋類游戲中取得多個(gè)里程碑式成就的關(guān)鍵。
（來源：維基百科）
相關(guān)研究論文以“Mastering the game of Stratego with model-free multiagent reinforcement learning”為題，已發(fā)表在權(quán)威科學(xué)期刊Science上。
多年來，Stratego 一直是人工智能行業(yè)的下一個(gè)前沿領(lǐng)域之一。Stratego 玩家既需要有像玩國際象棋一樣的長期戰(zhàn)略性思考，也需要能夠像打撲克一樣處理不完全的信息。
不完全信息，意味著參與人在進(jìn)行博弈時(shí)不清楚博弈中的某些要素。例如，在橋牌游戲中，玩家并不清楚其他玩家手中的牌，在拍賣會(huì)中，競(jìng)拍人并不清楚其他競(jìng)拍人對(duì)物品的估價(jià) 。
這個(gè)名為“DeepNash”的 AI 代理出自 DeepMind ，在他們看來，這代表了一個(gè)非凡的成果；同樣，Stratego 社區(qū)也認(rèn)為，這用現(xiàn)有技術(shù)是不可能實(shí)現(xiàn)的。
Stratego 誕生于 1947 年，與中國陸軍棋不同，其軍銜、棋子數(shù)量較多，棋盤設(shè)計(jì)較為簡(jiǎn)單，沒有鐵路、行營，也沒有裁判，當(dāng)兩方棋子相遇后，才會(huì)揭開來判斷大小。二者的相同之處，都是以奪得對(duì)方軍旗或消滅所有可移動(dòng)的棋子為勝利標(biāo)志。

圖｜陸軍棋與 Stratego
Stratego 便是一種不完全信息游戲。與之相反，國際象棋、跳棋、日本將棋和圍棋可看作完全信息博弈，因?yàn)殡p方完全清楚游戲規(guī)則，當(dāng)前局面對(duì)方可能的下法等信息。
而且，Stratego 具有非常復(fù)雜的結(jié)構(gòu)，其博弈樹具有10^535種可能的狀態(tài)，比無限德州撲克（10^164）和圍棋（10^360）都要多。
另外，在特定情況下，Stratego 玩家需要在游戲開始時(shí)推理出多于10^66對(duì)可能的排布，而在德州撲克中，這一數(shù)字僅為 10^6；完全信息游戲則沒有這一階段，相對(duì)更為簡(jiǎn)單。

在 Stratego 中，雙方各有代表元帥（Marshal）、將軍（General）、上校（Colonel）、中校（Major）、上尉（Captain）、中尉（Lieutenant）、士官（Sergeant）、除雷兵（Miner）、斥侯（Scout）、間諜（Spy）、地雷（Bomb）、軍旗（Flag）的棋子。

具體游戲規(guī)則為：兩方將所有己棋豎立、以正面朝后的方式排布，然后輪流移動(dòng)一枚己棋；可以將棋子沿縱橫方向移動(dòng)一格至空格或敵棋處，但需要維持正面朝后；如果一方棋子到達(dá)敵棋處，便將兩棋公開，一般勝方這一棋子會(huì)被放回原位且正面繼續(xù)朝后，輸方這一棋子則被移除游戲。

圖｜勝負(fù)關(guān)系判定（來源：維基百科）
提前計(jì)劃的能力，一直判斷某一 AI 技術(shù)/代理是否成功的核心問題，Stratego 等不完全信息游戲，則常被用來測(cè)試 AI 代理依次做出相對(duì)緩慢、慎重和合乎邏輯的能力大小。
然而，目前利用不完全信息搜索技術(shù)來掌握 Stratego 是不可能的。
據(jù)論文描述，DeepNash 使用了一種博弈論的、無模型的深度強(qiáng)化學(xué)習(xí)方法 R-NaD，無需搜索，便能以從頭開始的自我博弈方式來學(xué)習(xí)如何掌握游戲策略，比如虛張聲勢(shì) 。