日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

陸軍棋的規(guī)則和玩法怎么放圖片 陸軍棋的規(guī)則和玩法

對(duì)棋類游戲的掌握程度,一直是判斷人工智能(AI)是否真正智能的依據(jù)之一,因?yàn)檫@類游戲可以被用來評(píng)估 AI 代理在受控環(huán)境下自主開發(fā)和執(zhí)行策略的能力 。
如今,AI 在此前尚未掌握的經(jīng)典棋類游戲 Stratego(西洋陸軍棋)中,表現(xiàn)出了人類專家級(jí)一般的水準(zhǔn)——
以97%的最低勝率擊敗了其他 AI 機(jī)器人;在 Gravon 平臺(tái)上與人類專業(yè)玩家對(duì)弈 , 取得了84%的總勝率,在年初至今和歷史排行榜上都排在前三名 。
值得注意的是,這一驚人表現(xiàn)是在沒有部署任何搜索方法的情況下實(shí)現(xiàn)的,這是 AI 之前在棋類游戲中取得多個(gè)里程碑式成就的關(guān)鍵 。
(來源:維基百科)
相關(guān)研究論文以“Mastering the game of Stratego with model-free multiagent reinforcement learning”為題,已發(fā)表在權(quán)威科學(xué)期刊Science上 。
多年來,Stratego 一直是人工智能行業(yè)的下一個(gè)前沿領(lǐng)域之一 。Stratego 玩家既需要有像玩國際象棋一樣的長期戰(zhàn)略性思考 , 也需要能夠像打撲克一樣處理不完全的信息 。
不完全信息,意味著參與人在進(jìn)行博弈時(shí)不清楚博弈中的某些要素 。例如,在橋牌游戲中 , 玩家并不清楚其他玩家手中的牌,在拍賣會(huì)中,競(jìng)拍人并不清楚其他競(jìng)拍人對(duì)物品的估價(jià) 。
這個(gè)名為“DeepNash”的 AI 代理出自 DeepMind , 在他們看來,這代表了一個(gè)非凡的成果;同樣,Stratego 社區(qū)也認(rèn)為,這用現(xiàn)有技術(shù)是不可能實(shí)現(xiàn)的 。
Stratego 誕生于 1947 年,與中國陸軍棋不同 , 其軍銜、棋子數(shù)量較多,棋盤設(shè)計(jì)較為簡(jiǎn)單,沒有鐵路、行營,也沒有裁判,當(dāng)兩方棋子相遇后,才會(huì)揭開來判斷大小 。二者的相同之處,都是以奪得對(duì)方軍旗或消滅所有可移動(dòng)的棋子為勝利標(biāo)志 。

陸軍棋的規(guī)則和玩法怎么放圖片 陸軍棋的規(guī)則和玩法


圖|陸軍棋與 Stratego
Stratego 便是一種不完全信息游戲 。與之相反 , 國際象棋、跳棋、日本將棋和圍棋可看作完全信息博弈,因?yàn)殡p方完全清楚游戲規(guī)則 , 當(dāng)前局面對(duì)方可能的下法等信息 。
而且,Stratego 具有非常復(fù)雜的結(jié)構(gòu),其博弈樹具有10^535種可能的狀態(tài),比無限德州撲克(10^164)和圍棋(10^360)都要多 。
另外,在特定情況下,Stratego 玩家需要在游戲開始時(shí)推理出多于10^66對(duì)可能的排布,而在德州撲克中,這一數(shù)字僅為 10^6;完全信息游戲則沒有這一階段 , 相對(duì)更為簡(jiǎn)單 。
在 Stratego 中,雙方各有代表元帥(Marshal)、將軍(General)、上校(Colonel)、中校(Major)、上尉(Captain)、中尉(Lieutenant)、士官(Sergeant)、除雷兵(Miner)、斥侯(Scout)、間諜(Spy)、地雷(Bomb)、軍旗(Flag)的棋子 。

具體游戲規(guī)則為:兩方將所有己棋豎立、以正面朝后的方式排布,然后輪流移動(dòng)一枚己棋;可以將棋子沿縱橫方向移動(dòng)一格至空格或敵棋處 , 但需要維持正面朝后;如果一方棋子到達(dá)敵棋處,便將兩棋公開 , 一般勝方這一棋子會(huì)被放回原位且正面繼續(xù)朝后,輸方這一棋子則被移除游戲 。
陸軍棋的規(guī)則和玩法怎么放圖片 陸軍棋的規(guī)則和玩法


圖|勝負(fù)關(guān)系判定(來源:維基百科)
提前計(jì)劃的能力 , 一直判斷某一 AI 技術(shù)/代理是否成功的核心問題,Stratego 等不完全信息游戲,則常被用來測(cè)試 AI 代理依次做出相對(duì)緩慢、慎重和合乎邏輯的能力大小 。
然而 , 目前利用不完全信息搜索技術(shù)來掌握 Stratego 是不可能的 。
據(jù)論文描述,DeepNash 使用了一種博弈論的、無模型的深度強(qiáng)化學(xué)習(xí)方法 R-NaD,無需搜索,便能以從頭開始的自我博弈方式來學(xué)習(xí)如何掌握游戲策略 , 比如虛張聲勢(shì) 。

推薦閱讀