日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類

01、DeepMind的一項研究提出了MuZero算法,該算法在不具備任何底層動態(tài)知識的情況下,通過結(jié)合基于樹的搜索和學(xué)得模型,在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn),在國際象棋、日本將棋和圍棋的精確規(guī)劃任務(wù)中可以匹敵AlphaZero,甚至超過了提前得知規(guī)則的圍棋版AlphaZero 。

通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類


MuZero 算法在國際象棋、日本將棋、圍棋和雅達(dá)利(Atari)游戲訓(xùn)練中的評估結(jié)果 。橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo評分 。黃色線代表 AlphaZero(在雅達(dá)利游戲中代表人類表現(xiàn)) , 藍(lán)色線代表 MuZero 。
基于前向搜索的規(guī)劃算法已經(jīng)在 AI 領(lǐng)域取得了很大的成功 。在圍棋、國際象棋、西洋跳棋、撲克等游戲中 , 人類世界冠軍一次次被算法打敗 。此外,規(guī)劃算法也已經(jīng)在物流、化學(xué)合成等諸多現(xiàn)實世界領(lǐng)域中產(chǎn)生影響 。然而,這些規(guī)劃算法都依賴于環(huán)境的動態(tài)變化,如游戲規(guī)則或精確的模擬器 , 導(dǎo)致它們在機(jī)器人學(xué)、工業(yè)控制、智能助理等領(lǐng)域中的應(yīng)用受到限制 。
基于模型的強(qiáng)化學(xué)習(xí)旨在通過以下步驟解決這一問題:首先學(xué)習(xí)一個環(huán)境動態(tài)模型,然后根據(jù)所學(xué)模型進(jìn)行規(guī)劃 。一般來說,這些模型要么著眼于重建真實的環(huán)境狀態(tài),要么著眼于完整觀察結(jié)果的序列 。然而 , 之前的研究在視覺上豐富的領(lǐng)域還遠(yuǎn)遠(yuǎn)沒有達(dá)到 SOTA 水準(zhǔn),如雅達(dá)利 2600 游戲 。
最受歡迎的方法是基于無模型強(qiáng)化學(xué)習(xí)的方法,即直接從智能體與環(huán)境的交互中估計優(yōu)化策略和/或價值函數(shù) 。但在那些需要精確和復(fù)雜前向搜索的領(lǐng)域(如圍棋、國際象棋) , 這種無模型的算法要遠(yuǎn)遠(yuǎn)落后于 SOTA 。
研究者在57個不同的雅達(dá)利游戲中評估了MuZero,發(fā)現(xiàn)該模型在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn) 。此外,他們還在不給出游戲規(guī)則的情況下,在國際象棋、日本將棋和圍棋中對MuZero模型進(jìn)行了評估,發(fā)現(xiàn)該模型可以匹敵AlphaZero超越人類的表現(xiàn) 。而且,在該實驗中,其前輩AlphaZero提前獲知了規(guī)則 。
MuZero 算法概覽
MuZero 基于 AlphaZero 強(qiáng)大的搜索和基于搜索的策略迭代算法,但又將一個學(xué)習(xí)好的模型整合到了訓(xùn)練步驟中 。MuZero 還將 AlphaZero 擴(kuò)展到了一個更加廣泛的環(huán)境集合,包含單個智能體域和中間時間步上的非零獎勵 。
【通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類】該算法的主要思路是預(yù)測那些與規(guī)劃直接相關(guān)的未來行為(如下圖 1 所示) 。模型將接收到的觀察結(jié)果(如圍棋棋盤圖像或雅達(dá)利游戲截圖)作為輸入 , 然后將其轉(zhuǎn)換為一個隱藏狀態(tài) 。接下來,通過一個循環(huán)過程來迭代更新該隱藏狀態(tài),該循環(huán)過程接收前一個隱藏狀態(tài)和假設(shè)的下一步操作 。
在每一個步驟上 , 模型會預(yù)測策略(如玩的動作)、價值函數(shù)(如預(yù)測的贏家)以及即時獎勵 。對模型進(jìn)行端到端訓(xùn)練的唯一目標(biāo)是準(zhǔn)確估計這三個重要的量,以匹配改進(jìn)的策略估計和通過搜索及觀察到的獎勵生成的值 。
對于隱藏的狀態(tài),沒有直接的約束和要求來捕獲重建原始觀察結(jié)果所需的信息,大大減少了模型維護(hù)和預(yù)測的信息量;也沒有要求隱藏狀態(tài)匹配環(huán)境中未知、真實的狀態(tài);更沒有針對狀態(tài)語義的其他約束 。
相反,隱藏狀態(tài)能夠地以任何與預(yù)測當(dāng)前和未來值和策略相關(guān)的方式來表示狀態(tài) 。直觀地說 , 智能體可以在內(nèi)部創(chuàng)建規(guī)則和動態(tài),以實現(xiàn)最精確的規(guī)劃 。
圖 1:用一個訓(xùn)練好的模型進(jìn)行規(guī)劃、行動和訓(xùn)練 。(A)MuZero 利用其模型進(jìn)行規(guī)劃的方式;(B)MuZero 在環(huán)境中發(fā)生作用的方式;(C)MuZero 訓(xùn)練其模型的方式 。

推薦閱讀