日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類( 二 )


MuZero 算法詳解
研究者對 MuZero 算法進(jìn)行了更詳細(xì)的解讀 。在每個時間步 t 上、以過往觀察結(jié)果 O_1, …, O_t 和未來行為 a_t 1, …, a_t k 為條件、通過一個具有參數(shù)θ的模型礯θ,為每個 k=1…K 步進(jìn)行預(yù)測 。該模型預(yù)測三種未來數(shù)量:策略
、價值函數(shù)
和即時獎勵
,其中 u. 表示觀察到的正確獎勵,π表示用來選擇實時行動的策略,γ表示環(huán)境的貼現(xiàn)函數(shù)(discount function) 。
在每個時間步 t 上,MuZero 模型由表征函數(shù)、動態(tài)函數(shù)和預(yù)測函數(shù)聯(lián)合表征 。在本文中,研究者對動態(tài)函數(shù)進(jìn)行了確切的表征 。策略和價值函數(shù)則通過預(yù)測函數(shù)
并根據(jù)內(nèi)部狀態(tài) s^k 來計算,這與 AlphaZero 的聯(lián)合策略和價值網(wǎng)絡(luò)相似 。
給定這樣一個模型 , 則有可能在基于過往觀察結(jié)果 O_1, …, O_t 的情況下查找基于假設(shè)的未來軌跡 a^1, …, a^k 。例如,一個簡單的搜索可以輕松地選擇最大化價值函數(shù)的 k 步動作序列 。更普遍地說 , 我們或許可以將任何 MDP(馬爾科夫決策過程)規(guī)劃算法應(yīng)用于由動態(tài)函數(shù)推導(dǎo)出的內(nèi)部獎勵和狀態(tài)空間 。
對于每個假設(shè)的時間步 k,模型的所有參數(shù)接受聯(lián)合訓(xùn)練,從而在 k 個實際的時間步后,對策略、價值和獎勵與它們各自對應(yīng)的目標(biāo)值進(jìn)行精確的匹配 。與 AlphaZero 相似,提升后的策略目標(biāo)通過蒙特卡洛樹(MCTS)搜索生成 。第一個目標(biāo)是最小化預(yù)測策略 p^k_t 和搜索策略π_t k 之間的誤差;第二個目標(biāo)是最小化預(yù)測值 v^k_t 和價值目標(biāo) z_t k 之間的誤差;第三個目標(biāo)是最小化預(yù)測獎勵 r^k_t 和觀察到的獎勵 u_t k 之間的誤差 。最后添加 L2 正則化項,得出以下總損失:
實驗結(jié)果
在實驗中,研究者將 MuZero 算法應(yīng)用于圍棋、國際象棋和日本將棋等經(jīng)典棋盤游戲中,作為挑戰(zhàn)規(guī)劃問題的基準(zhǔn);同時又應(yīng)用于雅達(dá)利游戲環(huán)境中的 57 個游戲,作為視覺復(fù)雜強(qiáng)化學(xué)習(xí)領(lǐng)域的基準(zhǔn) 。
下圖 2 展示了 MuZero 算法在每個游戲訓(xùn)練中的性能 。在圍棋游戲中,盡管搜索樹中每個節(jié)點的計算量小于 AlphaZero,但 MuZero 的性能依然略微超過 AlphaZero 。這表明 MuZero 可能在搜索樹中緩存自身計算,并利用動態(tài)模型的每個附加應(yīng)用來對位置產(chǎn)生更深的理解 。
圖 2:MuZero 算法分別在國際象棋、日本將棋、圍棋和雅達(dá)利游戲訓(xùn)練中的評估結(jié)果 。在國際象棋、日本將棋和圍棋游戲中,橫坐標(biāo)表示訓(xùn)練步驟數(shù)量,縱坐標(biāo)表示 Elo 評分 。
表 1:雅達(dá)利游戲中 MuZero 與先前智能體的對比 。研究者分別展示了大規(guī)模(表上部分)和小規(guī)模(表下部分)數(shù)據(jù)設(shè)置下 MuZero 與其他智能體的對比結(jié)果,表明 MuZero 在平均分、得分中位數(shù)、Env. Frames、訓(xùn)練時間和訓(xùn)練步驟五項評估指標(biāo)(紅框)取得了新的 SOTA 結(jié)果 。
為了了解 MuZero 中模型的作用 , 研究者還重點在圍棋和吃豆人雅達(dá)利游戲中進(jìn)行了以下幾項實驗 。他們首先在圍棋的典型規(guī)劃問題上測試了規(guī)劃的可擴(kuò)展性(下圖 3A) 。此外,他們還研究了所有雅達(dá)利游戲中規(guī)劃的可擴(kuò)展性(下圖 3B) 。接著,他們將自己基于模型的學(xué)習(xí)算法與其他相似的無模型學(xué)習(xí)算法進(jìn)行了比較(下圖 3C) 。
圖 3:MuZero 在圍棋、57 個雅達(dá)利游戲、吃豆人游戲上的評估結(jié)果 。
(原文來自機(jī)器之心編輯部,論文鏈接:網(wǎng)頁鏈接)

推薦閱讀