久久久精品人妻一区二区三区四,国产日本精品一区二区

MuZero 算法詳解
研究者對 MuZero 算法進(jìn)行了更詳細(xì)的解讀。在每個時間步 t 上、以過往觀察結(jié)果 O_1, …, O_t 和未來行為 a_t 1, …, a_t k 為條件、通過一個具有參數(shù)θ的模型礯θ，為每個 k=1…K 步進(jìn)行預(yù)測。該模型預(yù)測三種未來數(shù)量：策略
、價值函數(shù)
和即時獎勵
，其中 u. 表示觀察到的正確獎勵，π表示用來選擇實時行動的策略，γ表示環(huán)境的貼現(xiàn)函數(shù)（discount function）。
在每個時間步 t 上，MuZero 模型由表征函數(shù)、動態(tài)函數(shù)和預(yù)測函數(shù)聯(lián)合表征。在本文中，研究者對動態(tài)函數(shù)進(jìn)行了確切的表征。策略和價值函數(shù)則通過預(yù)測函數(shù)
并根據(jù)內(nèi)部狀態(tài) s^k 來計算，這與 AlphaZero 的聯(lián)合策略和價值網(wǎng)絡(luò)相似。
給定這樣一個模型，則有可能在基于過往觀察結(jié)果 O_1, …, O_t 的情況下查找基于假設(shè)的未來軌跡 a^1, …, a^k 。例如，一個簡單的搜索可以輕松地選擇最大化價值函數(shù)的 k 步動作序列。更普遍地說，我們或許可以將任何 MDP（馬爾科夫決策過程）規(guī)劃算法應(yīng)用于由動態(tài)函數(shù)推導(dǎo)出的內(nèi)部獎勵和狀態(tài)空間。
對于每個假設(shè)的時間步 k，模型的所有參數(shù)接受聯(lián)合訓(xùn)練，從而在 k 個實際的時間步后，對策略、價值和獎勵與它們各自對應(yīng)的目標(biāo)值進(jìn)行精確的匹配。與 AlphaZero 相似，提升后的策略目標(biāo)通過蒙特卡洛樹（MCTS）搜索生成。第一個目標(biāo)是最小化預(yù)測策略 p^k_t 和搜索策略π_t k 之間的誤差；第二個目標(biāo)是最小化預(yù)測值 v^k_t 和價值目標(biāo) z_t k 之間的誤差；第三個目標(biāo)是最小化預(yù)測獎勵 r^k_t 和觀察到的獎勵 u_t k 之間的誤差。最后添加 L2 正則化項，得出以下總損失：
實驗結(jié)果
在實驗中，研究者將 MuZero 算法應(yīng)用于圍棋、國際象棋和日本將棋等經(jīng)典棋盤游戲中，作為挑戰(zhàn)規(guī)劃問題的基準(zhǔn)；同時又應(yīng)用于雅達(dá)利游戲環(huán)境中的 57 個游戲，作為視覺復(fù)雜強(qiáng)化學(xué)習(xí)領(lǐng)域的基準(zhǔn) 。
下圖 2 展示了 MuZero 算法在每個游戲訓(xùn)練中的性能。在圍棋游戲中，盡管搜索樹中每個節(jié)點的計算量小于 AlphaZero，但 MuZero 的性能依然略微超過 AlphaZero 。這表明 MuZero 可能在搜索樹中緩存自身計算，并利用動態(tài)模型的每個附加應(yīng)用來對位置產(chǎn)生更深的理解。
圖 2：MuZero 算法分別在國際象棋、日本將棋、圍棋和雅達(dá)利游戲訓(xùn)練中的評估結(jié)果。在國際象棋、日本將棋和圍棋游戲中，橫坐標(biāo)表示訓(xùn)練步驟數(shù)量，縱坐標(biāo)表示 Elo 評分。
表 1：雅達(dá)利游戲中 MuZero 與先前智能體的對比。研究者分別展示了大規(guī)模（表上部分）和小規(guī)模（表下部分）數(shù)據(jù)設(shè)置下 MuZero 與其他智能體的對比結(jié)果，表明 MuZero 在平均分、得分中位數(shù)、Env. Frames、訓(xùn)練時間和訓(xùn)練步驟五項評估指標(biāo)（紅框）取得了新的 SOTA 結(jié)果。
為了了解 MuZero 中模型的作用，研究者還重點在圍棋和吃豆人雅達(dá)利游戲中進(jìn)行了以下幾項實驗。他們首先在圍棋的典型規(guī)劃問題上測試了規(guī)劃的可擴(kuò)展性（下圖 3A）。此外，他們還研究了所有雅達(dá)利游戲中規(guī)劃的可擴(kuò)展性（下圖 3B）。接著，他們將自己基于模型的學(xué)習(xí)算法與其他相似的無模型學(xué)習(xí)算法進(jìn)行了比較（下圖 3C）。
圖 3：MuZero 在圍棋、57 個雅達(dá)利游戲、吃豆人游戲上的評估結(jié)果。
（原文來自機(jī)器之心編輯部，論文鏈接：網(wǎng)頁鏈接）

通用AlphaGo誕生？MuZero在多種棋類游戲中超越人類( 二 )

推薦閱讀

破解glasswire的方法

刀柄材質(zhì)種類有哪些刀柄材質(zhì)種類有哪些圖片

小森生活泡菜怎么獲得泡菜獲得方法介紹

抬頭紋多怎么辦 5個方法解決問題

軒逸一踩油門就嗚嗚的響

觀致3怎么打火

買櫝還珠文言文翻譯和啟示買櫝還珠原文

蘋果x原裝盒子里都有什么 iPhonex盒子里有啥

直男是怎么搭訕的

怎樣教孩子畫畫-熊貓

114招聘網(wǎng)，廈門114招聘

天易成網(wǎng)管安裝教程介紹

如何修改查重后的論文,知網(wǎng)查重后該怎么改

這種情況怎么解決

十鼠九苦不如牛氣沖天十鼠九苦

公貓反復(fù)進(jìn)貓砂盆又沒尿？貓咪不尿可不是小事！