亚洲第一男人网站视频,亚洲一区二区三区极品

01、DeepMind的一項研究提出了MuZero算法，該算法在不具備任何底層動態(tài)知識的情況下，通過結(jié)合基于樹的搜索和學(xué)得模型，在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn)，在國際象棋、日本將棋和圍棋的精確規(guī)劃任務(wù)中可以匹敵AlphaZero，甚至超過了提前得知規(guī)則的圍棋版AlphaZero 。

MuZero 算法在國際象棋、日本將棋、圍棋和雅達(dá)利（Atari）游戲訓(xùn)練中的評估結(jié)果。橫坐標(biāo)表示訓(xùn)練步驟數(shù)量，縱坐標(biāo)表示 Elo評分。黃色線代表 AlphaZero（在雅達(dá)利游戲中代表人類表現(xiàn)），藍(lán)色線代表 MuZero 。
基于前向搜索的規(guī)劃算法已經(jīng)在 AI 領(lǐng)域取得了很大的成功。在圍棋、國際象棋、西洋跳棋、撲克等游戲中，人類世界冠軍一次次被算法打敗。此外，規(guī)劃算法也已經(jīng)在物流、化學(xué)合成等諸多現(xiàn)實世界領(lǐng)域中產(chǎn)生影響。然而，這些規(guī)劃算法都依賴于環(huán)境的動態(tài)變化，如游戲規(guī)則或精確的模擬器，導(dǎo)致它們在機(jī)器人學(xué)、工業(yè)控制、智能助理等領(lǐng)域中的應(yīng)用受到限制。
基于模型的強(qiáng)化學(xué)習(xí)旨在通過以下步驟解決這一問題：首先學(xué)習(xí)一個環(huán)境動態(tài)模型，然后根據(jù)所學(xué)模型進(jìn)行規(guī)劃。一般來說，這些模型要么著眼于重建真實的環(huán)境狀態(tài)，要么著眼于完整觀察結(jié)果的序列。然而，之前的研究在視覺上豐富的領(lǐng)域還遠(yuǎn)遠(yuǎn)沒有達(dá)到 SOTA 水準(zhǔn)，如雅達(dá)利 2600 游戲。
最受歡迎的方法是基于無模型強(qiáng)化學(xué)習(xí)的方法，即直接從智能體與環(huán)境的交互中估計優(yōu)化策略和/或價值函數(shù) 。但在那些需要精確和復(fù)雜前向搜索的領(lǐng)域（如圍棋、國際象棋），這種無模型的算法要遠(yuǎn)遠(yuǎn)落后于 SOTA 。
研究者在57個不同的雅達(dá)利游戲中評估了MuZero，發(fā)現(xiàn)該模型在雅達(dá)利2600游戲中達(dá)到了SOTA表現(xiàn) 。此外，他們還在不給出游戲規(guī)則的情況下，在國際象棋、日本將棋和圍棋中對MuZero模型進(jìn)行了評估，發(fā)現(xiàn)該模型可以匹敵AlphaZero超越人類的表現(xiàn) 。而且，在該實驗中，其前輩AlphaZero提前獲知了規(guī)則。
MuZero 算法概覽
MuZero 基于 AlphaZero 強(qiáng)大的搜索和基于搜索的策略迭代算法，但又將一個學(xué)習(xí)好的模型整合到了訓(xùn)練步驟中。MuZero 還將 AlphaZero 擴(kuò)展到了一個更加廣泛的環(huán)境集合，包含單個智能體域和中間時間步上的非零獎勵。
【通用AlphaGo誕生？MuZero在多種棋類游戲中超越人類】該算法的主要思路是預(yù)測那些與規(guī)劃直接相關(guān)的未來行為（如下圖 1 所示）。模型將接收到的觀察結(jié)果（如圍棋棋盤圖像或雅達(dá)利游戲截圖）作為輸入，然后將其轉(zhuǎn)換為一個隱藏狀態(tài) 。接下來，通過一個循環(huán)過程來迭代更新該隱藏狀態(tài)，該循環(huán)過程接收前一個隱藏狀態(tài)和假設(shè)的下一步操作。
在每一個步驟上，模型會預(yù)測策略（如玩的動作）、價值函數(shù)（如預(yù)測的贏家）以及即時獎勵。對模型進(jìn)行端到端訓(xùn)練的唯一目標(biāo)是準(zhǔn)確估計這三個重要的量，以匹配改進(jìn)的策略估計和通過搜索及觀察到的獎勵生成的值。
對于隱藏的狀態(tài)，沒有直接的約束和要求來捕獲重建原始觀察結(jié)果所需的信息，大大減少了模型維護(hù)和預(yù)測的信息量；也沒有要求隱藏狀態(tài)匹配環(huán)境中未知、真實的狀態(tài)；更沒有針對狀態(tài)語義的其他約束。
相反，隱藏狀態(tài)能夠地以任何與預(yù)測當(dāng)前和未來值和策略相關(guān)的方式來表示狀態(tài) 。直觀地說，智能體可以在內(nèi)部創(chuàng)建規(guī)則和動態(tài)，以實現(xiàn)最精確的規(guī)劃。
圖 1：用一個訓(xùn)練好的模型進(jìn)行規(guī)劃、行動和訓(xùn)練。（A）MuZero 利用其模型進(jìn)行規(guī)劃的方式；（B）MuZero 在環(huán)境中發(fā)生作用的方式；（C）MuZero 訓(xùn)練其模型的方式。

通用AlphaGo誕生？MuZero在多種棋類游戲中超越人類

推薦閱讀

4g獨(dú)顯和8g獨(dú)顯的區(qū)別獨(dú)立顯卡8g和4g區(qū)別

要離婚了，分房子，離婚怎么分

中空玻璃充氬氣的作用

電視劇《玲瓏》劇情簡介，玲瓏更新時間表提前看大結(jié)局

玉蠶絲是什么面料

紅米note10pro怎么關(guān)閉5g 在哪里開啟關(guān)閉設(shè)置5g網(wǎng)絡(luò)

溧水屬于南京嗎溧水區(qū)是屬于南京嗎

蒸箱螃蟹蒸多久最佳時間

羚羊絨與山羊絨的區(qū)別是什么

四大古都分別是什么

從前有座靈劍山電視劇結(jié)局是什么

開天辟地第一回，破3底層升級android 10

海信電視3A和3D的區(qū)別海信電視3A和3D的區(qū)別是什么

在新的歷史條件下開展勞動教育機(jī)遇與挑戰(zhàn)分別是什么

我來分享oppo reno z創(chuàng)建兩個微信的詳細(xì)操作流程。

教你酷米客公交設(shè)置上下班路線的具體操作流程。