訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭( 二 )
這東西說新也新 , 但是卻并不復雜 , 是一種半監(jiān)督式的模仿學習方法 。
首先 , 收集一波數(shù)據(jù)標注外包們玩游戲的數(shù)據(jù) , 其中包含視頻和鍵鼠操作的記錄 。

文章圖片
VPT方法概述
然后 , 研究人員用這些數(shù)據(jù)搞了個逆動力學模型(inversedynamicsmodel , IDM) , 可以推測出視頻中每一步進行的時候 , 鍵鼠都是怎么動的 。
這樣一來 , 整個任務就變得簡單多了 , 只需要比原來少很多的數(shù)據(jù)就可以實現(xiàn)目的 。
用一小撮外包數(shù)據(jù)搞完IDM之后 , 就可以用IDM接下來標注更大規(guī)模的無標記數(shù)據(jù)集了 。

文章圖片
基礎模型訓練數(shù)據(jù)對微調(diào)的影響
在訓練了70000個小時以后 , OpenAI的行為克隆模型就能實現(xiàn)各種別的模型做不到的工作了 。
模型學會了怎么砍樹收集木頭 , 怎么用木頭做木條 , 怎么用木條做桌子 。 而這一套事兒需要一個比較熟練的玩家操作小50秒的時間 。

文章圖片
除了做桌子 , 模型還能游泳 , 打獵 , 吃東西 。
甚至還有「跑跳搭」的騷操作 , 也就是起跳的時候腳下放個磚塊或者木塊 , 跳著跳著就能搭個柱子 。 這屬于是骨灰級玩家的必修課了 。

文章圖片
制作桌子(0shot)

文章圖片
打獵(0shot)

文章圖片
「跑跳搭」簡陋版(0shot)
而為了讓模型能完成一些更精細的任務 , 一般還會把數(shù)據(jù)集微調(diào)成更小的規(guī)模 , 區(qū)分細小的方向 。
OpenAI做了一項研究 , 展示了用VPT訓練過的模型 , 再經(jīng)過了微調(diào)之后 , 有多適應下游的數(shù)據(jù)集 。
研究人員邀請人玩兒了10分鐘的「我的世界」 , 用基礎材料搭了個房子 。 他們希望通過這種方式可以加強模型執(zhí)行一些游戲初期的任務的能力 , 比如說搭一個工作臺 。
當對該數(shù)據(jù)集進行完微調(diào)以后 , 研究人員不僅發(fā)現(xiàn)模型在執(zhí)行初期任務時更加得心應手 , 還發(fā)現(xiàn)模型自個兒研究明白了怎么分別做出一張木制的工作臺 , 和一張石制的工具臺 。
有時候 , 研究人員還能看到模型自己搭建簡陋的避難所 , 搜查村子 , 還有搶箱子 。

文章圖片
制作一把石鎬的全過程(下方標注的時間是一名熟練玩家執(zhí)行同樣的任務的耗時)

文章圖片
制作石鎬
然后我們來看看 , OpenAI的專家們是怎么進行的微調(diào) 。
他們使用的辦法是 , 強化學習(RL) 。
大多數(shù)RL方法通過隨機探索先驗來解決這些挑戰(zhàn) , 例如模型通常被激勵通過熵獎勵隨機行動 。 VPT模型應該是RL更好的先驗模型 , 因為模擬人類行為可能比采取隨機行動更有幫助 。
研究人員將模型設置為收集鉆石鎬這類艱巨任務 , 這是「我的世界」中前所未有的功能 , 因為執(zhí)行整個任務時使用本機人機界面時會變得更加困難 。
制作鉆石鎬需要一系列漫長而復雜的子任務 。 為了使這項任務易于處理 , 研究人員為序列中的每個項目獎勵智能體 。

相關經(jīng)驗推薦
- 林煒翔排位12小時,Doinb稱他已經(jīng)自閉:不是我隊友為什么要安慰
- 部落沖突:公認首領五大招人手段,第一個一小時內(nèi)能招滿50人!
- TMA-112“亂殺”,“做事哥”訓練賽一穿四,4AM夏季賽可能雙贏
- 碎片商店更新一小時,墨子龍騎士無人問津,扁鵲救世之瞳成香餑餑
- 第五人格:《時光代理人》程小時&陸光建模內(nèi)錄!掛件特效拉滿!
- AG小獸刪微博做準備,訓練賽輪換中輔戰(zhàn)S組,網(wǎng)友吐槽打了傷疤忘疼
- 電競選手一天的訓練,不只是“打游戲”那么簡單
- 迷你世界更新失敗!玩家紛紛轉玩MC,不到兩個小時就成老玩家了!
- 迷你世界更新失敗!玩家紛紛轉玩MC,不到兩個小時就成老玩家了!
- s28賽季更新一小時,新品戰(zhàn)令銷量翻倍,僅因王昭君1級戰(zhàn)令撐排面
