訓練7萬小時后，OpenAI的模型竟然學會在「我的世界」里刨木頭( 二 ) 編輯：好困拉燕袁榭【新智元

這東西說新也新，但是卻并不復雜，是一種半監(jiān)督式的模仿學習方法。
首先，收集一波數(shù)據(jù)標注外包們玩游戲的數(shù)據(jù) ，其中包含視頻和鍵鼠操作的記錄。

文章圖片
VPT方法概述
然后，研究人員用這些數(shù)據(jù)搞了個逆動力學模型（inversedynamicsmodel ， IDM），可以推測出視頻中每一步進行的時候，鍵鼠都是怎么動的。
這樣一來，整個任務就變得簡單多了，只需要比原來少很多的數(shù)據(jù)就可以實現(xiàn)目的。
用一小撮外包數(shù)據(jù)搞完IDM之后，就可以用IDM接下來標注更大規(guī)模的無標記數(shù)據(jù)集了。

文章圖片
基礎模型訓練數(shù)據(jù)對微調(diào)的影響
在訓練了70000個小時以后， OpenAI的行為克隆模型就能實現(xiàn)各種別的模型做不到的工作了。
模型學會了怎么砍樹收集木頭，怎么用木頭做木條，怎么用木條做桌子。而這一套事兒需要一個比較熟練的玩家操作小50秒的時間。

文章圖片
除了做桌子，模型還能游泳，打獵，吃東西。
甚至還有「跑跳搭」的騷操作，也就是起跳的時候腳下放個磚塊或者木塊，跳著跳著就能搭個柱子。這屬于是骨灰級玩家的必修課了。

文章圖片
制作桌子（0shot）

文章圖片
打獵（0shot）

文章圖片
「跑跳搭」簡陋版（0shot）
而為了讓模型能完成一些更精細的任務，一般還會把數(shù)據(jù)集微調(diào)成更小的規(guī)模，區(qū)分細小的方向。
OpenAI做了一項研究，展示了用VPT訓練過的模型，再經(jīng)過了微調(diào)之后，有多適應下游的數(shù)據(jù)集。
研究人員邀請人玩兒了10分鐘的「我的世界」，用基礎材料搭了個房子。他們希望通過這種方式可以加強模型執(zhí)行一些游戲初期的任務的能力，比如說搭一個工作臺。
當對該數(shù)據(jù)集進行完微調(diào)以后，研究人員不僅發(fā)現(xiàn)模型在執(zhí)行初期任務時更加得心應手，還發(fā)現(xiàn)模型自個兒研究明白了怎么分別做出一張木制的工作臺，和一張石制的工具臺。
有時候，研究人員還能看到模型自己搭建簡陋的避難所，搜查村子，還有搶箱子。

文章圖片
制作一把石鎬的全過程（下方標注的時間是一名熟練玩家執(zhí)行同樣的任務的耗時）

文章圖片
制作石鎬
然后我們來看看， OpenAI的專家們是怎么進行的微調(diào) 。
他們使用的辦法是，強化學習（RL）。
大多數(shù)RL方法通過隨機探索先驗來解決這些挑戰(zhàn) ，例如模型通常被激勵通過熵獎勵隨機行動。 VPT模型應該是RL更好的先驗模型，因為模擬人類行為可能比采取隨機行動更有幫助。
研究人員將模型設置為收集鉆石鎬這類艱巨任務，這是「我的世界」中前所未有的功能，因為執(zhí)行整個任務時使用本機人機界面時會變得更加困難。
制作鉆石鎬需要一系列漫長而復雜的子任務。為了使這項任務易于處理，研究人員為序列中的每個項目獎勵智能體。

欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

訓練7萬小時后，OpenAI的模型竟然學會在「我的世界」里刨木頭( 二 )

相關經(jīng)驗推薦

紅米手機|1500-2000元哪款手機性價比最高？別瞎買！我只推薦這五款全能王

哪些人吃粗糧會致癌？吃粗糧會致癌的人有哪些？

安徽美食主要有什么安徽各地都有什么美食推薦

香腸怎么做甜品香腸如何做甜品

沃柑和蘆柑的區(qū)別圖片沃柑和蘆柑的區(qū)別

蒸洋蔥水的做法蒸洋蔥水的做法視頻

小兒腹瀉吃什么好？

桑木家具圖片桑木能不能放家里

快手最火社會簡短句子快手社會經(jīng)典語錄短句

王者榮耀手機推薦

簾重鵝掌簾重

王者:敵方秒選李信怎么辦?放棄羋月,別用呂布,他天克李信

2023年南京臨近高考身份證丟了怎么辦高考期間身份證丟了怎么辦

蜂蜜柚子茶可以空腹喝嗎？蜂蜜柚子茶怎么做才好喝？

可莉|原神：琴團長很強？開玩笑，把可莉逼急了，可以毀滅蒙德十次！

霸氣又好聽的名字男生微信什么微信名霸氣又好聽男生

怎么免費看收費的電視劇怎樣才能看免費不要錢的電視劇?

生板栗如何做才好吃竅門生板栗如何做才好吃

“殺豬流”夏侯惇火了，這件1830是核心，又肉攻擊又高

討論市政工程造價管理中的索賠管理