欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭( 二 )


這東西說新也新 , 但是卻并不復雜 , 是一種半監(jiān)督式的模仿學習方法 。
首先 , 收集一波數(shù)據(jù)標注外包們玩游戲的數(shù)據(jù) , 其中包含視頻和鍵鼠操作的記錄 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
VPT方法概述
然后 , 研究人員用這些數(shù)據(jù)搞了個逆動力學模型(inversedynamicsmodel , IDM) , 可以推測出視頻中每一步進行的時候 , 鍵鼠都是怎么動的 。
這樣一來 , 整個任務就變得簡單多了 , 只需要比原來少很多的數(shù)據(jù)就可以實現(xiàn)目的 。
用一小撮外包數(shù)據(jù)搞完IDM之后 , 就可以用IDM接下來標注更大規(guī)模的無標記數(shù)據(jù)集了 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
基礎模型訓練數(shù)據(jù)對微調(diào)的影響
在訓練了70000個小時以后 , OpenAI的行為克隆模型就能實現(xiàn)各種別的模型做不到的工作了 。
模型學會了怎么砍樹收集木頭 , 怎么用木頭做木條 , 怎么用木條做桌子 。 而這一套事兒需要一個比較熟練的玩家操作小50秒的時間 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
除了做桌子 , 模型還能游泳 , 打獵 , 吃東西 。
甚至還有「跑跳搭」的騷操作 , 也就是起跳的時候腳下放個磚塊或者木塊 , 跳著跳著就能搭個柱子 。 這屬于是骨灰級玩家的必修課了 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
制作桌子(0shot)
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
打獵(0shot)
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
「跑跳搭」簡陋版(0shot)
而為了讓模型能完成一些更精細的任務 , 一般還會把數(shù)據(jù)集微調(diào)成更小的規(guī)模 , 區(qū)分細小的方向 。
OpenAI做了一項研究 , 展示了用VPT訓練過的模型 , 再經(jīng)過了微調(diào)之后 , 有多適應下游的數(shù)據(jù)集 。
研究人員邀請人玩兒了10分鐘的「我的世界」 , 用基礎材料搭了個房子 。 他們希望通過這種方式可以加強模型執(zhí)行一些游戲初期的任務的能力 , 比如說搭一個工作臺 。
當對該數(shù)據(jù)集進行完微調(diào)以后 , 研究人員不僅發(fā)現(xiàn)模型在執(zhí)行初期任務時更加得心應手 , 還發(fā)現(xiàn)模型自個兒研究明白了怎么分別做出一張木制的工作臺 , 和一張石制的工具臺 。
有時候 , 研究人員還能看到模型自己搭建簡陋的避難所 , 搜查村子 , 還有搶箱子 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
制作一把石鎬的全過程(下方標注的時間是一名熟練玩家執(zhí)行同樣的任務的耗時)
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
制作石鎬
然后我們來看看 , OpenAI的專家們是怎么進行的微調(diào) 。
他們使用的辦法是 , 強化學習(RL) 。
大多數(shù)RL方法通過隨機探索先驗來解決這些挑戰(zhàn) , 例如模型通常被激勵通過熵獎勵隨機行動 。 VPT模型應該是RL更好的先驗模型 , 因為模擬人類行為可能比采取隨機行動更有幫助 。
研究人員將模型設置為收集鉆石鎬這類艱巨任務 , 這是「我的世界」中前所未有的功能 , 因為執(zhí)行整個任務時使用本機人機界面時會變得更加困難 。
制作鉆石鎬需要一系列漫長而復雜的子任務 。 為了使這項任務易于處理 , 研究人員為序列中的每個項目獎勵智能體 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭

相關經(jīng)驗推薦