日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

屬于機(jī)器學(xué)習(xí)常見(jiàn)流程的是


屬于機(jī)器學(xué)習(xí)常見(jiàn)流程的是


品牌型號(hào):lenovo ThinkPad X250
系統(tǒng):Windows 10
軟件版本:
屬于機(jī)器學(xué)習(xí)常見(jiàn)流程的是


屬于機(jī)器學(xué)習(xí)常見(jiàn)流程的是數(shù)據(jù)獲取、特征提取、模型訓(xùn)練和驗(yàn)證、線下測(cè)試、線上測(cè)試 。
1、數(shù)據(jù)獲?。菏紫葟木€上拉取用戶(hù)真實(shí)數(shù)據(jù) , 用現(xiàn)有模型過(guò)一遍這些數(shù)據(jù)得到一些有用的信息作為標(biāo)注人員的一個(gè)參考 , 加快標(biāo)注速度;標(biāo)注完成后 , 數(shù)據(jù)入庫(kù)并解決沖突 , 沖突即是同一個(gè)query , 兩次標(biāo)注結(jié)果不一致 , 解決沖突的辦法一般是人工check , 得到一個(gè)更準(zhǔn)確的標(biāo)注;
2、特征抽取:NLP任務(wù)一般需要抽取數(shù)據(jù)的特征 , 如ngram、詞典特征、詞向量特征、上游模塊的輸出等 。一般離線和在線均需要特征抽取 , 所以離在線的這部分代碼是共用的 , 避免在線特征抽取和離線不一致 。抽取特征時(shí)有個(gè)小技巧是把能想到的特征均抽取出來(lái) , 并保存成文本文件 , 避免重復(fù)的執(zhí)行特征抽取的步驟 , 在實(shí)驗(yàn)的時(shí)候用mask的方式去屏蔽掉那些對(duì)模型沒(méi)用的特征 , 因?yàn)獒槍?duì)神經(jīng)網(wǎng)絡(luò)這樣的模型 , 值為0的特征一般不影響最終結(jié)果(如tanh/ReLU等 , 但sigmoid激活層可能會(huì)影響) 。這樣抽取出來(lái)的特征的格式一般還不能滿足機(jī)器學(xué)習(xí)框架的要求 , 通過(guò)腳本轉(zhuǎn)化成機(jī)器學(xué)習(xí)框架要求的格式即可 。
【屬于機(jī)器學(xué)習(xí)常見(jiàn)流程的是】3、模型訓(xùn)練和驗(yàn)證:常用的模型訓(xùn)練和驗(yàn)證步驟是:首先以一個(gè)簡(jiǎn)易的算法開(kāi)始 , 快速的進(jìn)行實(shí)現(xiàn) , 并在交叉驗(yàn)證集上進(jìn)行驗(yàn)證;然后畫(huà)出它的學(xué)習(xí)曲線 , 通過(guò)學(xué)習(xí)曲線確定是否更多的數(shù)據(jù)或者更多的特征會(huì)對(duì)模型的優(yōu)化有幫助 。接著人為地檢測(cè)交叉驗(yàn)證集中被錯(cuò)誤的進(jìn)行分類(lèi)的或者預(yù)測(cè)的樣本的共同特征 , 從實(shí)際入手對(duì)模型進(jìn)行調(diào)整 , 不斷調(diào)整并驗(yàn)證在交叉驗(yàn)證集上的誤差 , 尋找最優(yōu)的結(jié)果 , 優(yōu)化模型 。
4、線下測(cè)試:指在模型驗(yàn)證有提升后 , 在測(cè)試集上測(cè)試模型的性能指標(biāo) 。線下測(cè)試可以將模型集成在應(yīng)用程序里測(cè)試 , 也可以單獨(dú)測(cè)試模型 。線下測(cè)試的指標(biāo)一般跟具體的業(yè)務(wù)需求相關(guān) , 包括:準(zhǔn)確率(accuracy)、精確率(precesion)、召回率(recall)、F1值等 。
5、線上測(cè)試:是模型上線后的測(cè)試 , 是跟業(yè)務(wù)緊密相關(guān)的一個(gè)指標(biāo) 。在實(shí)際工作中 , 一般先將版本上線至一個(gè)復(fù)制小流量環(huán)境 , 打到這個(gè)環(huán)境的流量同時(shí)也打到線上環(huán)境 , 然后同時(shí)取出線上環(huán)境的結(jié)果和復(fù)制小流量環(huán)境的結(jié)果 , 抽出兩者的diff , 人工做gsb(good bad same) , 即針對(duì)有diff的case , 人工標(biāo)注小流量好(good) , 還是線上好(bad) , 或者兩者打平(same) , 如果good多于bad , 說(shuō)明gsb通過(guò) , 可以上線供用戶(hù)體驗(yàn) 。這種方法與A/B testing類(lèi)似 。模型上到線上后 , 可以通過(guò)用戶(hù)行為反饋模型的好壞 , 如用戶(hù)點(diǎn)擊、pv等 。


    推薦閱讀