精品国产自在精品国产精华天,中文字幕一区二区三区久久网站 ,自拍偷区亚洲网友综合图片

下面我從技術(shù)的角度簡(jiǎn)單去講講我們的瓦力機(jī)器人怎么做的。這邊以答非所問(wèn)作為例子來(lái)簡(jiǎn)單的講一講。我們最早解決這個(gè)問(wèn)題的時(shí)候采用的是隨機(jī)森林的模型。什么是隨機(jī)森林呢？簡(jiǎn)單的來(lái)講，隨機(jī)森林就是用隨機(jī)的機(jī)制去產(chǎn)生很多分類(lèi)數(shù)組成的森林。它的分類(lèi)數(shù)就是把這個(gè)樣本放到每個(gè)數(shù)里去分類(lèi) 。舉個(gè)例子，就是知乎來(lái)討論一個(gè)問(wèn)題，知乎的寵物是狗還是狐。這樣就讓每個(gè)樹(shù)自己投票。在完成這個(gè)模型以后，我們?nèi)〉昧诉€不錯(cuò)的一個(gè)效果，它的準(zhǔn)確率能夠達(dá)到97% ，是一個(gè)非常高的準(zhǔn)確率。但是有兩個(gè)問(wèn)題，第一個(gè) ，它的召回率不高，只有58% ，不到60% 。這個(gè)召回率意味著什么呢，意味著我們會(huì)錯(cuò)過(guò)壞人，就把一些答非所問(wèn)的回答放到線上去了。這樣的話這樣的回答給用戶帶來(lái)不好的體驗(yàn) ，所以召回率是我們很在意的東西。另外，這個(gè)模型會(huì)用到用戶的行為統(tǒng)計(jì)特征，也就是說(shuō) ，就是需要去看有多少用戶對(duì)這個(gè)進(jìn)行了點(diǎn)擊回答或者點(diǎn)擊舉報(bào)的特征。這個(gè)特征有什么問(wèn)題，用了這個(gè)特征，如果對(duì)一個(gè)新的回答做分類(lèi)判斷是不是答非所問(wèn)的時(shí)候必須放到線上觀察一段時(shí)間，看看線上對(duì)它的點(diǎn)擊量反對(duì)或者舉報(bào) 。這就出問(wèn)題了，因?yàn)樗暇€了。如果真的是一個(gè)答非所問(wèn)的話，看到這個(gè)回答的用戶他的體驗(yàn)其實(shí)就已經(jīng)受到了傷害，這個(gè)時(shí)間差是存在的。我們就開(kāi)發(fā)了一個(gè)模型，這個(gè)模型是基于卵生模型的思路，這個(gè)思路是去提升網(wǎng)絡(luò)結(jié)構(gòu)的表達(dá)能力。同時(shí)對(duì)特征進(jìn)行選取的時(shí)候也做了很多仔細(xì)的考慮，去避免使用前面所說(shuō)的用戶行為的統(tǒng)計(jì)特征。最后的結(jié)果是這樣，我們?cè)谡倩芈噬嫌辛艘粋€(gè)非常大的提升，從60%提升到80% 。同時(shí)任何一個(gè)回答只要發(fā)出來(lái) ，很快就能夠被分類(lèi) 。是還是不是一個(gè)答非所問(wèn) 。當(dāng)然它也有缺點(diǎn) ，它的準(zhǔn)確率下降了，但是在這個(gè)場(chǎng)景我們可以結(jié)合其他的業(yè)務(wù)策略來(lái)彌補(bǔ)這個(gè)差距。所以最后我們就把新的模型上線了，去替代了老的模型。
我們算法團(tuán)隊(duì)在這個(gè)月發(fā)表了三篇文章，在知乎專欄上比較詳細(xì)的闡述了知乎在瓦力機(jī)器人的工作，其中包括了這部分的工作。大家感興趣的話可以上知乎專欄看一看。
我這里還想再跟大家同步一下，知乎在陰陽(yáng)怪氣這個(gè)領(lǐng)域的識(shí)別的一些實(shí)踐。這個(gè)工作還沒(méi)有做完，但是我特別想跟大家同步，因?yàn)檫@是一個(gè)非常難的問(wèn)題，也非常有意思。陰陽(yáng)怪氣就是反諷。我們處理的思路，首先還是要基于深層語(yǔ)義理解，也就是語(yǔ)義分析這個(gè)工作。但是這個(gè)是不夠的。因?yàn)閺奈覀兊膶?shí)踐來(lái)看，往往一句話，同一句話如果是兩個(gè)好朋友之間發(fā)生的話，它有可能是插科打諢，打情罵俏。但是如果是兩個(gè)陌生人之間一定是有敵意或者不友善的。所以基于這樣的思考我們會(huì)從兩個(gè)方向去綜合判斷。反諷這個(gè)問(wèn)題之所以要跟大家分享，是因?yàn)樗乔楦蟹治鲱I(lǐng)域的前沿問(wèn)題，它很難。因?yàn)榉粗S是一種完全正面的詞語(yǔ)去表達(dá)負(fù)面的意思，是一個(gè)很高級(jí)的修辭手法，機(jī)器人很難明白的。像謝爾頓作為物理學(xué)家，他的智商在全人類(lèi)排名前10 ，他也常常聽(tīng)不懂別人對(duì)他的諷刺。
在訓(xùn)練中我們會(huì)把內(nèi)容本身的特征盡可能的feed到模型中去，包括像文本特征，一些數(shù)值特征，還有像反諷詞表，以及一些表現(xiàn)符特征等等。但是不會(huì)把用戶統(tǒng)計(jì)特征放進(jìn)去，這個(gè)理由和前面是一樣的。我們使用的網(wǎng)絡(luò)拓?fù)淠Ｐ褪褂玫腃NN和LSTL的結(jié)合。最關(guān)鍵的其實(shí)是最后一部分，我們?cè)诜诸?lèi)層是用知乎層大量一致的語(yǔ)料產(chǎn)生標(biāo)準(zhǔn)數(shù)據(jù) ，這就是我前面講的用戶行為。舉個(gè)例子，簡(jiǎn)單的說(shuō) ，如果一個(gè)評(píng)論有很多好的用戶，他們都進(jìn)行了反對(duì) ，可能我們認(rèn)為這就是一個(gè)負(fù)向的。如果另外一個(gè)評(píng)論有很多用戶點(diǎn)了贊同，它可能就是正向的。基于這個(gè)我們可以構(gòu)建大量的一個(gè)標(biāo)注數(shù)據(jù) 。這樣一個(gè)方案我們現(xiàn)在還在開(kāi)發(fā)過(guò)程中，有結(jié)果后我們會(huì)發(fā)布到知乎專欄上，大家也可以關(guān)注一下。當(dāng)然這個(gè)問(wèn)題比較難，可能我們還要解決很多細(xì)節(jié)問(wèn)題，時(shí)間可能會(huì)比較久。但是沒(méi)有關(guān)系，我們相信知乎通過(guò)這種龐大的高質(zhì)量用戶行為的學(xué)習(xí)和分析，一定在語(yǔ)義和用戶關(guān)系這兩個(gè)層面上一個(gè)更深的建模和理解。能夠像在反諷前沿領(lǐng)域的突破，任何一個(gè)突破對(duì)中文互聯(lián)網(wǎng) ，甚至全球互聯(lián)網(wǎng)討論環(huán)境中都應(yīng)該有非常正面的作用。

知乎李大海：如何用AI技術(shù)打造智能社區(qū)( 三 )

推薦閱讀

頭發(fā)干枯的緩解方式

食之契約8月新活動(dòng)來(lái)襲新皮膚新外觀來(lái)襲

北京非現(xiàn)場(chǎng)違章去哪里復(fù)議

蟹鉗有絨毛的是什么螃蟹

曼珠沙華什么時(shí)候開(kāi)花

win7系統(tǒng)怎么安裝IIS

iPhonex還原后無(wú)法激活蘋(píng)果x還原后無(wú)法激活解決辦法

怎樣辨別塑料米線

蘋(píng)果手機(jī)主屏幕上的小球怎么設(shè)置

怎樣煎小河魚(yú)好吃？

206商桐路800處在哪里,桐柏縣2019.11.22事故調(diào)查報(bào)告

狗的淋巴瘤的原因？狗的淋巴瘤怎么能好

關(guān)于匡衡的成語(yǔ)

小米最新款藍(lán)牙耳機(jī),百元耳機(jī)也有實(shí)力派

武昌在哪里在哪個(gè)省

毛巾上有黃斑怎么回事，毛巾上有黃斑怎么去除