日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

知乎李大海:如何用AI技術(shù)打造智能社區(qū)( 三 )


下面我從技術(shù)的角度簡(jiǎn)單去講講我們的瓦力機(jī)器人怎么做的 。 這邊以答非所問(wèn)作為例子來(lái)簡(jiǎn)單的講一講 。 我們最早解決這個(gè)問(wèn)題的時(shí)候采用的是隨機(jī)森林的模型 。 什么是隨機(jī)森林呢?簡(jiǎn)單的來(lái)講 , 隨機(jī)森林就是用隨機(jī)的機(jī)制去產(chǎn)生很多分類(lèi)數(shù)組成的森林 。 它的分類(lèi)數(shù)就是把這個(gè)樣本放到每個(gè)數(shù)里去分類(lèi) 。 舉個(gè)例子 , 就是知乎來(lái)討論一個(gè)問(wèn)題 , 知乎的寵物是狗還是狐 。 這樣就讓每個(gè)樹(shù)自己投票 。 在完成這個(gè)模型以后 , 我們?nèi)〉昧诉€不錯(cuò)的一個(gè)效果 , 它的準(zhǔn)確率能夠達(dá)到97% , 是一個(gè)非常高的準(zhǔn)確率 。 但是有兩個(gè)問(wèn)題 , 第一個(gè) , 它的召回率不高 , 只有58% , 不到60% 。 這個(gè)召回率意味著什么呢 , 意味著我們會(huì)錯(cuò)過(guò)壞人 , 就把一些答非所問(wèn)的回答放到線上去了 。 這樣的話這樣的回答給用戶帶來(lái)不好的體驗(yàn) , 所以召回率是我們很在意的東西 。 另外 , 這個(gè)模型會(huì)用到用戶的行為統(tǒng)計(jì)特征 , 也就是說(shuō) , 就是需要去看有多少用戶對(duì)這個(gè)進(jìn)行了點(diǎn)擊回答或者點(diǎn)擊舉報(bào)的特征 。 這個(gè)特征有什么問(wèn)題 , 用了這個(gè)特征 , 如果對(duì)一個(gè)新的回答做分類(lèi)判斷是不是答非所問(wèn)的時(shí)候必須放到線上觀察一段時(shí)間 , 看看線上對(duì)它的點(diǎn)擊量反對(duì)或者舉報(bào) 。 這就出問(wèn)題了 , 因?yàn)樗暇€了 。 如果真的是一個(gè)答非所問(wèn)的話 , 看到這個(gè)回答的用戶他的體驗(yàn)其實(shí)就已經(jīng)受到了傷害 , 這個(gè)時(shí)間差是存在的 。 我們就開(kāi)發(fā)了一個(gè)模型 , 這個(gè)模型是基于卵生模型的思路 , 這個(gè)思路是去提升網(wǎng)絡(luò)結(jié)構(gòu)的表達(dá)能力 。 同時(shí)對(duì)特征進(jìn)行選取的時(shí)候也做了很多仔細(xì)的考慮 , 去避免使用前面所說(shuō)的用戶行為的統(tǒng)計(jì)特征 。 最后的結(jié)果是這樣 , 我們?cè)谡倩芈噬嫌辛艘粋€(gè)非常大的提升 , 從60%提升到80% 。 同時(shí)任何一個(gè)回答只要發(fā)出來(lái) , 很快就能夠被分類(lèi) 。 是還是不是一個(gè)答非所問(wèn) 。 當(dāng)然它也有缺點(diǎn) , 它的準(zhǔn)確率下降了 , 但是在這個(gè)場(chǎng)景我們可以結(jié)合其他的業(yè)務(wù)策略來(lái)彌補(bǔ)這個(gè)差距 。 所以最后我們就把新的模型上線了 , 去替代了老的模型 。
我們算法團(tuán)隊(duì)在這個(gè)月發(fā)表了三篇文章 , 在知乎專欄上比較詳細(xì)的闡述了知乎在瓦力機(jī)器人的工作 , 其中包括了這部分的工作 。 大家感興趣的話可以上知乎專欄看一看 。
我這里還想再跟大家同步一下 , 知乎在陰陽(yáng)怪氣這個(gè)領(lǐng)域的識(shí)別的一些實(shí)踐 。 這個(gè)工作還沒(méi)有做完 , 但是我特別想跟大家同步 , 因?yàn)檫@是一個(gè)非常難的問(wèn)題 , 也非常有意思 。 陰陽(yáng)怪氣就是反諷 。 我們處理的思路 , 首先還是要基于深層語(yǔ)義理解 , 也就是語(yǔ)義分析這個(gè)工作 。 但是這個(gè)是不夠的 。 因?yàn)閺奈覀兊膶?shí)踐來(lái)看 , 往往一句話 , 同一句話如果是兩個(gè)好朋友之間發(fā)生的話 , 它有可能是插科打諢 , 打情罵俏 。 但是如果是兩個(gè)陌生人之間一定是有敵意或者不友善的 。 所以基于這樣的思考我們會(huì)從兩個(gè)方向去綜合判斷 。 反諷這個(gè)問(wèn)題之所以要跟大家分享 , 是因?yàn)樗乔楦蟹治鲱I(lǐng)域的前沿問(wèn)題 , 它很難 。 因?yàn)榉粗S是一種完全正面的詞語(yǔ)去表達(dá)負(fù)面的意思 , 是一個(gè)很高級(jí)的修辭手法 , 機(jī)器人很難明白的 。 像謝爾頓作為物理學(xué)家 , 他的智商在全人類(lèi)排名前10 , 他也常常聽(tīng)不懂別人對(duì)他的諷刺 。
在訓(xùn)練中我們會(huì)把內(nèi)容本身的特征盡可能的feed到模型中去 , 包括像文本特征 , 一些數(shù)值特征 , 還有像反諷詞表 , 以及一些表現(xiàn)符特征等等 。 但是不會(huì)把用戶統(tǒng)計(jì)特征放進(jìn)去 , 這個(gè)理由和前面是一樣的 。 我們使用的網(wǎng)絡(luò)拓?fù)淠P褪褂玫腃NN和LSTL的結(jié)合 。 最關(guān)鍵的其實(shí)是最后一部分 , 我們?cè)诜诸?lèi)層是用知乎層大量一致的語(yǔ)料產(chǎn)生標(biāo)準(zhǔn)數(shù)據(jù) , 這就是我前面講的用戶行為 。 舉個(gè)例子 , 簡(jiǎn)單的說(shuō) , 如果一個(gè)評(píng)論有很多好的用戶 , 他們都進(jìn)行了反對(duì) , 可能我們認(rèn)為這就是一個(gè)負(fù)向的 。 如果另外一個(gè)評(píng)論有很多用戶點(diǎn)了贊同 , 它可能就是正向的 。 基于這個(gè)我們可以構(gòu)建大量的一個(gè)標(biāo)注數(shù)據(jù) 。 這樣一個(gè)方案我們現(xiàn)在還在開(kāi)發(fā)過(guò)程中 , 有結(jié)果后我們會(huì)發(fā)布到知乎專欄上 , 大家也可以關(guān)注一下 。 當(dāng)然這個(gè)問(wèn)題比較難 , 可能我們還要解決很多細(xì)節(jié)問(wèn)題 , 時(shí)間可能會(huì)比較久 。 但是沒(méi)有關(guān)系 , 我們相信知乎通過(guò)這種龐大的高質(zhì)量用戶行為的學(xué)習(xí)和分析 , 一定在語(yǔ)義和用戶關(guān)系這兩個(gè)層面上一個(gè)更深的建模和理解 。 能夠像在反諷前沿領(lǐng)域的突破 , 任何一個(gè)突破對(duì)中文互聯(lián)網(wǎng) , 甚至全球互聯(lián)網(wǎng)討論環(huán)境中都應(yīng)該有非常正面的作用 。

推薦閱讀