日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

知乎李大海:如何用AI技術打造智能社區(qū)( 二 )


我們要解決的問題都是自然語言領域處理的問題 , 也就是NLP的問題 。 其實AI在NLP領域是不如像圖片等等這樣一些領域的成果這么出色的 , 但是很幸運的是知乎積累了一個非常高質量的中文語料庫 。 我們擁有大量的優(yōu)質的提問跟回答的文本 。 同時用戶的行為本身在我們這兒也是非常重要的數據 。 這個怎么理解呢?用戶來知乎去生產和消費內容的時候 , 他們同時也在建設這個社區(qū) , 他們的行為本身就是社區(qū)體系的一部分 。 舉個例子 , 用戶對一個回答的贊同或者反對 , 他們對任何內容的舉報 , 他們對一個問題發(fā)起一個話題 , 或者對問題或者話題進行公共編輯 , 在某種程度上我們都可以把它認為是對相應文本語料進行標注 。 有了這樣標注數據以后 , 我們就能夠去利用有監(jiān)督的機器學習算法去得到一個更好的語義表示 , 從而能讓我們對語言的理解能夠達到一個更高的層次 。
另外這還是形成一個正向的閉環(huán) 。 因為我們的良好的社區(qū)氛圍 , 所以我們的用戶在知乎的行為大部分都是高質量的 。 有了這些高質量行為我們就會有高質量的標注數據 , 這就更有利于我們用AI算法維持或者提升我們的討論氛圍 。
另一方面 , 經過七年多的運營 , 知乎團隊已經培養(yǎng)了非常豐富的社區(qū)管理的經驗 。 我們已經認識到一個社區(qū)的規(guī)范 , 它不是制定出來的 , 它一定是平臺和用戶相互之間和摸索出來的 。 我們在這個過程中理解了不同用戶不同訴求 , 然后能讓我們規(guī)范去匹配復雜多變的各種場景 。 這樣一些豐富的經驗對于我們去把AI落地是非常有幫助的 。 因為它能夠把氛圍這個很虛無的大問題分解為很多小的目標明確的 , 可以解決的問題 , 降低這個問題的難度 。
給大家展示一些有傷害社區(qū)氛圍的例子 , 這些例子都是比較不好 , 我就不念了 。 第一種是答非所問 。 所謂的答非所問就是沒有答到點子里 , 離題萬里的回答 。 這些回答往往是沒有什么價值的信息 , 有些甚至只有情緒 。 所以讀者看到這樣不能獲得有效的信息 , 是在浪費的他們的時間 。 第二 , 不有效的評論 。 大家看到這些有效評論后 , 自己換位思考一下 , 如果自己是一位作者花了半天辛辛苦苦寫了一個回答 , 評論區(qū)都是這樣調調的回答 , 你們是什么感受 。 不是作者也沒關系 , 作為讀者看到每一個精彩的答案下面的討論區(qū)域都是這種烏煙瘴氣的氛圍 , 其實也不是一個良好的體驗 。 還有一種是陰陽怪氣 , 陰陽怪氣不算什么 , 但是根據我們的經驗它對于創(chuàng)作者的創(chuàng)作熱情 , 還有創(chuàng)作體驗的傷害更大 。 這個大家看看就可以了 。 當然損害社區(qū)氛圍的例子不僅僅是這些 , 我提這些只是給大家一個之滾的感性的認識 。 經過兩年多的工作 , 我們建設了一個算法機器人 , 叫瓦力 , 目前瓦力已經在線上能夠快速適時去響應去處理像答非所問和不友善的內容 , 像歧視 , 惡意貼標簽 , 辱罵等等低質內容 , 全力幫助我們知乎小管家團隊去減少低質內容和無關內容對用戶的干擾 。 給用戶提供人文關懷 。 我們這個機器人最好的遵守率能做到99.13% 。 我們在這個工作有兩個方向 , 第一 , 在不同的領域再進一步提高它的準確率和召回 , 第二 , 不斷提高瓦力機器人的適用范圍 。
瓦力機器人能力提升后面是離不開我們的用戶的 。 舉個例子 , 我們最近上線了一個理由反對的功能么測 , 這個功能有五萬名用戶參加了內測 。 所謂有理由反對就是用戶點擊反對的時候 , 同時選擇一下反對的理由 。 用戶每次選擇都是瓦力去學習的一些新的機會 。 我們在內測期間通過用戶選擇和瓦力結合一共梳理了超過兩萬條答非所問的回答 。

推薦閱讀