Optimizing,optimizing

內容算法時代,如何引爆用戶流量?

Optimizing,optimizing


對于算法分發很多人會有所誤解,這或許源自遠觀而缺乏了解,才會覺得算法猛如虎 。而當你走近了算法分發,有了一定的了解之后,可能會有重新的認知:算法如虎,細嗅薔薇 。一、算法分發知多少?盡管算法分發中應用了各種高深的算法,但其基礎原理卻是樸素的:更好地了解待推薦的內容,更好地了解要推薦給的人,才能更高效的完成內容與人之間的對接 。
從這個角度來看:斷物識人,是一切推薦行為的起點 。對于斷物識人,我們可以將它理解為打標簽的過程 。標簽是對高維事物的降維理解,抽象出了事物更具有表意性、更為顯著的特點 。在不同的業務場景下,我們會選擇不同的標簽進行使用,來對內容和用戶進行標注 。在內容畫像層面,以音樂為例,最典型的有兩種標簽產出的方式:專家系統:潘多拉(Pandora)的音樂基因工程(Music Genome Project) 。
在這項工程中,歌曲體系被抽離出450個標簽,細化到如主唱性別、電吉他失真程度、背景和聲類型等等 。每一首歌曲都會被經由工作人員耗時30分鐘左右,有選擇性標注一些標簽,并以從0到5的分值代表這一標簽的表征程度 。UGC產出:在豆瓣,給音樂打標簽的活則從專家產出,轉為了普通網友貢獻 。群體的力量為豆瓣積累了大量具有語義表意性的標簽 。
當然,由于用戶的多樣性和編輯的開放性,用戶標簽系統需要經過特定的清洗和歸一化才能投入使用 。在用戶畫像層面,可以分為靜態和動態兩部分 。用戶畫像中靜態的部分比較好理解,即你的設備信息、地理位置、注冊信息等等,這些可以被理解為是業務無關的信息 。具體到業務場景中,用戶產生了更多的行為,就生成了業務相關的動態信息,即利用人的各種顯式和隱式行為來對用戶的偏好性進行的猜測 。
以知乎讀書會為例,你的顯式行為是點擊、收聽、評分、評論等等;隱形行為則是收聽完成度、是否有拖拽快進、頁面停留時長等等 。通常,由于顯式行為不夠豐富,我們往往需要使用隱式行為來擴充我們對于用戶的理解 。完播率、是否快進、詳情頁停留時長等指標,都會被系統統計,用來判斷你是否真的喜歡某個人的講解、喜歡某本書的內容 。
在內容畫像的部分,可以看到一篇文章通過文本分析進行了一級和二級分類,并抽取出文章內的關鍵字、實體詞,進一步的還會通過聚類的方式,將這篇文章與其相似的內容聚成一個簇類 。之所以會有聚類,是因為專家系統的分類體系一定是對于變化不敏感的,響應不及時的,而聚類能夠挖掘出更多內容的隱含信息 。在用戶畫像的部分:(摘錄自今日頭條推薦算法原理全文詳解——曹歡歡博士)內容畫像和用戶畫像,是一個相互影響的循環系統 。
內容畫像決定人的畫像,自然是最容易理解的 。在音樂場景下,你收聽、收藏、評分了很多爵士類的音樂,那么系統就會判定為你是一個喜歡爵士音樂的用戶 。在讀書的場景下,你閱讀、收聽了哪些書籍,哪些書籍聽完了、哪些書籍重復收聽了很多遍,都會影響系統中,你的用戶畫像 。因此,“你的選擇決定你的畫像”可以說絲毫不為過 。而反過來,人的畫像也會影響內容的畫像 。
我們可以看作是基于用戶的行為,對內容做出的后驗投票 。在一個大體量的視頻上傳體系里,我們基本放棄了依賴人工打標簽的方式,而轉而利用用戶的播放行為來試圖猜測內容屬于哪一類 。一個典型的Case:死神來了 ??礃祟}的文本信息,最大概率就是一部電影,但事實上觀看這個視頻的大面積是喜歡獵奇類視頻的用戶,深挖內容才會知道,這其實是一個車禍視頻集錦 。

推薦閱讀