business,optimizing

內容算法時代 , 如何引爆用戶流量?

business,optimizing


對于算法分發很多人會有所誤解 , 這或許源自遠觀而缺乏了解 , 才會覺得算法猛如虎 。而當你走近了算法分發 , 有了一定的了解之后 , 可能會有重新的認知:算法如虎 , 細嗅薔薇 。一、算法分發知多少?盡管算法分發中應用了各種高深的算法 , 但其基礎原理卻是樸素的:更好地了解待推薦的內容 , 更好地了解要推薦給的人 , 才能更高效的完成內容與人之間的對接 。
從這個角度來看:斷物識人 , 是一切推薦行為的起點 。對于斷物識人 , 我們可以將它理解為打標簽的過程 。標簽是對高維事物的降維理解 , 抽象出了事物更具有表意性、更為顯著的特點 。在不同的業務場景下 , 我們會選擇不同的標簽進行使用 , 來對內容和用戶進行標注 。在內容畫像層面 , 以音樂為例 , 最典型的有兩種標簽產出的方式:專家系統:潘多拉(Pandora)的音樂基因工程(Music Genome Project) 。
在這項工程中 , 歌曲體系被抽離出450個標簽 , 細化到如主唱性別、電吉他失真程度、背景和聲類型等等 。每一首歌曲都會被經由工作人員耗時30分鐘左右 , 有選擇性標注一些標簽 , 并以從0到5的分值代表這一標簽的表征程度 。UGC產出:在豆瓣 , 給音樂打標簽的活則從專家產出 , 轉為了普通網友貢獻 。群體的力量為豆瓣積累了大量具有語義表意性的標簽 。
當然 , 由于用戶的多樣性和編輯的開放性 , 用戶標簽系統需要經過特定的清洗和歸一化才能投入使用 。在用戶畫像層面 , 可以分為靜態和動態兩部分 。用戶畫像中靜態的部分比較好理解 , 即你的設備信息、地理位置、注冊信息等等 , 這些可以被理解為是業務無關的信息 。具體到業務場景中 , 用戶產生了更多的行為 , 就生成了業務相關的動態信息 , 即利用人的各種顯式和隱式行為來對用戶的偏好性進行的猜測 。
以知乎讀書會為例 , 你的顯式行為是點擊、收聽、評分、評論等等;隱形行為則是收聽完成度、是否有拖拽快進、頁面停留時長等等 。通常 , 由于顯式行為不夠豐富 , 我們往往需要使用隱式行為來擴充我們對于用戶的理解 。完播率、是否快進、詳情頁停留時長等指標 , 都會被系統統計 , 用來判斷你是否真的喜歡某個人的講解、喜歡某本書的內容 。
在內容畫像的部分 , 可以看到一篇文章通過文本分析進行了一級和二級分類 , 并抽取出文章內的關鍵字、實體詞 , 進一步的還會通過聚類的方式 , 將這篇文章與其相似的內容聚成一個簇類 。之所以會有聚類 , 是因為專家系統的分類體系一定是對于變化不敏感的 , 響應不及時的 , 而聚類能夠挖掘出更多內容的隱含信息 。在用戶畫像的部分:(摘錄自今日頭條推薦算法原理全文詳解——曹歡歡博士)內容畫像和用戶畫像 , 是一個相互影響的循環系統 。
內容畫像決定人的畫像 , 自然是最容易理解的 。在音樂場景下 , 你收聽、收藏、評分了很多爵士類的音樂 , 那么系統就會判定為你是一個喜歡爵士音樂的用戶 。在讀書的場景下 , 你閱讀、收聽了哪些書籍 , 哪些書籍聽完了、哪些書籍重復收聽了很多遍 , 都會影響系統中 , 你的用戶畫像 。因此 , “你的選擇決定你的畫像”可以說絲毫不為過 。而反過來 , 人的畫像也會影響內容的畫像 。

推薦閱讀