日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

矩陣補(bǔ)全的算法 矩陣補(bǔ)全原理

本文介紹的是ICLR2020入選論文《INDUCTIVE MATRIX COMPLETION BASED ON GRAPH NEURAL NETWORKS》(基于圖神經(jīng)網(wǎng)絡(luò)的歸納矩陣補(bǔ)全) 。文章來(lái)自華盛頓大學(xué)圣路易斯分校博士、Facebook AI 研究院研究科學(xué)家張牧涵 。
文 | 張牧涵
編 | 叢 末

矩陣補(bǔ)全的算法 矩陣補(bǔ)全原理


下載鏈接:
https://openreview.net/pdf?id=ByxxgCEYDS
代碼地址:
https://github.com/muhanzhang/IGMC
1 摘 要
矩陣補(bǔ)全(Matrix Completion)被廣泛應(yīng)用于推薦系統(tǒng)中 。傳統(tǒng)的矩陣分解(Matrix Factorization)方法為轉(zhuǎn)導(dǎo)推理模型(Transductive Model),所學(xué)習(xí)到的embedding不能推廣到訓(xùn)練集中未出現(xiàn)過(guò)的用戶(hù)(user)和商品(item) 。而 Inductive Matrix Completion (IMC) 模型使用內(nèi)容信息(content)來(lái)補(bǔ)全矩陣,缺點(diǎn)是對(duì)內(nèi)容的質(zhì)量要求很高,且在內(nèi)容質(zhì)量不好的情況下會(huì)導(dǎo)致遠(yuǎn)低于矩陣分解的性能 。
本文提出一種新的Inductive Graph-based Matrix Completion (IGMC) 模型,在保持歸納推理(inductive reasoning)的同時(shí),完全不借助任何內(nèi)容信息 。能不借助內(nèi)容信息達(dá)成歸納推理的秘訣就在于子圖結(jié)構(gòu) 。IGMC為每一個(gè)(user, item) pair提取一個(gè)包含子圖(enclosing subgraph),并用圖神經(jīng)網(wǎng)絡(luò)(graph neural network)訓(xùn)練一個(gè)由子圖結(jié)構(gòu)映射到用戶(hù)對(duì)商品評(píng)分(rating)的回歸模型 。
IGMC在多個(gè)數(shù)據(jù)集上取得了最先進(jìn)的性能;它不僅能夠適用于沒(méi)在訓(xùn)練集中出現(xiàn)的用戶(hù)和商品,更可以遷移(transfer)到新數(shù)據(jù)上 。我們使用一個(gè)在MovieLens上訓(xùn)練的IGMC模型去預(yù)測(cè)豆瓣電影評(píng)分,取得了非常好的性能,甚至好于許多專(zhuān)門(mén)在豆瓣數(shù)據(jù)上訓(xùn)練的模型 。
2 動(dòng) 機(jī)
只要我們把每個(gè)user或item看成一個(gè)節(jié)點(diǎn)(node),每個(gè)rating看成一個(gè)邊(edge),則矩陣補(bǔ)全可以看成是在二分圖(bipartite graph)上的鏈路預(yù)測(cè)(link prediction)問(wèn)題 。不同于傳統(tǒng)鏈路預(yù)測(cè)只關(guān)注預(yù)測(cè)存在性(link existence),這里我們要預(yù)測(cè)鏈路的值(link value),也就是用戶(hù)對(duì)商品的評(píng)分 。
首先,我們定義包含子圖(enclosing subgraph) 。對(duì)一個(gè)(user, item) pair,它們的h階包含子圖是由該user、 item,所有該user、 item的h-hop內(nèi)鄰接節(jié)點(diǎn)(包含h-hop),以及所有這些節(jié)點(diǎn)之間的邊組成的圖 。這樣的一個(gè)包含子圖內(nèi)存在大量對(duì)于預(yù)測(cè)評(píng)分有用的信息 。舉例來(lái)說(shuō),即使只用一階包含子圖,我們也可以獲得比如用戶(hù)平均評(píng)分、商品平均評(píng)分、商品累計(jì)評(píng)價(jià)次數(shù),以及大量的基于路徑(path)等的結(jié)構(gòu)信息 。參加圖一 。
一個(gè)簡(jiǎn)單的基于路徑的結(jié)構(gòu)特征如下,假如我們想知道用戶(hù)u0對(duì)于商品v0的評(píng)分,我們可以看有多少和u0品味相似的用戶(hù)u1對(duì)v0打了高分;而品味相似可以用是否這個(gè)u1和u0曾經(jīng)都給某個(gè)其它的商品v1打過(guò)高分 ??偨Y(jié)下來(lái),這樣的一個(gè)路徑特征即為:
矩陣補(bǔ)全的算法 矩陣補(bǔ)全原理


我們可以通過(guò)查有多少這樣的路徑來(lái)估算u0是否會(huì)給v0高分 。而且,所有這樣的路徑都被包含在一階包含子圖(1-hop enclosing subgraph)中 。
矩陣補(bǔ)全的算法 矩陣補(bǔ)全原理


我們相信類(lèi)似這樣的結(jié)構(gòu)特征數(shù)不勝數(shù) 。因此,與其手動(dòng)定義大量這樣的啟發(fā)式特征(heuristics),不如直接將一階包含子圖輸入給一個(gè)圖神經(jīng)網(wǎng)絡(luò),用圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的圖特征學(xué)習(xí)能力來(lái)自動(dòng)學(xué)習(xí)更通用的、更有表達(dá)能力的特征 。我們使用圖神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)由包含子圖映射到評(píng)分的回歸模型,實(shí)驗(yàn)證明,這種新的方法可以精確地預(yù)測(cè)評(píng)分 。
3 方 法
提取每個(gè)包含子圖后,我們首先要對(duì)其中的節(jié)點(diǎn)進(jìn)行標(biāo)注(node labeling) 。目的是為了區(qū)分子圖中節(jié)點(diǎn)的不同角色 。比如我們要區(qū)分目標(biāo)節(jié)點(diǎn)(target user/item)和背景節(jié)點(diǎn) (context nodes) 。目標(biāo)節(jié)點(diǎn)標(biāo)示出我們到底要預(yù)測(cè)子圖中哪一對(duì)(user, item)之間的評(píng)分 。同時(shí),我們可以區(qū)分不同階的鄰居節(jié)點(diǎn),比如一階鄰居(1-hop neighbors)和二階鄰居(2-hop neighbors)對(duì)目標(biāo)節(jié)點(diǎn)的貢獻(xiàn)程度并不相同 。

推薦閱讀