日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

如何構(gòu)建知識圖譜,知識圖譜構(gòu)建

構(gòu)建知識圖譜需要掌握一些工具,比如爬蟲、neo4j等等,掌握了工具,構(gòu)建知識圖并不困難,難在大數(shù)據(jù)源 。一類是開放域的知識圖譜,另一類是垂直領(lǐng)域的知識圖譜 。目前的知識圖譜分為兩類 。這些都是知識圖譜的構(gòu)成 。數(shù)據(jù)是阻礙構(gòu)建圖譜的最大絆腳石,只要有了數(shù)據(jù),利用neo4j或其他一些工具就能比較簡單的構(gòu)建出圖譜 。
知識圖譜是什么?

如何構(gòu)建知識圖譜,知識圖譜構(gòu)建


在人工智能時代,大家都在討論機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù),但如果你持續(xù)關(guān)注人工智能,你會發(fā)現(xiàn)知識圖譜這個概念也在被越來越多的人重拾 。而知識圖譜也確實是人工智能發(fā)展到一定廣度之后,向深度發(fā)展的重要依托工具 。傳統(tǒng)的搜索方式是基于關(guān)鍵詞,給出密密麻麻的網(wǎng)址排序,這種搜索方式并沒有真正理解我們的搜索意圖 。而結(jié)合了知識圖譜的搜索方式,其關(guān)鍵點在于“知識”,它集合于互聯(lián)網(wǎng)上的知識于一身,試圖去了解世界的真實含義,從信息檢索的層次轉(zhuǎn)變?yōu)橹R積累,因此知識圖譜建立認知的過程被看成是最能體現(xiàn)人工智能的方式之一,很像我們?nèi)祟惔竽X學(xué)習(xí)思考的過程,即由點及線,由線到面,一步步理清知識之間的邏輯 。
以百度這個全球最大的中文知識圖譜為力,其優(yōu)點可以簡單總結(jié)出以下三點:1)提供了一種新的搜索方式 。例如我們在搜索“地球質(zhì)量”的時候,百度內(nèi)涵的知識圖譜直接就顯示給我們答案,而不是以往那些隔靴搔癢的網(wǎng)頁 。2)以實體為中心建立豐富的聯(lián)系 。例如我們搜索“楊冪”,既能直接返回給我們楊冪個人信息,也能在右側(cè)推薦出跟楊冪相關(guān)的其他實體,并能顯示出實體與實體之間建立聯(lián)系的邏輯,即下圖中的推薦實體下方的推薦理由 。
1)能夠依據(jù)知識之間的邏輯進行簡單的推理,簡單的舉例如下圖所示 ?;谶壿嫷娜斯ぶ悄苁茿I的經(jīng)典想法,就是因為我們發(fā)現(xiàn)世界上的知識無法用邏輯真理描述,而且存在很多自相矛盾的情況,后來機器學(xué)習(xí)(Learning from Data)成了AI的主流,到了今天,我們發(fā)現(xiàn)機器學(xué)習(xí)也有一定的瓶頸,尤其是在問題三的邏輯推理 。
如何構(gòu)建知識圖譜?
如何構(gòu)建知識圖譜,知識圖譜構(gòu)建


目前的知識圖譜分為兩類 。一類是開放域的知識圖譜,另一類是垂直領(lǐng)域的知識圖譜 。首先就是要先處理數(shù)據(jù)互聯(lián)網(wǎng)上的數(shù)據(jù)基本上都是結(jié)構(gòu)化的,非結(jié)構(gòu)化的和半結(jié)構(gòu)化的 。結(jié)構(gòu)數(shù)據(jù)一般就是公司的業(yè)務(wù)數(shù)據(jù) 。這些數(shù)據(jù)都存儲到數(shù)據(jù)庫里,從庫里面抽取出來做一些簡單的預(yù)處理就可以拿來使用 。半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),比如對商品的描述,或是標(biāo)題,可能是一段文本或是一張圖片,這就是一些非結(jié)構(gòu)化數(shù)據(jù)了 。
但它里面是存儲了一些信息的,反映到的是知識圖譜里的一些屬性 。所以需要對它里面進行一個抽取,這是構(gòu)建知識圖譜中比較費時費力的一個工作 。從數(shù)據(jù)里需要抽取的其實就是之前所提到的實體、屬性、關(guān)系這些信息 。對于實體的提取就是NLP里面的命名實體識別 。這里相關(guān)的技術(shù)都比較成熟了,從之前傳統(tǒng)的人工詞典規(guī)則的方法,到現(xiàn)在機器學(xué)習(xí)的方法,還有深度學(xué)習(xí)的一些使用另外還需要做的是實體對齊和實體消歧 。
【如何構(gòu)建知識圖譜,知識圖譜構(gòu)建】關(guān)于實體對齊 。舉例來說,比爾蓋茨這四個字是中文名稱,Bill Gates是他的英文名稱,但其實這兩個指的是同一個人 。由于文本的不一樣,開始的時候?qū)е逻@是兩個實體 。這就需要我們對它進行實體對齊,把它統(tǒng)一化 。另外是實體消歧 。舉例來說,蘋果是一種水果,但是在某些上下文里面,它可能指的是蘋果公司 。這就是一個實體歧義,我們需要根據(jù)上下文對它進行實體消歧 。

推薦閱讀