日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

靠這個(gè)“譜”能讓機(jī)器人大腦運(yùn)轉(zhuǎn)起來(lái)( 二 )


孫樂(lè)的演示課件中, 有一張生動(dòng)的圖畫(huà), 一大摞文件紙吃進(jìn)去, 電腦馬上轉(zhuǎn)化為“知識(shí)”, 但事實(shí)遠(yuǎn)沒(méi)有那么簡(jiǎn)單 。 自動(dòng)抽取結(jié)構(gòu)化數(shù)據(jù)在不同行業(yè)還沒(méi)有統(tǒng)一的方案 。 在“百度知識(shí)圖譜”的介紹中這樣寫(xiě)道:對(duì)提交至知識(shí)圖譜的數(shù)據(jù)轉(zhuǎn)換為遵循Schema的實(shí)體對(duì)象, 并進(jìn)行統(tǒng)一的數(shù)據(jù)清洗、對(duì)齊、融合、關(guān)聯(lián)等知識(shí)計(jì)算, 完成圖譜的構(gòu)建 。 “但是大家發(fā)現(xiàn), 基于維基百科, 結(jié)構(gòu)化半結(jié)構(gòu)化數(shù)據(jù)挖掘出來(lái)的知識(shí)圖譜還是不夠, 因此目前所有的工作都集中在研究如何從海量文本中抽取知識(shí) 。 ”孫樂(lè)說(shuō), 例如谷歌的Knowledge Vault, 以及美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院主辦的TAC-KBP評(píng)測(cè), 也都在推進(jìn)從文本中抽取知識(shí)的技術(shù) 。
在權(quán)威的“知識(shí)庫(kù)自動(dòng)構(gòu)建國(guó)際評(píng)測(cè)”中, 從文本中抽取知識(shí)被分解為實(shí)體發(fā)現(xiàn)、關(guān)系抽取、事件抽取、情感抽取等4部分 。 在美國(guó)NIST組織的TAC-KBP中文評(píng)測(cè)中, 中科院軟件所—搜狗聯(lián)合團(tuán)隊(duì)獲得綜合性能指標(biāo)第3名, 事件抽取單項(xiàng)指標(biāo)第1名的好成績(jī) 。
“我國(guó)在這一領(lǐng)域可以和國(guó)際水平比肩 。 ”孫樂(lè)介紹, 中科院軟件所提出了基于Co-Bootstrapping的實(shí)體獲取算法, 基于多源知識(shí)監(jiān)督的關(guān)系抽取算法等, 大幅度降低了文本知識(shí)抽取工具構(gòu)建模型的成本, 并提升了性能 。
終極目標(biāo):將人類(lèi)知識(shí)全部結(jié)構(gòu)化
《圣經(jīng)·舊約》記載, 人類(lèi)聯(lián)合起來(lái)興建希望能通往天堂的高塔——“巴別塔”, 而今, 創(chuàng)造AI的人類(lèi)正在建造這樣一座“巴別塔”, 幫助人工智能企及人類(lèi)智能 。
自動(dòng)的做法讓知識(shí)量開(kāi)始形成規(guī)模, 達(dá)到了能夠支持實(shí)際應(yīng)用的量級(jí) 。 “但是這種轉(zhuǎn)化, 還遠(yuǎn)遠(yuǎn)未達(dá)到人類(lèi)的知識(shí)水平 。 ”孫樂(lè)說(shuō), 何況人類(lèi)的知識(shí)一直在增加、更新, 一直在動(dòng)態(tài)變化, 理解也應(yīng)該與時(shí)俱進(jìn)地體現(xiàn)在機(jī)器“腦”中 。
“因此知識(shí)圖譜不會(huì)是一個(gè)靜止的狀態(tài), 而是要形成一個(gè)循環(huán), 這也是美國(guó)卡耐基梅隆大學(xué)等地方提出來(lái)的Never Ending Learning(學(xué)無(wú)止境)的概念 。 ”孫樂(lè)說(shuō) 。
資料顯示, 目前谷歌知識(shí)圖譜中記載了超過(guò)35億事實(shí);Freebase中記載了4000多萬(wàn)實(shí)體, 上萬(wàn)個(gè)屬性關(guān)系, 24億多個(gè)事實(shí);百度百科記錄詞條數(shù)1000萬(wàn)個(gè), 百度搜索中應(yīng)用了聯(lián)想搜索功能 。
“在醫(yī)學(xué)領(lǐng)域、人物關(guān)系等特定領(lǐng)域, 也有專(zhuān)門(mén)的知識(shí)圖譜 。 ”孫樂(lè)介紹, Kinships描述人物之間的親屬關(guān)系, 104個(gè)實(shí)體, 26種關(guān)系, 10800個(gè)事實(shí);UMLS在醫(yī)學(xué)領(lǐng)域描述了醫(yī)學(xué)概念之間的聯(lián)系, 135個(gè)實(shí)體, 49種關(guān)系, 6800個(gè)事實(shí) 。
“這是一幅充滿(mǎn)美好前景的宏偉藍(lán)圖 。 ”孫樂(lè)說(shuō), 知識(shí)圖譜的最終目標(biāo)是將人類(lèi)的知識(shí)全部形式化、結(jié)構(gòu)化, 并用于構(gòu)建基于知識(shí)的自然語(yǔ)言理解系統(tǒng) 。
盡管令業(yè)內(nèi)滿(mǎn)意的“真正理解語(yǔ)言的系統(tǒng)”還遠(yuǎn)未出現(xiàn), 目前的“巴別塔”還只是在基礎(chǔ)層面, 但相關(guān)的應(yīng)用已經(jīng)顯示出廣闊的前景 。 例如, 在百度百科輸入“冷凍電鏡”, 右豎條的關(guān)聯(lián)將出現(xiàn)“施一公”, 輸入“撒幣”, 將直接在搜索項(xiàng)中出現(xiàn)“王思聰”等相關(guān)項(xiàng) 。 其中蘊(yùn)含著機(jī)器對(duì)人類(lèi)意圖的理解 。
“知識(shí)圖譜的應(yīng)用涉及到眾多行業(yè), 尤其是知識(shí)密集型行業(yè), 目前關(guān)注度比較高的領(lǐng)域:醫(yī)療、金融、法律、電商、智能家電等 。 ”孫樂(lè)介紹, 基于信息、知識(shí)和智能形成的閉環(huán), 從信息中獲取知識(shí), 基于知識(shí)開(kāi)發(fā)智能應(yīng)用, 智能應(yīng)用產(chǎn)生新的信息, 從新的信息中再獲取新的知識(shí), 不斷迭代, 就可以不斷產(chǎn)生更加豐富的知識(shí)圖譜, 更加智能的應(yīng)用 。

推薦閱讀