日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

自然語言處理全家福,nlp自然語言處理( 三 )


自然語言處理(NLP)中,中文和其他語言相比有什么特別之處?

自然語言處理全家福,nlp自然語言處理


NLP的目的是希望計算機能夠理解人類語言,并提供智能服務(wù) 。在中文的語言環(huán)境里,“詞”是構(gòu)成語法的基本單位,絕大多數(shù)的NLP任務(wù)都依賴分詞的結(jié)果 。中文和英文有很大的不同,英文是以空格作為分隔符的,而中文是字與字直接連接在一起,這就造成了中文分詞要比英文分詞難度要大的多了 。中文分詞經(jīng)歷了20多年的發(fā)展,一路上克服了各種困難,我梳理了一下主要4個難題:1. 中文語言里詞界定標(biāo)注不夠清晰和統(tǒng)一,比如:“改革開放”可以整體切分,也可以切分成“改革”和“開發(fā)” 。
【自然語言處理全家福,nlp自然語言處理】2. 人工規(guī)則和統(tǒng)計學(xué)習(xí)孰優(yōu)孰劣 。3. 中文歧義問題,比如:“乒乓球拍賣完了”可以切分成“乒乓球/ 拍賣/ 完/ 了”,也可以切分成“乒乓球拍/ 賣完/ 了“ 。4. 中文的新詞發(fā)現(xiàn),比如:各種網(wǎng)絡(luò)新詞、人名、品牌名等等 。綜上所述,中文的NLP要比英文類語言難很多,但中文分詞之后其實就與其它語言沒收什么太大的區(qū)別了 。

推薦閱讀