日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

閑談大數(shù)據(jù)和算法,大數(shù)據(jù)算法

大數(shù)據(jù)的核心算法有哪些?

閑談大數(shù)據(jù)和算法,大數(shù)據(jù)算法

算法是指一切經(jīng)過明確定義的計(jì)算過程,其將某個(gè)或者某組值作為輸入內(nèi)容,并產(chǎn)生某個(gè)或者某組值作為輸出結(jié)果 。簡(jiǎn)單的說,我們可以將算法視為一系列用于解決某個(gè)任務(wù)的步驟 。大數(shù)據(jù)領(lǐng)域常用的算法有:CART算法、K-Means算法、AdaBoost算法、C4.5算法、PageRank算法、Apriori算法、EM算法、SVM算法、樸素貝葉斯算法等 。
大數(shù)據(jù)會(huì)常用到哪些算法知識(shí)?
閑談大數(shù)據(jù)和算法,大數(shù)據(jù)算法

目前大家想要學(xué)習(xí)大數(shù)據(jù)或者人工智能的東西,都是聽過不少,但是又不知道如何下手,感覺是一個(gè)非常模糊、抽象難懂的東西 。我常舉一個(gè)例子:水果大家都聽過,但是沒見過,你肯定會(huì)反駁我,我見過啊:香蕉、蘋果、橘子都是水果啊 。對(duì),今天今天我們就來聊聊,大數(shù)據(jù),聊聊大數(shù)據(jù)里面的“香蕉”、“蘋果”、“橘子”;如何找到這些“水果”?我建議最有效的就是去看大數(shù)據(jù)相關(guān)崗位的招聘要求,簡(jiǎn)單用近期一個(gè)朋友在朋友圈的招聘貼來找“水果”【有興趣的,趕緊簡(jiǎn)歷砸過去】:看上圖,解釋下:1、2、3這些基礎(chǔ)知識(shí)就不說了,任何一個(gè)計(jì)算機(jī)相關(guān)的同學(xué)肯定都知道這些基礎(chǔ)能力:計(jì)算機(jī)原理、數(shù)據(jù)結(jié)構(gòu)、網(wǎng)絡(luò)技術(shù)、信息論 等等 。
下面重點(diǎn)講講如下核心的“蘋果”:一、機(jī)器學(xué)習(xí)和模式識(shí)別:常用的算法,主要有以下幾個(gè),工程中很多應(yīng)用都是從這些基礎(chǔ)算法改進(jìn)整合來的,(想快速了解這些基礎(chǔ)算法,推薦一本超薄的書:李航《統(tǒng)計(jì)學(xué)習(xí)方法》,可以用來overview,或者精讀都可以):1、回歸算法2、神經(jīng)網(wǎng)絡(luò)3、SVM(支持向量機(jī))4、聚類算法5、降維算法 6、推薦算法除了如上幾種算法外,機(jī)器學(xué)習(xí)界還有其他的如高斯判別,樸素貝葉斯,決策樹等等算法 。
但是上面列的六個(gè)算法是使用最多,影響最廣,種類最全的典型 。下面做一個(gè)總結(jié),按照訓(xùn)練的數(shù)據(jù)有無標(biāo)簽,可以將上面算法分為監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法,但推薦算法較為特殊,既不屬于監(jiān)督學(xué)習(xí),也不屬于非監(jiān)督學(xué)習(xí),是單獨(dú)的一類 。監(jiān)督學(xué)習(xí)算法:線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),SVM無監(jiān)督學(xué)習(xí)算法:聚類算法,降維算法特殊算法:推薦算法除了這些算法以外,有一些算法的名字在機(jī)器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn) 。
但他們本身并不算是一個(gè)機(jī)器學(xué)習(xí)算法,而是為了解決某個(gè)子問題而誕生的 。你可以理解他們?yōu)橐陨纤惴ǖ淖铀惴?,用于大幅度提高?xùn)練過程 。其中的代表有:梯度下降法,主要運(yùn)用在線型回歸,邏輯回歸,神經(jīng)網(wǎng)絡(luò),推薦算法中;牛頓法,主要運(yùn)用在線型回歸中;BP算法,主要運(yùn)用在神經(jīng)網(wǎng)絡(luò)中;SMO算法,主要運(yùn)用在SVM中二、自然語言處理:一般來說,自然語言處理的目的是讓機(jī)器能夠執(zhí)行人類所期望的某些語言功能自然語言處理是人工智能的終極發(fā)展目標(biāo),大概可以分為人類語言的處理(語言學(xué))和機(jī)器語言的翻譯 。
其大致流程是語音識(shí)別與合成---語音分析、詞法分析、句法分析、語義分析、語用分析 。算法可以參考:http://www.360doc.com/content/17/0119/19/35472060_623543541.shtml應(yīng)用中常常會(huì)用到這個(gè)算法:TF-IDF(詞頻-逆文檔頻率)算法是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫(kù)中的其中一份文件的重要程度 。
http://blog.csdn.net/lionel_fengj/article/details/53699903三、知識(shí)圖譜:這一塊我沒有認(rèn)真深入了解過,算法的部分,感興趣可以去檢索下 。以上 ,千里之行始于足下,大數(shù)據(jù)算法也不例外,把基礎(chǔ)扎實(shí)了,遇到工程問題,你自然會(huì)抽象出需要解決的問題,然后將其分解成基礎(chǔ)的算法問題,你可以作出你自己的算法 。

推薦閱讀