日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

~handsome,如何創(chuàng)建數(shù)據(jù)集市

大數(shù)據(jù)架構(gòu)有哪些?應(yīng)該如何理解?

~handsome,如何創(chuàng)建數(shù)據(jù)集市


BI系統(tǒng) , 大概的架構(gòu)圖如下:核心的模塊是Cube , Cube是一個(gè)更高層的業(yè)務(wù)模型抽象 , 在Cube之上可以進(jìn)行多種操作 。大部分BI系統(tǒng)都基于關(guān)系型數(shù)據(jù)庫 , 關(guān)系型數(shù)據(jù)庫使用SQL語句進(jìn)行操作 , 但是SQL在多維操作和分析的表示能力上相對較弱 , 所以Cube有自己獨(dú)有的查詢語言MDX , MDX表達(dá)式具有更強(qiáng)的多維表現(xiàn)能力 , 所以以Cube為核心的分析系統(tǒng)基本占據(jù)著數(shù)據(jù)統(tǒng)計(jì)分析的半壁江山 , 大多數(shù)的數(shù)據(jù)庫服務(wù)廠商直接提供了BI套裝軟件服務(wù) , 輕易便可搭建出一套Olap分析系統(tǒng) 。
以Hadoop體系為首的大數(shù)據(jù)分析平臺(tái):Hadoop體系的生態(tài)圈也不斷的變大 , 目前圍繞Hadoop體系的大數(shù)據(jù)架構(gòu)大概有以下幾種:傳統(tǒng)大數(shù)據(jù)架構(gòu)其定位是為了解決傳統(tǒng)BI的問題 , 簡單說 , 數(shù)據(jù)分析的業(yè)務(wù)沒有發(fā)生任何變化 , 依然保留了ETL的動(dòng)作 , 將數(shù)據(jù)經(jīng)過ETL動(dòng)作進(jìn)入數(shù)據(jù)存儲(chǔ) 。適用場景:數(shù)據(jù)分析需求依舊以BI場景為主 , 但是因?yàn)閿?shù)據(jù)量、性能等問題無法滿足日常使用 。
流式架構(gòu)在傳統(tǒng)大數(shù)據(jù)架構(gòu)的基礎(chǔ)上 , 流式架構(gòu)非常激進(jìn) , 直接拔掉了批處理 , 數(shù)據(jù)全程以流的形式處理 , 所以在數(shù)據(jù)接入端沒有了ETL , 轉(zhuǎn)而替換為數(shù)據(jù)通道 。經(jīng)過流處理加工后的數(shù)據(jù) , 以消息的形式直接推送給了消費(fèi)者 。雖然有一個(gè)存儲(chǔ)部分 , 但是該存儲(chǔ)更多的以窗口的形式進(jìn)行存儲(chǔ) , 所以該存儲(chǔ)并非發(fā)生在數(shù)據(jù)湖 , 而是在外圍系統(tǒng) 。
【~handsome,如何創(chuàng)建數(shù)據(jù)集市】適用場景:預(yù)警 , 監(jiān)控 , 對數(shù)據(jù)有有效期要求的情況 。Lambda架構(gòu)Lambda架構(gòu)算是大數(shù)據(jù)系統(tǒng)里面舉足輕重的架構(gòu) , 大多數(shù)架構(gòu)基本都是Lambda架構(gòu)或者基于其變種的架構(gòu) 。Lambda的數(shù)據(jù)通道分為兩條分支:實(shí)時(shí)流和離線 。實(shí)時(shí)流依照流式架構(gòu) , 保障了其實(shí)時(shí)性 , 而離線則以批處理方式為主 , 保障了最終一致性 。流式通道處理為保障實(shí)效性更多的以增量計(jì)算為主輔助參考 , 而批處理層則對數(shù)據(jù)進(jìn)行全量運(yùn)算 , 保障其最終的一致性 , 因此Lambda最外層有一個(gè)實(shí)時(shí)層和離線層合并的動(dòng)作 , 此動(dòng)作是Lambda里非常重要的一個(gè)動(dòng)作 , 大概的合并思路如下:適用場景:同時(shí)存在實(shí)時(shí)和離線需求的情況 。
Kappa架構(gòu)Kappa架構(gòu)在Lambda 的基礎(chǔ)上進(jìn)行了優(yōu)化 , 將實(shí)時(shí)和流部分進(jìn)行了合并 , 將數(shù)據(jù)通道以消息隊(duì)列進(jìn)行替代 。因此對于Kappa架構(gòu)來說 , 依舊以流處理為主 , 但是數(shù)據(jù)卻在數(shù)據(jù)湖層面進(jìn)行了存儲(chǔ) , 當(dāng)需要進(jìn)行離線分析或者再次計(jì)算的時(shí)候 , 則將數(shù)據(jù)湖的數(shù)據(jù)再次經(jīng)過消息隊(duì)列重播一次則可 。適用場景:和Lambda類似 , 改架構(gòu)是針對Lambda的優(yōu)化 。
Unifield架構(gòu)Unifield架構(gòu)更激進(jìn) , 將機(jī)器學(xué)習(xí)和數(shù)據(jù)處理揉為一體 , 從核心上來說 , Unifield依舊以Lambda為主 , 不過對其進(jìn)行了改造 , 在流處理層新增了機(jī)器學(xué)習(xí)層 。可以看到數(shù)據(jù)在經(jīng)過數(shù)據(jù)通道進(jìn)入數(shù)據(jù)湖后 , 新增了模型訓(xùn)練部分 , 并且將其在流式層進(jìn)行使用 。同時(shí)流式層不單使用模型 , 也包含著對模型的持續(xù)訓(xùn)練 。
適用場景:有著大量數(shù)據(jù)需要分析 , 同時(shí)對機(jī)器學(xué)習(xí)方便又有著非常大的需求或者有規(guī)劃 。相關(guān):輿情大數(shù)據(jù)系統(tǒng)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn):https://www.toutiao.com/i6537119210336682510/大數(shù)據(jù)架構(gòu)的分析應(yīng)用:https://www.toutiao.com/i6613946595891216910/ 。

推薦閱讀