日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

阿里網(wǎng)盤優(yōu)質(zhì)資源分享 阿里云管理控制臺(tái)

背景數(shù)據(jù)湖當(dāng)前在國(guó)內(nèi)外是比較熱的方案,MarketsandMarkets市場(chǎng)調(diào)研顯示預(yù)計(jì)數(shù)據(jù)湖市場(chǎng)規(guī)模在2024年會(huì)從2019年的79億美金增長(zhǎng)到201億美金 。一些企業(yè)已經(jīng)構(gòu)建了自己的云原生數(shù)據(jù)湖方案,有效解決了業(yè)務(wù)痛點(diǎn);還有很多企業(yè)在構(gòu)建或者計(jì)劃構(gòu)建自己的數(shù)據(jù)湖,Gartner 2020年發(fā)布的報(bào)告顯示目前已經(jīng)有39%的用戶在使用數(shù)據(jù)湖,34%的用戶考慮在1年內(nèi)使用數(shù)據(jù)湖 。隨著對(duì)象存儲(chǔ)等云原生存儲(chǔ)技術(shù)的成熟,一開始大家會(huì)先把結(jié)構(gòu)化、半結(jié)構(gòu)化、圖片、視頻等數(shù)據(jù)存儲(chǔ)在對(duì)象存儲(chǔ)中 。當(dāng)需要對(duì)這些數(shù)據(jù)進(jìn)行分析時(shí),發(fā)現(xiàn)缺少面向分析的數(shù)據(jù)管理視圖,在這樣的背景下業(yè)界在面向云原生數(shù)據(jù)湖的元數(shù)據(jù)管理技術(shù)進(jìn)行了廣泛的探索和落地 。
一、元數(shù)據(jù)管理面臨的挑戰(zhàn)1、什么是數(shù)據(jù)湖
Wikipedia上說數(shù)據(jù)湖是一類存儲(chǔ)數(shù)據(jù)自然/原始格式的系統(tǒng)或存儲(chǔ),通常是對(duì)象塊或者文件,包括原始系統(tǒng)所產(chǎn)生的原始數(shù)據(jù)拷貝以及為了各類任務(wù)而產(chǎn)生的轉(zhuǎn)換數(shù)據(jù),包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(如email、文檔、PDF、圖像、音頻、視頻) 。
從上面可以總結(jié)出數(shù)據(jù)湖具有以下特性:

  • 數(shù)據(jù)來源:原始數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)
  • 數(shù)據(jù)類型:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、二進(jìn)制
  • 數(shù)據(jù)湖存儲(chǔ):可擴(kuò)展的海量數(shù)據(jù)存儲(chǔ)服務(wù)
2、數(shù)據(jù)湖分析方案架構(gòu)
當(dāng)數(shù)據(jù)湖只是作為存儲(chǔ)的時(shí)候架構(gòu)架構(gòu)比較清晰,在基于數(shù)據(jù)湖存儲(chǔ)構(gòu)建分析平臺(tái)過程中,業(yè)界進(jìn)行了大量的實(shí)踐,基本的架構(gòu)如下:

阿里網(wǎng)盤優(yōu)質(zhì)資源分享 阿里云管理控制臺(tái)


主要包括五個(gè)模塊:
  • 數(shù)據(jù)源:原始數(shù)據(jù)存儲(chǔ)模塊,包括結(jié)構(gòu)化數(shù)據(jù)(Database等)、半結(jié)構(gòu)化(File、日志等)、非結(jié)構(gòu)化(音視頻等)
  • 數(shù)據(jù)集成:為了將數(shù)據(jù)統(tǒng)一到數(shù)據(jù)湖存儲(chǔ)及管理,目前數(shù)據(jù)集成主要分為三種形態(tài) 。第一種為直接通過外表的方式關(guān)聯(lián)元數(shù)據(jù);第二種為基于ETL、集成工具、流式寫入模式,這種方式直接處理數(shù)據(jù)能夠感知Schema,在寫入數(shù)據(jù)的過程中同時(shí)創(chuàng)建元數(shù)據(jù);第三種為文件直接上傳數(shù)據(jù)湖存儲(chǔ),需要事后異步構(gòu)建元數(shù)據(jù)
  • 數(shù)據(jù)湖存儲(chǔ):目前業(yè)界主要使用對(duì)象存儲(chǔ)以及自建HDFS集群
  • 元數(shù)據(jù)管理:元數(shù)據(jù)管理,作為連接數(shù)據(jù)集成、存儲(chǔ)和分析引擎的總線
  • 數(shù)據(jù)分析引擎:目前有豐富的分析引擎,比如Spark、Hadoop、Presto等,他們通常通過對(duì)接元數(shù)據(jù)來獲得數(shù)據(jù)的Schema及路徑;同時(shí)比如Spark也支持直接分析存儲(chǔ)路徑,在分析過程中進(jìn)行元數(shù)據(jù)的推斷
我們可以看到元數(shù)據(jù)管理是數(shù)據(jù)湖分析平臺(tái)架構(gòu)的總線,面向數(shù)據(jù)生態(tài)要支持豐富的數(shù)據(jù)集成工具對(duì)接,面向數(shù)據(jù)湖存儲(chǔ)要進(jìn)行完善的數(shù)據(jù)管理,面向分析引擎要能夠提供可靠的元數(shù)據(jù)服務(wù) 。
3、元數(shù)據(jù)管理面臨的挑戰(zhàn)
元數(shù)據(jù)管理如此重要,但是當(dāng)前開源的方案不夠成熟,經(jīng)常會(huì)聽到大家關(guān)于元數(shù)據(jù)管理相關(guān)的討論,比如:
  • 有10來個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng),每種都去對(duì)接適配,每次都要配置賬密、路徑,真麻煩,有沒有統(tǒng)一的視圖?
  • 一個(gè)有200個(gè)字段的CSV文件,手動(dòng)寫出200個(gè)字段的DDL真的好累?JSON添加了字段每次都需要手動(dòng)處理下嗎?
  • 我的業(yè)務(wù)數(shù)據(jù),是否有被其他同學(xué)刪庫跑路的風(fēng)險(xiǎn)?
  • 分區(qū)太多了,每次分析在讀取分區(qū)上居然占用了那么多時(shí)間?
  • …..
4、業(yè)界數(shù)據(jù)湖元數(shù)據(jù)管理現(xiàn)狀
上面這些是大家在對(duì)數(shù)據(jù)湖進(jìn)行管理分析時(shí)遇到的典型問題 。這些問題其實(shí)都可以通過完善的元數(shù)據(jù)管理系統(tǒng)來解決,從元數(shù)據(jù)管理的視角可以總結(jié)為:

推薦閱讀