日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

阿里網(wǎng)盤優(yōu)質資源分享 阿里云管理控制臺( 二 )


  • 如何構建數(shù)據(jù)的統(tǒng)一管理視圖:面向多種數(shù)據(jù)源需要有一套統(tǒng)一的數(shù)據(jù)管理模型,比如通過JDBC連接數(shù)據(jù)庫、通過云賬號授權管理對象存儲文件、一套Serde管理處理不同的數(shù)據(jù)格式處理方式等 。
  • 如何構建多租戶的權限管理:如果全域數(shù)據(jù)都使用數(shù)據(jù)湖方案管理,企業(yè)多部門研發(fā)人員共同使用數(shù)據(jù)湖挖掘價值,但是缺少有效的數(shù)據(jù)租戶及權限隔離,會產(chǎn)生數(shù)據(jù)風險;
  • 如何自動化的構建元數(shù)據(jù):通過ETL模式的數(shù)據(jù)集成工具寫入數(shù)據(jù)湖存儲時,對應工具知道數(shù)據(jù)Schema可以主動建元數(shù)據(jù),這樣就需要元數(shù)據(jù)服務有完善的開放接口 。但是在某些場景數(shù)據(jù)文件直接上傳到OSS存儲,且文件量巨大、數(shù)據(jù)動態(tài)增長變化;這種情況需要有一套被動推斷提取元數(shù)據(jù)的服務,做到Schema感知以及增量識別 。
  • 如何提供面向分析的優(yōu)化能力:比如海量分區(qū)的高效加載等 。
針對這些問題業(yè)界在做了大量的探索和實踐:
  • Hive Metastore:在Hadoop生態(tài)為了構建統(tǒng)一的管理視圖,用戶會在自己的Hadoop集群搭建HMS服務 。
  • AWS Glue Meta:提供多租戶的統(tǒng)一數(shù)據(jù)湖元數(shù)據(jù)管理服務,配套Serverless的元數(shù)據(jù)爬取技術生成元數(shù)據(jù) 。相關功能收費 。
  • Aliyun DLA Meta: Meta兼容Hive Metastore,支持云上15+種數(shù)據(jù)數(shù)據(jù)源(OSS、HDFS、DB、DW)的統(tǒng)一視圖,提供開放的元數(shù)據(jù)訪問服務,引入多租戶、元數(shù)據(jù)發(fā)現(xiàn)、對接HUDI等能力 。DLA Meta追求邊際成本為0,免費提供使用 。下面也將重點介紹DLA Meta的相關技術實現(xiàn) 。
二、云原生數(shù)據(jù)湖的元數(shù)據(jù)管理架構為了解決上面這些挑戰(zhàn),阿里云云原生數(shù)據(jù)湖分析服務DLA的元數(shù)據(jù)管理,支持統(tǒng)一的多租戶元數(shù)據(jù)管理視圖;數(shù)據(jù)模型兼容Hive Metastore;提供阿里云OpenAPI、Client、JDBC三種開放模式;同時提供元數(shù)據(jù)自動發(fā)現(xiàn)服務一鍵異步構建元數(shù)據(jù) 。下面是各個模塊的介紹:

阿里網(wǎng)盤優(yōu)質資源分享 阿里云管理控制臺


  • 統(tǒng)一元數(shù)據(jù)視圖:支持15+中數(shù)據(jù)源,OSS、HDFS、DB、DW等;并兼容Hive Metastore的數(shù)據(jù)模型,比如Schema、View、UDF、Table、Partition、Serde等,友好對接Spark、Hadoop、Hudi等生態(tài);
  • 豐富的開放模式:支持阿里云OpenAPi、Client、JDBC三種接口開放模式,方便生態(tài)工具及業(yè)務集成DLA Meta,比如可以開發(fā)Sqoop元數(shù)據(jù)插件對接OpenAPI,同步數(shù)據(jù)時構建元數(shù)據(jù);目前開源Apache Hudi支持通過JDBC方式對接DLA Meta;DLA內(nèi)置的Serverless Spark、Presto、Hudi支持通過Client模式對接DLA Meta;
  • 支持多租戶及權限控制:基于UID的多租戶機制進行權限的隔離,通過GRANT&REVOKE進行賬號間的權限管理 。
  • 支持水平擴展:為了滿足海量元數(shù)據(jù)的管理,服務本身是可以水平擴展,同時底層使用RDS&PolarDB的庫表拆分技術,支持存儲的擴展 。
  • 元數(shù)據(jù)發(fā)現(xiàn)服務:當數(shù)據(jù)入湖時沒有關聯(lián)元數(shù)據(jù),可以通過元數(shù)據(jù)發(fā)現(xiàn)服務一鍵自動關聯(lián)元數(shù)據(jù) 。
【阿里網(wǎng)盤優(yōu)質資源分享 阿里云管理控制臺】可以看出在對接多種數(shù)據(jù)源以及數(shù)據(jù)集成方式方面提供了友好的開放性,目前Apache Hudi原生對接了DLA Meta;在分析生態(tài)方面支持業(yè)界通用的數(shù)據(jù)模型標準(Hive Metastore);同時服務本身具備多租戶、可擴展的能力滿足企業(yè)級的需求 。
三、元數(shù)據(jù)管理核心技術解析下面主要介紹DLA Meta關于元數(shù)據(jù)多租戶、元數(shù)據(jù)發(fā)現(xiàn)、海量分區(qū)管理三方面的技術實踐,這幾塊也是目前業(yè)界核心關注和探索的問題 。
1、元數(shù)據(jù)多租戶管理
在大數(shù)據(jù)體系中,使用Hive MetaStore (下面簡稱HMS)作為元數(shù)據(jù)服務是非常普遍的使用方法 。DLA 作為多租戶的產(chǎn)品,其中一個比較重要的功能就是需要對不同用戶的元數(shù)據(jù)進行隔離,而且需要擁有完整的權限體系;HMS 本身是不支持多租戶和權限體系 。阿里云DLA 重寫了一套Meta 服務,其核心目標是兼容 HMS、支持多租戶、支持完整的權限體系、同時支持存儲各種數(shù)據(jù)源的元數(shù)據(jù) 。

推薦閱讀