大數據的主要特征是什么 什么是大數據時代( 二 )


數據極少有更新或刪除操作;
數據產生頻率快、數據信息量大;
數據往往帶有位置信息 。
傳統的關系型數據庫或非關系型數據庫對于這類數據,在性能提升上極為有限,只能依靠集群技術,投入更多的計算資源和存儲資源來處理,造成企業運營成本急劇上升 。而時序數據庫可以有效地處理龐大的數據,通過創新的列式存儲和先進的壓縮算法,使用的計算資源不到傳統方案的1/5,存儲空間不到通用數據庫的1/10 。
常見的時序數據庫有InfluxDB等 。
07.什么是分布式存儲?分布式存儲是相對于集中式存儲而言的 。分布式存儲是由標準服務器(硬件)和分布式文件系統(軟件)組成的,可擴展至千臺硬件節點,支持塊存儲、對象存儲、文件存儲等多種類型統一管理 。
常見的分布式文件系統有HDFS、Ceph、GFS、GPFS、Swift等 。
舉個通俗易懂的例子,如果把存儲比喻成車廂,數據比喻成貨物 。集中式存儲方案下,如果要想拉更多的貨物,只能更換更大的車廂 。而分布式存儲方案,直接增加車廂就可以了 。有了分布式存儲技術,存儲EB級別(1EB=1024PB=1024*1024TB=1024*1024*1024GB)的海量數據庫都不成問題 。

大數據的主要特征是什么 什么是大數據時代


08.什么是數據集成?由于開發部門或開發時間的不同,企業中往往有多個異構的、運行在不同的軟硬件平臺上的數據庫,這些數據庫彼此獨立、相互封閉,使得數據難以在系統之間交流和共享,從而形成了"信息孤島" 。隨著信息化應用的不斷深入,企業內部之間、企業與外部的信息交互的需求日益強烈,急切需要對已有的數據進行整合,打通"信息孤島",這就是數據集成的意義 。
數據集成是把不同來源、不同種類、不同格式的數據在物理上或邏輯上進行集中,為企業提供全面的數據共享 。數據集成主要解決的問題是各個數據源的異構性,包括數據庫的異構性、通信協議的異構性、數據類型的異構性、數據取值的異構性等 。
09.什么是數據清洗?數據清洗是一種清除錯誤數據、去掉重復數據的技術 。數據經過清洗之后,可以還保存到原來的數據庫中,也可以和數據集成聯系在一起,最終保存到集成后的數據庫里 。
舉幾個數據清洗的實例:
1.在用戶信息表中,規定有姓名、性別、地址、手機、郵箱五個字段是必填的 。而某些用戶缺少某些字段的值,因此需要補充這些數據 。
2.英文的姓名之間規定要有空格,而某些姓名沒有空格,比如"JohnSmith",就需要修正這類錯誤 。
3.有些數據表的金額單位是元,有些數據表的金額單位是萬元,數據集成時就需要統一單位 。
4.兩條用戶記錄完全重復,需要進行去重處理 。
10.什么是ETL?ETL是Extraction、Transformation、Loading三個單詞的首字母縮寫,指的是數據抽取、轉換、加載的過程 。
數據抽取是從不同的數據源中獲取我們需要的數據的過程,和數據集成的概念類似,這個過程往往會做一些數據清洗和數據轉換 。數據轉換的任務主要是進行數據格式的轉換和一些業務規則的計算 。數據加載通常是指在數據清洗和數據轉換完成后,寫入到目標數據庫中去 。
大數據的主要特征是什么 什么是大數據時代


11.什么是數據分析?數據分析是基于商業需要,有目的的對數據進行收集、整理、加工、分析,最終提煉有價值的信息的過程 。
數據分析的四個步驟:
需求分析、明確目標;
數據收集、加工處理;
數據挖掘、數據展現;

推薦閱讀