大數據的主要特征是什么什么是大數據時代( 二 )

2026-05-02 小知識

數據極少有更新或刪除操作；
數據產生頻率快、數據信息量大；
數據往往帶有位置信息。
傳統的關系型數據庫或非關系型數據庫對于這類數據，在性能提升上極為有限，只能依靠集群技術，投入更多的計算資源和存儲資源來處理，造成企業運營成本急劇上升。而時序數據庫可以有效地處理龐大的數據，通過創新的列式存儲和先進的壓縮算法，使用的計算資源不到傳統方案的1/5，存儲空間不到通用數據庫的1/10 。
常見的時序數據庫有InfluxDB等。
07.什么是分布式存儲？分布式存儲是相對于集中式存儲而言的。分布式存儲是由標準服務器（硬件）和分布式文件系統（軟件）組成的，可擴展至千臺硬件節點，支持塊存儲、對象存儲、文件存儲等多種類型統一管理。
常見的分布式文件系統有HDFS、Ceph、GFS、GPFS、Swift等。
舉個通俗易懂的例子，如果把存儲比喻成車廂，數據比喻成貨物。集中式存儲方案下，如果要想拉更多的貨物，只能更換更大的車廂。而分布式存儲方案，直接增加車廂就可以了。有了分布式存儲技術，存儲EB級別（1EB=1024PB=1024*1024TB=1024*1024*1024GB）的海量數據庫都不成問題。

大數據的主要特征是什么什么是大數據時代

08.什么是數據集成？由于開發部門或開發時間的不同，企業中往往有多個異構的、運行在不同的軟硬件平臺上的數據庫，這些數據庫彼此獨立、相互封閉，使得數據難以在系統之間交流和共享，從而形成了"信息孤島" 。隨著信息化應用的不斷深入，企業內部之間、企業與外部的信息交互的需求日益強烈，急切需要對已有的數據進行整合，打通"信息孤島"，這就是數據集成的意義。
數據集成是把不同來源、不同種類、不同格式的數據在物理上或邏輯上進行集中，為企業提供全面的數據共享。數據集成主要解決的問題是各個數據源的異構性，包括數據庫的異構性、通信協議的異構性、數據類型的異構性、數據取值的異構性等。
09.什么是數據清洗？數據清洗是一種清除錯誤數據、去掉重復數據的技術。數據經過清洗之后，可以還保存到原來的數據庫中，也可以和數據集成聯系在一起，最終保存到集成后的數據庫里。
舉幾個數據清洗的實例：
1.在用戶信息表中，規定有姓名、性別、地址、手機、郵箱五個字段是必填的。而某些用戶缺少某些字段的值，因此需要補充這些數據。
2.英文的姓名之間規定要有空格，而某些姓名沒有空格，比如"JohnSmith"，就需要修正這類錯誤。
3.有些數據表的金額單位是元，有些數據表的金額單位是萬元，數據集成時就需要統一單位。
4.兩條用戶記錄完全重復，需要進行去重處理。
10.什么是ETL？ETL是Extraction、Transformation、Loading三個單詞的首字母縮寫，指的是數據抽取、轉換、加載的過程。
數據抽取是從不同的數據源中獲取我們需要的數據的過程，和數據集成的概念類似，這個過程往往會做一些數據清洗和數據轉換。數據轉換的任務主要是進行數據格式的轉換和一些業務規則的計算。數據加載通常是指在數據清洗和數據轉換完成后，寫入到目標數據庫中去。

大數據的主要特征是什么什么是大數據時代

11.什么是數據分析？數據分析是基于商業需要，有目的的對數據進行收集、整理、加工、分析，最終提煉有價值的信息的過程。
數據分析的四個步驟：
需求分析、明確目標；
數據收集、加工處理；
數據挖掘、數據展現；

推薦閱讀

上一篇：發生火災應急處置三個步驟

下一篇：云臺是什么