大數據的主要特征是什么 什么是大數據時代


大數據的主要特征是什么 什么是大數據時代


【大數據的主要特征是什么 什么是大數據時代】
01.什么是大數據?數據是對客觀事實進行記錄的一種符號,可以是數字、文字,也可以是圖片、音頻、視頻 。大數據是指無法在一定時間范圍內用常規軟件進行捕捉、管理和數據的數據集合 。
大數據具有"5V"特點,即數據量大、數據多樣性、價值密度低、增長速度快、數據質量低 。
大數據時代強調數據的全部,而不是局部的樣本數據 。由于大數據的價值密度低,我們要接受這種模糊和不精確性 。通過對數據的研究,發現以前不曾發現的聯系,而不是像小數據時代,先通過假設,然后再用數據來驗證 。也就是說,在大數據時代,對相關性的重視程度要強于因果性 。
02.什么是結構化和非結構化數據?結構化數據是適合用二維表格展現的數據 。每一行是一條記錄,每一列是不同的字段 。
以電商網站為例,用戶信息就可以用結構化數據來存儲 。每位用戶就是一條記錄,而每位用戶又有姓名、性別、地址、手機、郵箱等字段,這樣就形成了一個二維表格 。
大數據的主要特征是什么 什么是大數據時代


非結構化數據不適合用二維表格來展現,比如文檔、圖片、音頻、視頻等 。非結構化數據的格式多樣,難以標準化和理解,因此在存儲、檢索、利用上都需要更加有效的方法和技術 。
03.什么是數據庫?數據庫從字面意思來看就是存儲數據的地方,但數據的存儲不是雜亂無章的,而是按照一定的規則來存儲的,具有可共享和便于管理的特點 。數據庫被視為電子化的文件柜 。用戶可以對數據庫中的數據進行增、刪、改、查等操作 。
數據庫可分為關系型數據庫、非關系型數據庫、數據倉庫等類型 。
04.什么是關系型數據庫?關系型數據庫是指使用關系模型來組織數據的數據庫 。關系模型可以簡單理解為二維表格模型,以行和列的形式存儲數據,因此適合存儲結構化數據 。關系型數據庫就是由多個二維表格及其之間的關系組成的數據庫 。
常見的關系型數據庫有MySQL、SQL Server、PostgreSQL、Oracle等 。
以電商網站為例,除了用戶信息之外,還要記錄產品信息和訂單信息 。為簡化起見,每個訂單只包含一種產品 。產品包括名稱、價格、圖片、介紹等字段,訂單包括所屬用戶、相關產品、訂購數量、訂單價格、下單時間等字段 。一個用戶擁有一個或多個訂單,而一個產品也會屬于一個或多個訂單,這樣就建立了用戶、訂單和產品之間的關系 。
大數據的主要特征是什么 什么是大數據時代


05.什么是非關系型數據庫?相對關系型數據庫而言,非關系型數據庫拋棄了固定的二維表格結構,存儲機制靈活,比如鍵值對、文檔、圖形等格式都可以進行存儲 。
常見的非關系型數據庫有Redis、MongoDB、Cassandra等 。
性能是非關系型數據庫最大的優勢 。由于關系型數據庫中的關系模型會占用掉90%的硬件資源及計算時間,對于有大量不需要關系功能的數據處理,非關系型數據庫的性能是非常高的 。
另一方面,正是由于缺少數據表之間的關系,非關系型數據庫很難在多個表之間做非常復雜的數據查詢 。
06.什么是時序數據庫?時序數據庫是一類特殊的非關系型數據庫,全稱是時間序列數據庫 。經研究發現,機器設備、傳感器、系統日志等產生的數據有如下明顯的特征:
數據是時序的,即按照一定時間順序生成;

推薦閱讀