美女丝袜av一区二区三区,久久久国产一区二区三区四区小说,人人妻人人澡人人爽欧美精品

HDFS是一個文件系統(tǒng)，用于存儲文件，通過統(tǒng)一的命名空間–目錄樹來定位文件；其次，它是分布式的，由很多服務器聯(lián)合起來實現(xiàn)其功能，集群中的服務器有各自的角色。
HDFS設(shè)計思想：分而治之:將大文件、大批量文件，分布式存放在大量服務器上，以便于采取分而治之的方式對海量數(shù)據(jù)進行運算分析。?
在大數(shù)據(jù)系統(tǒng)中作用：為各類分布式運算框架(如：mapreduce,spark,tez,….)提供數(shù)據(jù)存儲服務? 。
重點概念：文件切塊，副本存放，元數(shù)據(jù) 。

HDFS重要特性：

HDFS中的文件在物理上是分塊存儲(block)，塊的大小可以通過配置參數(shù)(dfs.blocksize)來規(guī)定，默認大小在hadoop2.x版本中是128M，老版本中是64M；
HDFS文件系統(tǒng)會給客戶端提供一個統(tǒng)一的抽象目錄樹，客戶端通過路徑來訪問文件，形如:hdfs://namenode:port/dir-a/dir-b/file.data；
目錄結(jié)構(gòu)及文件分塊信息(元數(shù)據(jù))的管理由namenode節(jié)點承擔——-namenode是HDFS集群主節(jié)點，負責維護整個hdfs文件系統(tǒng)的目錄樹，以及每一個路徑(文件)所對應的block塊信息(block的id 。及所在的datanode服務器)；
文件的各個block的存儲管理由datanode節(jié)點承擔———–namenode是HDFS集群從節(jié)點，每一個block都可以在多個dataname上存儲多個副本(副本數(shù)量也可以通過參數(shù)設(shè)置dfs.replication)；

HDFS是設(shè)計成適應一次寫入，多次讀出的場景，且不支持文件的修改（注：適合用來做數(shù)據(jù)分析，并不適合用來做網(wǎng)盤應用，因為，不便修改，延遲大，網(wǎng)絡開銷大，成本太高）。
HDFS原理篇
工作機制：
工作機制的學習主要是為加深對分布式系統(tǒng)的理解，以及增強遇到各種問題時的分析解決能力，形成一定的集群運維能力。注：很多不是真正理解hadoop技術(shù)體系的人會常常覺得HDFS可用于網(wǎng)盤類應用，但實際并非如此。要想將技術(shù)準確用在恰當?shù)牡胤剑仨殞夹g(shù)有深刻的理解。
1 概述

HDFS集群分為兩大角色:NameNode、DataNode

NameNode負責管理整個文件系統(tǒng)的元數(shù)據(jù)
DataNode負責管理用戶的文件數(shù)據(jù)塊
文件會按照固定的大小(blocksize)切成若干塊后分布式存儲在若干臺datanode上
每一個文件塊可以有多個副本，并存放在不同的datanode上
DataNode會==定期==向NameNode匯報自身所保存的文件block信息，而namenode則會負責保持文件的副本數(shù)量
HDFS的內(nèi)部工作機制對客戶端保持透明，客戶端請求訪問HDFS都是通過向namenode申請來進行

2 HDFS寫數(shù)據(jù)流程
客戶端要向HDFS寫數(shù)據(jù)，首先要跟namenode通信以確認可以寫文件并獲得接收文件block的datanode，然后客戶端按順序?qū)⑽募饌€block傳遞給相應datanode，并由接收到block的datanode負責向其他datanode復制block的副本。
這里說明文件的切割是在客戶端實現(xiàn)的，而不是NameNode 。文件的傳輸也是由客戶端傳到指定datanode上，副本由datanode傳給其他datanode 。?
詳細步驟(重要)：