日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

rdd的特點(diǎn)

【rdd的特點(diǎn)】

rdd的特點(diǎn)


rdd的特點(diǎn)如下:
1、RDD是Spark提供的核心抽象,全稱為ResillientDistributedDataset,即彈性分布式數(shù)據(jù)集 。
2、RDD在抽象上來(lái)說(shuō)是一種元素集合,包含了數(shù)據(jù) 。它是被分區(qū)的,分為多個(gè)分區(qū),每個(gè)分區(qū)分布在集群中的不同節(jié)點(diǎn)上 , 從而讓RDD中的數(shù)據(jù)可以被并行操作 。
3、RDD通常通過(guò)Hadoop上的文件 , 即HDFS文件或者Hive表 , 來(lái)進(jìn)行創(chuàng)建;有時(shí)也可以通過(guò)應(yīng)用程序中的集合來(lái)創(chuàng)建 。
4、RDD最重要的特性就是,提供了容錯(cuò)性,可以自動(dòng)從節(jié)點(diǎn)失敗中恢復(fù)過(guò)來(lái) 。即如果某個(gè)節(jié)點(diǎn)上的RDDpartition,因?yàn)楣?jié)點(diǎn)故障,導(dǎo)致數(shù)據(jù)丟了 , 那么RDD會(huì)自動(dòng)通過(guò)自己的數(shù)據(jù)來(lái)源重新計(jì)算該partition 。這一切對(duì)使用者是透明的 。
5、RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時(shí),Spark會(huì)自動(dòng)將RDD數(shù)據(jù)寫(xiě)入磁盤(pán) 。

    推薦閱讀