RDD創(chuàng)建內幕徹底解密

看風景D人 2019-02-24

展開全文

為什么RDD有很多種創(chuàng)建方法

因為Spark運行的介質、硬件存儲不同

Spark和Hadoop有沒有關系？
沒關系，Spark可以以Hadoop作為存儲
學Spark有沒有必要學Hadoop？
專注于計算的話沒必要學

第一個RDD：代表了Spark應用程序輸入數(shù)據(jù)的來源
通過tranformation來對RDD進行各種算子的轉換，實現(xiàn)算法
創(chuàng)建RDD的幾種基本方式：
1、使用程序中的集合創(chuàng)建RDD
2、使用本地文件系統(tǒng)創(chuàng)建RDD
3、使用HDFS創(chuàng)建RDD
4、基于DB創(chuàng)建RDD
5、基于NoSQL，例如HBase，創(chuàng)建RDD
6、基于S3
7、基于數(shù)據(jù)流創(chuàng)建RDD

通過集合創(chuàng)建RDD的實際意義：測試
使用本地文件系統(tǒng)創(chuàng)建RDD的作用：測試大量數(shù)據(jù)的文件
使用HDFS創(chuàng)建RDD的意義：生產(chǎn)環(huán)境最常用的RDD創(chuàng)建方式

Hadoop+Spark目前大數(shù)據(jù)領域最有前途的組合

可以在智能設備如：手機、平板、電視上使用Spark，也可以在PC以及Server上使用Spark（只要有正常的JVM）

多線程的方式模擬分布式

local模式默認情況下如果失敗了就是失敗了，但可以重試且可以指定重試次數(shù)

在spark shell中不用重新創(chuàng)建spark context，其本身就是個spark程序，不用創(chuàng)建了

reduce是action，所以在spark shell中敲入這個后直接就會出發(fā)一個作業(yè)

沒有指定分片的話，spark看有多少個core就用多少個core

只有一個Stage，原因：reduce是action，不會產(chǎn)生RDD，不需要shuffle，所以只有一個Stage。

實際上Spark的并行度到底應該設置為多少？建議為每個core可以承載2-4個partition

剛剛的代碼創(chuàng)建的是ParallelCollectionRDD，看一下源碼

數(shù)據(jù)Block是由BlockManager管理的

從HDFS中獲取文件之后得到的MapPartitionRDD原因：
從HDFS獲取文件后有一個去掉行號的map操作

基于sql的RDD由于數(shù)據(jù)分布式存儲，所以要非常認真的寫PreferedLocation

從數(shù)據(jù)本地性上講，安裝有mysql、HBase等的服務器上也要安裝spark，但有時無法實現(xiàn)，這時需要用到Tachyon

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內容均由用戶發(fā)布，不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：看風景D人 > 《Spark學習總結》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

RDD創(chuàng)建內幕徹底解密