小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

RDD創(chuàng)建內幕徹底解密

 看風景D人 2019-02-24

為什么RDD有很多種創(chuàng)建方法

因為Spark運行的介質、硬件存儲不同

Spark和Hadoop有沒有關系?
沒關系,Spark可以以Hadoop作為存儲
學Spark有沒有必要學Hadoop?
專注于計算的話沒必要學

第一個RDD:代表了Spark應用程序輸入數(shù)據(jù)的來源
通過tranformation來對RDD進行各種算子的轉換,實現(xiàn)算法
創(chuàng)建RDD的幾種基本方式:
1、使用程序中的集合創(chuàng)建RDD
2、使用本地文件系統(tǒng)創(chuàng)建RDD
3、使用HDFS創(chuàng)建RDD
4、基于DB創(chuàng)建RDD
5、基于NoSQL,例如HBase,創(chuàng)建RDD
6、基于S3
7、基于數(shù)據(jù)流創(chuàng)建RDD

通過集合創(chuàng)建RDD的實際意義:測試
使用本地文件系統(tǒng)創(chuàng)建RDD的作用:測試大量數(shù)據(jù)的文件
使用HDFS創(chuàng)建RDD的意義:生產(chǎn)環(huán)境最常用的RDD創(chuàng)建方式

Hadoop+Spark目前大數(shù)據(jù)領域最有前途的組合

可以在智能設備如:手機、平板、電視上使用Spark,也可以在PC以及Server上使用Spark(只要有正常的JVM)

多線程的方式模擬分布式

local模式默認情況下如果失敗了就是失敗了,但可以重試且可以指定重試次數(shù)

在spark shell中不用重新創(chuàng)建spark context,其本身就是個spark程序,不用創(chuàng)建了

reduce是action,所以在spark shell中敲入這個后直接就會出發(fā)一個作業(yè)

沒有指定分片的話,spark看有多少個core就用多少個core

只有一個Stage,原因:reduce是action,不會產(chǎn)生RDD,不需要shuffle,所以只有一個Stage。

實際上Spark的并行度到底應該設置為多少?建議為每個core可以承載2-4個partition

剛剛的代碼創(chuàng)建的是ParallelCollectionRDD,看一下源碼

數(shù)據(jù)Block是由BlockManager管理的

從HDFS中獲取文件之后得到的MapPartitionRDD原因:
從HDFS獲取文件后有一個去掉行號的map操作

基于sql的RDD由于數(shù)據(jù)分布式存儲,所以要非常認真的寫PreferedLocation

從數(shù)據(jù)本地性上講,安裝有mysql、HBase等的服務器上也要安裝spark,但有時無法實現(xiàn),這時需要用到Tachyon

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多