欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

SparkShuffle內(nèi)幕解密(24)

  一、到底什么是Shuffle?

創(chuàng)新互聯(lián)是專業(yè)的博望網(wǎng)站建設(shè)公司,博望接單;提供網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè),網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進行博望網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!

     Shuffle中文翻譯為“洗牌”,需要Shuffle的關(guān)鍵性原因是某種具有共同特征的數(shù)據(jù)需要最終匯聚到一個     計算節(jié)點上進行計算。

   二、Shuffle可能面臨的問題?

1, 數(shù)據(jù)量非常大;

2, 數(shù)據(jù)如何分類,即如何Partition,Hash、Sort、鎢絲計算;

3, 負載均衡(數(shù)據(jù)傾斜);

4, 網(wǎng)絡(luò)傳輸效率,需要在壓縮和解壓縮之間做出權(quán)衡,序列化和反序列也是要考慮的問題;

說明:具體的Task進行計算的時候盡一切最大可能使得數(shù)據(jù)具備Process Locality的特性;退而求次是增加數(shù)據(jù)分片,減少每個Task處理的數(shù)據(jù)量。


三、Hash Shuffle

1, key不能是Array;

2, Hash Shuffle不需要排序,此時從理論上講就節(jié)省了Hadoop MapReduce中進行Shuffle需要排序時候的時間浪費,因為實際生產(chǎn)環(huán)境有大量的不需要排序的Shuffle類型;

思考:不需要排序的Hash Shuffle是否一定比需要排序的Sorted Shuffle速度更快?不一定!如果數(shù)據(jù)規(guī)模比的情形下,Hash Shuffle會比Sorted Shuffle速度快(很多)!但是如果數(shù)據(jù)量大,此時Sorted Shuffle一般都會比Hash Shuffle快(很多)

    3,每個ShuffleMapTask會根據(jù)key的哈希值計算出當前的key需要寫入的Partition,然后把決定后的結(jié)果寫入單 獨的文件,此時會導致每個Task產(chǎn)生R(指下一個Stage的并行度)個文件,如果當前的Stage中有M個ShuffleMapTask,則會M*R個文件!!!

     注意:Shuffle操作絕大多數(shù)情況下都要通過網(wǎng)絡(luò),如果Mapper和Reducer在同一臺機器上,此時只需要讀取本地 磁盤即可。

     Hash Shuffle的兩大死穴:第一:Shuffle前會產(chǎn)生海量的小文件于磁盤之上,此時會產(chǎn)生大量耗時低效的IO操 作;第二:內(nèi)存不共用!!!由于內(nèi)存中需要保存海量的文件操作句柄和臨時緩存信息,如果數(shù)據(jù)處理規(guī)模比較龐大的話,內(nèi)存不可承受,出現(xiàn)OOM等問題!


   四、Sorted Shuffle:

 為了改善上述的問題(同時打開過多文件導致Writer Handler內(nèi)存使用過大以及產(chǎn)生過度文件導致大量的隨機讀寫 帶來的效率極為低下的磁盤IO操作),Spark后來推出了Consalidate機制,來把小文件合并,此時Shuffle時文件產(chǎn)生的數(shù)量為cores*R,對于ShuffleMapTask的數(shù)量明顯多于同時可用的并行Cores的數(shù)量的情況下,Shuffle產(chǎn)生的文件會大幅度減少,會極大降低OOM的可能;

   為此Spark推出了Shuffle Pluggable開放框架,方便系統(tǒng)升級的時候定制Shuffle功能模塊,也方便第三方系統(tǒng)改造人 員根據(jù)實際的業(yè)務(wù)場景來開放具體最佳的Shuffle模塊;核心接口ShuffleManager,具體默認實現(xiàn)               有HashShuffleManager、SortShuffleManager等,Spark 1.6.1中具體的配置如下:

Spark Shuffle內(nèi)幕解密(24)



      

當前題目:SparkShuffle內(nèi)幕解密(24)
網(wǎng)站鏈接:http://www.chinadenli.net/article12/ishpdc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站收錄企業(yè)建站建站公司網(wǎng)站導航用戶體驗ChatGPT

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)