這篇文章將為大家詳細講解有關(guān)Hive中如何實現(xiàn)分桶表,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

成都創(chuàng)新互聯(lián)長期為上千多家客戶提供的網(wǎng)站建設(shè)服務(wù),團隊從業(yè)經(jīng)驗10年,關(guān)注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為朝天企業(yè)提供專業(yè)的成都網(wǎng)站制作、網(wǎng)站建設(shè),朝天網(wǎng)站改版等技術(shù)服務(wù)。擁有10年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
通常,當很難在列上創(chuàng)建分區(qū)時,我們會使用分桶,比如某個經(jīng)常被篩選的字段,如果將其作為分區(qū)字段,會造成大量的分區(qū)。在Hive中,會對分桶字段進行哈希,從而提供了中額外的數(shù)據(jù)結(jié)構(gòu),進行提升查詢效率。
與分區(qū)表類似,分桶表的組織方式是將HDFS上的文件分割成多個文件。分桶可以加快數(shù)據(jù)采樣,也可以提升join的性能(join的字段是分桶字段),因為分桶可以確保某個key對應(yīng)的數(shù)據(jù)在一個特定的桶內(nèi)(文件),所以巧妙地選擇分桶字段可以大幅度提升join的性能。通常情況下,分桶字段可以選擇經(jīng)常用在過濾操作或者join操作的字段。
我們可以使用set.hive.enforce.bucketing = true啟用分桶設(shè)置。
當使用分桶表時,最好將bucketmapjoin標志設(shè)置為true,具體配置參數(shù)為:
SET hive.optimize.bucketmapjoin = true
CREATE TABLE table_name
PARTITIONED BY (partition1 data_type, partition2 data_type,….) CLUSTERED BY (column_name1, column_name2, …)
SORTED BY (column_name [ASC|DESC], …)]
INTO num_buckets BUCKETS;關(guān)于“Hive中如何實現(xiàn)分桶表”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
網(wǎng)站欄目:Hive中如何實現(xiàn)分桶表
標題來源:http://www.chinadenli.net/article30/iehhpo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、App設(shè)計、外貿(mào)建站、云服務(wù)器、響應(yīng)式網(wǎng)站、網(wǎng)站內(nèi)鏈
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)