這篇文章主要介紹“hadoop中各個(gè)組件的介紹”,在日常操作中,相信很多人在hadoop中各個(gè)組件的介紹問題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”hadoop中各個(gè)組件的介紹”的疑惑有所幫助!接下來,請(qǐng)跟著小編一起來學(xué)習(xí)吧!
為播州等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及播州網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都網(wǎng)站制作、網(wǎng)站設(shè)計(jì)、外貿(mào)網(wǎng)站建設(shè)、播州網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!
HDFS(Hadoop distribute file system)——Hadoop生態(tài)系統(tǒng)的基礎(chǔ)組件Hadoop分布式文件系統(tǒng)。它是其他一些工具的基礎(chǔ)HDFS的機(jī)制是將大量數(shù)據(jù)分布到計(jì)算機(jī)集群上,數(shù)據(jù)一次寫入,但可以多次讀取用于分析。HDFS讓Hadoop可以最大化利用磁盤。
HBase—— 一個(gè)構(gòu)建在HDFS之上的面向列的NoSql數(shù)據(jù)庫(kù),HBase用于對(duì)打量數(shù)據(jù)進(jìn)行快速讀取/寫入。HBase將Zookeeper用于自身的管理,以保證其所有組件都正在運(yùn)行。HBase使得Hadoop可以最大化利用內(nèi)存。
MapReduce——MapReduce是Hadoop的主要執(zhí)行框架,它是一個(gè)用于分布式并行數(shù)據(jù)處理的編程模型,將作業(yè)分為mapping階段和reduce階段。開發(fā)人員謂Hadoop編寫MapReduce作業(yè),并使用HDFS中存儲(chǔ)的數(shù)據(jù),而HDFS可以保證快速的數(shù)據(jù)訪問。鑒于MapReduce作業(yè)的特性,Hadoop以并行的方式將處理過程移向數(shù)據(jù)。MapReduce使得Hadoop可以最大化利用CPU。
Zookeeper——Zookeeper是Hadoop的分布式協(xié)調(diào)服務(wù)。Zookeeper被設(shè)計(jì)成可以在機(jī)器集群上運(yùn)行,是一個(gè)具有高度可用性的服務(wù),用于Hadoop操作的管理,而且很多Hadoop組件都依賴它。 Oozie—— Oozie是一個(gè)北極測(cè)很難過到Hadoop軟件棧中的可擴(kuò)展的Workflow系統(tǒng)。用于協(xié)調(diào)多個(gè)MapReduce作業(yè)的執(zhí)行。它能夠處理大量的復(fù)雜性,基于外部事件來管理執(zhí)行。 Pig——Pig是對(duì)MapReduce編程復(fù)雜性的抽象,Pig平臺(tái)包含用于分析Hadoop數(shù)據(jù)集的執(zhí)行環(huán)境和腳本語(yǔ)言(Pig Latin)。它的編譯器將Pig Latin翻譯為MapReduce程序序列。
Hive——類似于SQL的高級(jí)語(yǔ)言,用于執(zhí)行對(duì)存儲(chǔ)在Hadoop中數(shù)據(jù)的查詢,Hive允許不熟悉MapReduce的開發(fā)人員編寫數(shù)據(jù)查詢語(yǔ)句,它會(huì)將翻譯為Hadoop中的MapReduce作業(yè)。類似于Pig。Hive是一個(gè)抽象層,適合于較熟悉SQL而不是java編程的數(shù)據(jù)庫(kù)分析師。
Hadoop生態(tài)系統(tǒng)中還包含一些用于與其他企業(yè)級(jí)應(yīng)用進(jìn)行集成的框架,例如上圖所示的Sqoop和Flume: Sqoop是一個(gè)連通性工具,用于在關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)Hadoop之間移動(dòng)數(shù)據(jù)。Sqoop利用數(shù)據(jù)庫(kù)來描述導(dǎo)入/導(dǎo)出數(shù)據(jù)的模式,并使用MapReduce實(shí)現(xiàn)并行操作和容錯(cuò)。
Fulme是一個(gè)分布式的、具有可靠性和高可用性的服務(wù),用于從單獨(dú)的機(jī)器上將大量數(shù)據(jù)高效的收集、聚合并移動(dòng)到HDFS中。它給予一個(gè)簡(jiǎn)單靈活的架構(gòu),童工流式數(shù)據(jù)操所。它借助于簡(jiǎn)單可擴(kuò)展的數(shù)據(jù)模型,允許將來自企業(yè)中多臺(tái)機(jī)器上的數(shù)據(jù)移到Hadoop中。
hbase 是架構(gòu)在hadoop之上的分布式數(shù)據(jù)庫(kù),hive即hive sql,用戶可以通過寫hive sql,hive負(fù)責(zé)將sql生成相關(guān)的mapreduce作業(yè),并提交給hadoop集群來運(yùn)行這樣的作業(yè)。hive可以直接分析hdfs上的文件,也可以分析hbase表數(shù)據(jù)。一般hive是安裝在namenode上運(yùn)行。
簡(jiǎn)單來說hive用來批量處理數(shù)據(jù),HBase用來快速索引數(shù)據(jù)。
HBase是一個(gè)分布式的基于列存儲(chǔ)的非關(guān)系型數(shù)據(jù)庫(kù)。HBase的查詢效率很高,主要由于查詢和展示結(jié)果。
hive是分布式的關(guān)系型數(shù)據(jù)庫(kù)。主要用來并行分布式 處理 大量數(shù)據(jù)。hive中的所有查詢除了"select * from table;"都是需要通過Map\Reduce的方式來執(zhí)行的。由于要走M(jìn)ap\Reduce,即使一個(gè)只有1行1列的表,如果不是通過select * from table;方式來查詢的,可能也需要8、9秒。但hive比較擅長(zhǎng)處理大量數(shù)據(jù)。當(dāng)要處理的數(shù)據(jù)很多,并且Hadoop集群有足夠的規(guī)模,這時(shí)就能體現(xiàn)出它的優(yōu)勢(shì)。
到此,關(guān)于“hadoop中各個(gè)組件的介紹”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!
文章名稱:hadoop中各個(gè)組件的介紹
URL鏈接:http://www.chinadenli.net/article46/ieodhg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、響應(yīng)式網(wǎng)站、網(wǎng)站設(shè)計(jì)、微信公眾號(hào)、App設(shè)計(jì)、網(wǎng)站營(yíng)銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)