Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS,hdfs是分布式計(jì)算中數(shù)據(jù)存儲管理的基礎(chǔ),是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,可以運(yùn)行于廉價(jià)的商用服務(wù)器上。它所具有的高容錯(cuò)、高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲,為超大數(shù)據(jù)集(Large Data Set)的應(yīng)用處理帶來了很多便利。
超過10年行業(yè)經(jīng)驗(yàn),技術(shù)領(lǐng)先,服務(wù)至上的經(jīng)營模式,全靠網(wǎng)絡(luò)和口碑獲得客戶,為自己降低成本,也就是為客戶降低成本。到目前業(yè)務(wù)范圍包括了:成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作,成都網(wǎng)站推廣,成都網(wǎng)站優(yōu)化,整體網(wǎng)絡(luò)托管,微信平臺小程序開發(fā),微信開發(fā),成都App定制開發(fā),同時(shí)也可以讓客戶的網(wǎng)站和網(wǎng)絡(luò)營銷和我們一樣獲得訂單和生意!
之所以選擇 HDFS 存儲數(shù)據(jù),因?yàn)?HDFS 具有以下優(yōu)點(diǎn):
? 數(shù)據(jù)自動保存多個(gè)副本。它通過增加副本的形式,提高容錯(cuò)性。
? 某一個(gè)副本丟失以后,它可以自動恢復(fù),這是由 HDFS 內(nèi)部機(jī)制實(shí)現(xiàn)的,我們不必關(guān)心。
? 它是通過移動計(jì)算而不是移動數(shù)據(jù)。
? 它會把數(shù)據(jù)位置暴露給計(jì)算框架。
處理數(shù)據(jù)達(dá)到 GB、TB、甚至PB級別的數(shù)據(jù)。
? 能夠處理百萬規(guī)模以上的文件數(shù)量,數(shù)量相當(dāng)之大。
? 能夠處理10K節(jié)點(diǎn)的規(guī)模。
? 一次寫入,多次讀取。文件一旦寫入不能修改,只能追加。
? 它能保證數(shù)據(jù)的一致性。
5、可構(gòu)建在廉價(jià)機(jī)器上
? 它通過多副本機(jī)制,提高可靠性。
? 它提供了容錯(cuò)和恢復(fù)機(jī)制。比如某一個(gè)副本丟失,可以通過其它副本來恢復(fù)。
當(dāng)然 HDFS 也有它的劣勢,并不適合所有的場合:
? 比如毫秒級的來存儲數(shù)據(jù),這是不行的,它做不到。
? 它適合高吞吐率的場景,就是在某一時(shí)間內(nèi)寫入大量的數(shù)據(jù)。但是它在低延時(shí)的情況下是不行的,比如毫秒級以內(nèi)讀取數(shù)據(jù),這樣它是很難做到的。
? 存儲大量小文件(這里的小文件是指小于HDFS系統(tǒng)的Block大小的文件(默認(rèn)64M))的話,它會占用 NameNode大量的內(nèi)存來存儲文件、目錄和塊信息。這樣是不可取的,因?yàn)镹ameNode的內(nèi)存總是有限的
? 小文件存儲的尋道時(shí)間會超過讀取時(shí)間,它違反了HDFS的設(shè)計(jì)目標(biāo)。
? 一個(gè)文件只能有一個(gè)寫,不允許多個(gè)線程同時(shí)寫。
? 僅支持?jǐn)?shù)據(jù) append(追加),不支持文件的隨機(jī)修改。
HDFS 如何上傳數(shù)據(jù)
HDFS 采用Master/Slave的架構(gòu)來存儲數(shù)據(jù),這種架構(gòu)主要由四個(gè)部分組成,分別為HDFS Client、NameNode、DataNode和Secondary NameNode。下面我們分別介紹這四個(gè)組成部分
HDFS的文件讀取原理,主要包括以下幾個(gè)步驟:
HDFS的文件寫入原理,主要包括以下幾個(gè)步驟:
兩個(gè)屬性項(xiàng): fs.default.name 用來設(shè)置Hadoop的默認(rèn)文件系統(tǒng),設(shè)置hdfs URL則是配置HDFS為Hadoop的默認(rèn)文件系統(tǒng)。dfs.replication 設(shè)置文件系統(tǒng)塊的副本個(gè)數(shù)
文件系統(tǒng)的基本操作:hadoop fs -help可以獲取所有的命令及其解釋
常用的有:
操作路程
cd hadoop.2.5.2
cd sbin
./start-all.sh //啟動hdfs服務(wù),yarn服務(wù)
cd ..
cd bin
./haoop dfs –ls / 解釋:./hdfs 是hdfs命令 dfs參數(shù) 表示在hadoop里有效 –ls /顯示hdfs根目錄
./haoop dfs –rm /test/count/SUCCESS //刪除/test/count目錄里的SUCCESS文件
./haoop dfs –rmr /test/count/output //刪除/test/count/output目錄
./haoop dfs –mkdir /test/count/input //創(chuàng)建/test/count/input目錄
從linux的 共享文件夾取得要分析的文件,上傳到 hdfs
./hadoop fs –put /mnt/hgfs/share/phone.txt /test/network
執(zhí)行代碼分析,
./hadoop jar /mnt/hgfs/share/mobile.jar com.wanho.hadoopmobile.PhoneDriver
將產(chǎn)生的結(jié)果,傳回linux的共享文件夾
./hadoop fs –get /test/network/output1 /mnt/hgfs/share
文章標(biāo)題:HDFS入門和基本操作
路徑分享:http://www.chinadenli.net/article2/gisjic.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、App開發(fā)、營銷型網(wǎng)站建設(shè)、網(wǎng)站維護(hù)、品牌網(wǎng)站制作、網(wǎng)站營銷
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)