第一天
創(chuàng)新互聯(lián)專注于企業(yè)成都營銷網(wǎng)站建設、網(wǎng)站重做改版、休寧縣網(wǎng)站定制設計、自適應品牌網(wǎng)站建設、H5網(wǎng)站設計、成都做商城網(wǎng)站、集團公司官網(wǎng)建設、外貿(mào)網(wǎng)站建設、高端網(wǎng)站制作、響應式網(wǎng)頁設計等建站業(yè)務,價格優(yōu)惠性價比高,為休寧縣等各大城市提供網(wǎng)站開發(fā)制作服務。
1.大數(shù)據(jù)典型特性與分布式開發(fā)難點
1. | 大數(shù)據(jù)典型特性與分布式開發(fā)難點 |
2. | Hadoop框架介紹與搜索技術體系介紹 |
3. | Hadoop版本與特性介紹 |
4. | Hadoop核心模塊之HDFS分布式文件系統(tǒng)架構介紹 |
5. | Hadoop核心模塊之Yarn操作系統(tǒng)架構介紹 |
6. | Linux安全禁用設置與JDK安裝講解 |
7. | Hadoop偽分布式環(huán)境部署HDFS部分 |
8. | Hadoop偽分布式環(huán)境部署Yarn和MR部分 |
9. | Hadoop環(huán)境使用常見的錯誤集合 |
10. | Hadoop環(huán)境常規(guī)設置與輔助功能講解(-) |
11. | Hadoop環(huán)境常規(guī)設置與輔助功能講解(二) |
12. | Windows環(huán)境下部署Eclipse插件注意事項 |
1.大數(shù)據(jù)典型特性與分布式開發(fā)難點
1.大數(shù)據(jù)典型特性
沒有大數(shù)據(jù)據(jù)技術之前,我就以抽樣統(tǒng)計為例(統(tǒng)計一個城市的男女人口比例),我們的做法是不是找個人多的地方,隨機抽取一部分人,統(tǒng)計出男女比例,作為城市的男女人口比例,這樣的誤差非常大,數(shù)據(jù)量越大,統(tǒng)計出來的結果越準確。這樣我們就要先解決這么大數(shù)據(jù)量的存儲問題,(這個例子不能體現(xiàn)出數(shù)據(jù)類型繁多),接下來是不是要解決數(shù)據(jù)計算的問題,總不能人工一個一個數(shù)吧,大數(shù)據(jù)技術就能為我們解決這些問題。
傳統(tǒng)RDBMS 的瓶頸,關系型數(shù)據(jù)的特點是各個數(shù)據(jù)項之間有一定的關系,這個在設計數(shù)據(jù)庫的設計階段必須設計好,但是當今需求中,我們往往分析的數(shù)據(jù)之間沒有關系,例如我們在設計一個推薦系統(tǒng)的時候,要分析客戶的行為,客戶的行為數(shù)據(jù)之間就沒有相應的關系,結構化數(shù)據(jù)和非結構化數(shù)據(jù)共存使數(shù)據(jù)多樣化。
海量的數(shù)據(jù),這么大的數(shù)據(jù)量,我們還要處理的非常快。這對技術是很大的挑戰(zhàn)。這就是大數(shù)據(jù)的特性
多:這里的多就是海量數(shù)據(jù),我們要解決海量數(shù)據(jù)的存儲問題
繁:結構化,非結構化,半結構化數(shù)據(jù)的共存
快:這么大的數(shù)據(jù)量,這么繁多的不同類型的數(shù)據(jù),還要處理的快,不然就會成為系統(tǒng)的瓶頸。
我們的最終目的是挖掘出有用的,有價值的數(shù)據(jù)。
2.大數(shù)據(jù)的能做什么?
3.一個數(shù)據(jù)平臺的工作(完整的平臺)
3.1離線
-》批量計算
3.2 實時
-》流式計算
-》在線分析
3.3數(shù)據(jù)共享
4.數(shù)據(jù)平臺指標
-》設備臺數(shù):5000臺
-》總存儲數(shù)量:100PB+
-》日新增數(shù)量:200TB+,月數(shù)據(jù)增長比率10%
-》有多個數(shù)據(jù)產(chǎn)品
-》存儲表10w+
-》日均運行JOB數(shù)
-》日均計算量5PB+
5.分布式開發(fā)的難點
-》平臺搭建
-》分布式
-》同步,一致性(配置(會搭建很多框架),時間(微妙誤差))
-》自動化部署管理平臺
-》cloudera 發(fā)布的hadoop版本 CDH
-》cloudera manager,簡稱:CM
-》框架是開源的 不可靠
所以很多公司都是以開源框架為基礎,開發(fā)自己的框架,例如:淘寶的 TFS文件系統(tǒng)
任務調度框架oozie,淘寶自己的框架 宙斯 。
-》成本的問題
由于集群用到的機器比較廉價,所以會出現(xiàn)節(jié)點故障,我們必須有相應的容錯機制,保證集群的健壯性。
6.學習大數(shù)據(jù)的基礎:
自己學習的隨筆,在組織存在問題,不喜勿說
網(wǎng)站名稱:hadoop學習系列(1.大數(shù)據(jù)典型特性與分布式開發(fā)難點)
網(wǎng)站鏈接:http://www.chinadenli.net/article8/joegip.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供虛擬主機、響應式網(wǎng)站、微信公眾號、網(wǎng)站維護、定制網(wǎng)站、App設計
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)