hive 提供數(shù)據(jù)抽樣功能,根據(jù)一定的規(guī)則進(jìn)行數(shù)據(jù)抽樣,目前支持三種抽樣:
水磨溝網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián)公司,水磨溝網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為水磨溝上千提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設(shè)要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的水磨溝做網(wǎng)站的公司定做!
1、數(shù)據(jù)塊抽樣 tablesample()函數(shù)(hive0.8版本及以上支持)
tablesample(n percent) : 按照hive表的數(shù)據(jù)量比例抽樣數(shù)據(jù)
select * from table_name tablesample(0.1 percent) s
tablesample(n M) :指定抽樣數(shù)據(jù)的大小,單位為M
tablesample(n rows):指定抽樣數(shù)據(jù)的行數(shù),n表示每個(gè)map task均取n行數(shù)據(jù)
2、分桶抽樣?
hive分桶是根據(jù)分桶字段做hash取模,放入指定的數(shù)據(jù)的桶中,比如表a的字段id分成10個(gè)桶,那hash(id)%10=0的數(shù)據(jù)放在第一個(gè)桶,hash(id)%10=1的數(shù)據(jù)放在第二個(gè)桶中
語(yǔ)法:tablesample(bucket x out of y [on colname]) :x 是要抽樣的桶編號(hào),桶編號(hào)從1開始,colname表示要抽樣的列,y表示桶的數(shù)量,例如:
select * from tb tablesample(bucket 1 out of 10 on rand())? -- 表隨機(jī)分成10桶,抽取第一個(gè)桶的數(shù)據(jù)做為樣本
hive中分桶其實(shí)就是根據(jù)某一個(gè)字段Hash取模,放入指定數(shù)據(jù)的桶中,比如將表table_1按照ID分成100個(gè)桶,其算法是hash(id) % 100,這樣,hash(id) % 100 = 0的數(shù)據(jù)被放到第一個(gè)桶中,hash(id) % 100 = 1的記錄被放到第二個(gè)桶中。創(chuàng)建分桶表的關(guān)鍵語(yǔ)句為:CLUSTER BY語(yǔ)句。
3、隨機(jī)抽樣 rand()函數(shù)
使用rand()函數(shù)進(jìn)行隨機(jī)抽樣,limit限制抽樣返回的數(shù)據(jù)
比如:一百萬(wàn)的行數(shù)據(jù)中,有10萬(wàn)客戶,隨機(jī)抽取1%的客戶作為樣本
select * from tb where cust_no is not null distribute by rand() sort by rand() limit 10000;
select * from tb where cust_no is not null order by rand() limit 10000;
select * from?
( select *,cast(rand()*10000 as bigint) as rownum from tb where cust_no is not null ) t?
order by rownum ?limit 10000;
樓主您好:
首先,我認(rèn)為大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分模谝栽朴?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來(lái)了,通過(guò)各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個(gè)層面來(lái)展開:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。我會(huì)從大數(shù)據(jù)的特征定義理解行業(yè)對(duì)大數(shù)據(jù)的整體描繪和定性;從對(duì)大數(shù)據(jù)價(jià)值的探討來(lái)深入解析大數(shù)據(jù)的珍貴所在;從對(duì)大數(shù)據(jù)的現(xiàn)在和未來(lái)去洞悉大數(shù)據(jù)的發(fā)展趨勢(shì);從大數(shù)據(jù)隱私這個(gè)特別而重要的視角審視人和數(shù)據(jù)之間的長(zhǎng)久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)的手段和前進(jìn)的基石。我將分別從云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)和感知技術(shù)的發(fā)展來(lái)說(shuō)明大數(shù)據(jù)從采集、處理、存儲(chǔ)到形成結(jié)果的整個(gè)過(guò)程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價(jià)值體現(xiàn)。我將分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個(gè)人的大數(shù)據(jù)四個(gè)方面來(lái)描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
和大數(shù)據(jù)相關(guān)的理論
? 特征定義
最早提出大數(shù)據(jù)時(shí)代到來(lái)的是麥肯錫:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”
業(yè)界(IBM 最早定義)將大數(shù)據(jù)的特征歸納為4個(gè)“V”(量Volume,多樣Variety,價(jià)值Value,速Velocity),或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T);第二,數(shù)據(jù)類型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。第四,處理速度快。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
其實(shí)這些V并不能真正說(shuō)清楚大數(shù)據(jù)的所有特征,下面這張圖對(duì)大數(shù)據(jù)的一些相關(guān)特性做出了有效的說(shuō)明。
36大數(shù)據(jù)
古語(yǔ)云:三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。先不論誰(shuí)說(shuō)的,但是這句話的正確性已經(jīng)不用去論證了。維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中舉了百般例證,都是為了說(shuō)明一個(gè)道理:在大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)的時(shí)候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價(jià)值。書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數(shù)據(jù)二次利用價(jià)值,比如預(yù)測(cè)某地流感爆發(fā)的趨勢(shì);Amazon如何利用用戶的購(gòu)買和瀏覽歷史數(shù)據(jù)進(jìn)行有針對(duì)性的書籍購(gòu)買推薦,以此有效提升銷售量;Farecast如何利用過(guò)去十年所有的航線機(jī)票價(jià)格打折數(shù)據(jù),來(lái)預(yù)測(cè)用戶購(gòu)買機(jī)票的時(shí)機(jī)是否合適。
那么,什么是大數(shù)據(jù)思維?維克托·邁爾-舍恩伯格認(rèn)為,1-需要全部數(shù)據(jù)樣本而不是抽樣;2-關(guān)注效率而不是精確度;3-關(guān)注相關(guān)性而不是因果關(guān)系。
阿里巴巴的王堅(jiān)對(duì)于大數(shù)據(jù)也有一些獨(dú)特的見解,比如,
“今天的數(shù)據(jù)不是大,真正有意思的是數(shù)據(jù)變得在線了,這個(gè)恰恰是互聯(lián)網(wǎng)的特點(diǎn)。”
“非互聯(lián)網(wǎng)時(shí)期的產(chǎn)品,功能一定是它的價(jià)值,今天互聯(lián)網(wǎng)的產(chǎn)品,數(shù)據(jù)一定是它的價(jià)值。”
“你千萬(wàn)不要想著拿數(shù)據(jù)去改進(jìn)一個(gè)業(yè)務(wù),這不是大數(shù)據(jù)。你一定是去做了一件以前做不了的事情。”
特別是最后一點(diǎn),我是非常認(rèn)同的,大數(shù)據(jù)的真正價(jià)值在于創(chuàng)造,在于填補(bǔ)無(wú)數(shù)個(gè)還未實(shí)現(xiàn)過(guò)的空白。
有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無(wú)煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。
? 價(jià)值探討
大數(shù)據(jù)是什么?投資者眼里是金光閃閃的兩個(gè)字:資產(chǎn)。比如,F(xiàn)acebook上市時(shí),評(píng)估機(jī)構(gòu)評(píng)定的有效資產(chǎn)中大部分都是其社交網(wǎng)站上的數(shù)據(jù)。
如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
Target 超市以20多種懷孕期間孕婦可能會(huì)購(gòu)買的商品為基礎(chǔ),將所有用戶的購(gòu)買記錄作為數(shù)據(jù)來(lái)源,通過(guò)構(gòu)建模型分析購(gòu)買者的行為相關(guān)性,能準(zhǔn)確的推斷出孕婦的具體臨盆時(shí)間,這樣Target的銷售部門就可以有針對(duì)的在每個(gè)懷孕顧客的不同階段寄送相應(yīng)的產(chǎn)品優(yōu)惠卷。
Target的例子是一個(gè)很典型的案例,這樣印證了維克托·邁爾-舍恩伯格提過(guò)的一個(gè)很有指導(dǎo)意義的觀點(diǎn):通過(guò)找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,就可以預(yù)測(cè)未來(lái)。Target通過(guò)監(jiān)測(cè)購(gòu)買者購(gòu)買商品的時(shí)間和品種來(lái)準(zhǔn)確預(yù)測(cè)顧客的孕期,這就是對(duì)數(shù)據(jù)的二次利用的典型案例。如果,我們通過(guò)采集駕駛員手機(jī)的GPS數(shù)據(jù),就可以分析出當(dāng)前哪些道路正在堵車,并可以及時(shí)發(fā)布道路交通提醒;通過(guò)采集汽車的GPS位置數(shù)據(jù),就可以分析城市的哪些區(qū)域停車較多,這也代表該區(qū)域有著較為活躍的人群,這些分析數(shù)據(jù)適合賣給廣告投放商。
不管大數(shù)據(jù)的核心價(jià)值是不是預(yù)測(cè),但是基于大數(shù)據(jù)形成決策的模式已經(jīng)為不少的企業(yè)帶來(lái)了盈利和聲譽(yù)。
從大數(shù)據(jù)的價(jià)值鏈條來(lái)分析,存在三種模式:
1- 手握大數(shù)據(jù),但是沒有利用好;比較典型的是金融機(jī)構(gòu),電信行業(yè),政府機(jī)構(gòu)等。
2- 沒有數(shù)據(jù),但是知道如何幫助有數(shù)據(jù)的人利用它;比較典型的是IT咨詢和服務(wù)企業(yè),比如,埃森哲,IBM,Oracle等。
3- 既有數(shù)據(jù),又有大數(shù)據(jù)思維;比較典型的是Google,Amazon,Mastercard等。
未來(lái)在大數(shù)據(jù)領(lǐng)域最具有價(jià)值的是兩種事物:1-擁有大數(shù)據(jù)思維的人,這種人可以將大數(shù)據(jù)的潛在價(jià)值轉(zhuǎn)化為實(shí)際利益;2-還未有被大數(shù)據(jù)觸及過(guò)的業(yè)務(wù)領(lǐng)域。這些是還未被挖掘的油井,金礦,是所謂的藍(lán)海。
Wal-Mart作為零售行業(yè)的巨頭,他們的分析人員會(huì)對(duì)每個(gè)階段的銷售記錄進(jìn)行了全面的分析,有一次他們無(wú)意中發(fā)現(xiàn)雖不相關(guān)但很有價(jià)值的數(shù)據(jù),在美國(guó)的颶風(fēng)來(lái)臨季節(jié),超市的蛋撻和抵御颶風(fēng)物品竟然銷量都有大幅增加,于是他們做了一個(gè)明智決策,就是將蛋撻的銷售位置移到了颶風(fēng)物品銷售區(qū)域旁邊,看起來(lái)是為了方便用戶挑選,但是沒有想到蛋撻的銷量因此又提高了很多。
還有一個(gè)有趣的例子,1948年遼沈戰(zhàn)役期間,司令員林彪要求每天要進(jìn)行例常的“每日軍情匯報(bào)”,由值班參謀讀出下屬各個(gè)縱隊(duì)、師、團(tuán)用電臺(tái)報(bào)告的當(dāng)日戰(zhàn)況和繳獲情況。那幾乎是重復(fù)著千篇一律枯燥無(wú)味的數(shù)據(jù):每支部隊(duì)殲敵多少、俘虜多少;繳獲的火炮、車輛多少,槍支、物資多少……有一天,參謀照例匯報(bào)當(dāng)日的戰(zhàn)況,林彪突然打斷他:“剛才念的在胡家窩棚那個(gè)戰(zhàn)斗的繳獲,你們聽到了嗎?”大家都很茫然,因?yàn)槿绱藨?zhàn)斗每天都有幾十起,不都是差不多一模一樣的枯燥數(shù)字嗎?林彪掃視一周,見無(wú)人回答,便接連問了三句:“為什么那里繳獲的短槍與長(zhǎng)槍的比例比其它戰(zhàn)斗略高?”“為什么那里繳獲和擊毀的小車與大車的比例比其它戰(zhàn)斗略高?”“為什么在那里俘虜和擊斃的軍官與士兵的比例比其它戰(zhàn)斗略高?”林彪司令員大步走向掛滿軍用地圖的墻壁,指著地圖上的那個(gè)點(diǎn)說(shuō):“我猜想,不,我斷定!敵人的指揮所就在這里!”果然,部隊(duì)很快就抓住了敵方的指揮官廖耀湘,并取得這場(chǎng)重要戰(zhàn)役的勝利。
這些例子真實(shí)的反映在各行各業(yè),探求數(shù)據(jù)價(jià)值取決于把握數(shù)據(jù)的人,關(guān)鍵是人的數(shù)據(jù)思維;與其說(shuō)是大數(shù)據(jù)創(chuàng)造了價(jià)值,不如說(shuō)是大數(shù)據(jù)思維觸發(fā)了新的價(jià)值增長(zhǎng)。
? 現(xiàn)在和未來(lái)
我們先看看大數(shù)據(jù)在當(dāng)下有怎樣的杰出表現(xiàn):
大數(shù)據(jù)幫助政府實(shí)現(xiàn)市場(chǎng)經(jīng)濟(jì)調(diào)控、公共衛(wèi)生安全防范、災(zāi)難預(yù)警、社會(huì)輿論監(jiān)督;
大數(shù)據(jù)幫助城市預(yù)防犯罪,實(shí)現(xiàn)智慧交通,提升緊急應(yīng)急能力;
大數(shù)據(jù)幫助醫(yī)療機(jī)構(gòu)建立患者的疾病風(fēng)險(xiǎn)跟蹤機(jī)制,幫助醫(yī)藥企業(yè)提升藥品的臨床使用效果,幫助艾滋病研究機(jī)構(gòu)為患者提供定制的藥物;
大數(shù)據(jù)幫助航空公司節(jié)省運(yùn)營(yíng)成本,幫助電信企業(yè)實(shí)現(xiàn)售后服務(wù)質(zhì)量提升,幫助保險(xiǎn)企業(yè)識(shí)別欺詐騙保行為,幫助快遞公司監(jiān)測(cè)分析運(yùn)輸車輛的故障險(xiǎn)情以提前預(yù)警維修,幫助電力公司有效識(shí)別預(yù)警即將發(fā)生故障的設(shè)備;
大數(shù)據(jù)幫助電商公司向用戶推薦商品和服務(wù),幫助旅游網(wǎng)站為旅游者提供心儀的旅游路線,幫助二手市場(chǎng)的買賣雙方找到最合適的交易目標(biāo),幫助用戶找到最合適的商品購(gòu)買時(shí)期、商家和最優(yōu)惠價(jià)格;
大數(shù)據(jù)幫助企業(yè)提升營(yíng)銷的針對(duì)性,降低物流和庫(kù)存的成本,減少投資的風(fēng)險(xiǎn),以及幫助企業(yè)提升廣告投放精準(zhǔn)度;
大數(shù)據(jù)幫助娛樂行業(yè)預(yù)測(cè)歌手,歌曲,電影,電視劇的受歡迎程度,并為投資者分析評(píng)估拍一部電影需要投入多少錢才最合適,否則就有可能收不回成本;
大數(shù)據(jù)幫助社交網(wǎng)站提供更準(zhǔn)確的好友推薦,為用戶提供更精準(zhǔn)的企業(yè)招聘信息,向用戶推薦可能喜歡的游戲以及適合購(gòu)買的商品。
其實(shí),這些還遠(yuǎn)遠(yuǎn)不夠,未來(lái)大數(shù)據(jù)的身影應(yīng)該無(wú)處不在,就算無(wú)法準(zhǔn)確預(yù)測(cè)大數(shù)據(jù)終會(huì)將人類社會(huì)帶往到哪種最終形態(tài),但我相信只要發(fā)展腳步在繼續(xù),因大數(shù)據(jù)而產(chǎn)生的變革浪潮將很快淹沒地球的每一個(gè)角落。
比如,Amazon的最終期望是:“最成功的書籍推薦應(yīng)該只有一本書,就是用戶要買的下一本書。”
Google也希望當(dāng)用戶在搜索時(shí),最好的體驗(yàn)是搜索結(jié)果只包含用戶所需要的內(nèi)容,而這并不需要用戶給予Google太多的提示。
而當(dāng)物聯(lián)網(wǎng)發(fā)展到達(dá)一定規(guī)模時(shí),借助條形碼、二維碼、RFID等能夠唯一標(biāo)識(shí)產(chǎn)品,傳感器、可穿戴設(shè)備、智能感知、視頻采集、增強(qiáng)現(xiàn)實(shí)等技術(shù)可實(shí)現(xiàn)實(shí)時(shí)的信息采集和分析,這些數(shù)據(jù)能夠支撐智慧城市,智慧交通,智慧能源,智慧醫(yī)療,智慧環(huán)保的理念需要,這些都所謂的智慧將是大數(shù)據(jù)的采集數(shù)據(jù)來(lái)源和服務(wù)范圍。
未來(lái)的大數(shù)據(jù)除了將更好的解決社會(huì)問題,商業(yè)營(yíng)銷問題,科學(xué)技術(shù)問題,還有一個(gè)可預(yù)見的趨勢(shì)是以人為本的大數(shù)據(jù)方針。人才是地球的主宰,大部分的數(shù)據(jù)都與人類有關(guān),要通過(guò)大數(shù)據(jù)解決人的問題。
比如,建立個(gè)人的數(shù)據(jù)中心,將每個(gè)人的日常生活習(xí)慣,身體體征,社會(huì)網(wǎng)絡(luò),知識(shí)能力,愛好性情,疾病嗜好,情緒波動(dòng)……換言之就是記錄人從出生那一刻起的每一分每一秒,將除了思維外的一切都儲(chǔ)存下來(lái),這些數(shù)據(jù)可以被充分的利用:
醫(yī)療機(jī)構(gòu)將實(shí)時(shí)的監(jiān)測(cè)用戶的身體健康狀況;
教育機(jī)構(gòu)更有針對(duì)的制定用戶喜歡的教育培訓(xùn)計(jì)劃;
服務(wù)行業(yè)為用戶提供即時(shí)健康的符合用戶生活習(xí)慣的食物和其它服務(wù);
社交網(wǎng)絡(luò)能為你提供合適的交友對(duì)象,并為志同道合的人群組織各種聚會(huì)活動(dòng);
政府能在用戶的心理健康出現(xiàn)問題時(shí)有效的干預(yù),防范自殺,刑事案件的發(fā)生;
金融機(jī)構(gòu)能幫助用戶進(jìn)行有效的理財(cái)管理,為用戶的資金提供更有效的使用建議和規(guī)劃;
道路交通、汽車租賃及運(yùn)輸行業(yè)可以為用戶提供更合適的出行線路和路途服務(wù)安排;
……
當(dāng)然,上面的一切看起來(lái)都很美好,但是否是以犧牲了用戶的自由為前提呢?只能說(shuō)當(dāng)新鮮事物帶來(lái)了革新的同時(shí)也同樣帶來(lái)了“病菌”。比如,在手機(jī)未普及前,大家喜歡聚在一起聊天,自從手機(jī)普及后特別是有了互聯(lián)網(wǎng),大家不用聚在一起也可以隨時(shí)隨地的聊天,只是“病菌”滋生了另外一種情形,大家慢慢習(xí)慣了和手機(jī)共渡時(shí)光,人與人之間情感交流仿佛永遠(yuǎn)隔著一張“網(wǎng)”。
? 大數(shù)據(jù)隱私
你或許并不敏感,當(dāng)你在不同的網(wǎng)站上注冊(cè)了個(gè)人信息后,可能這些信息已經(jīng)被擴(kuò)散出去了,當(dāng)你莫名其妙的接到各種郵件,電話,短信的滋擾時(shí),你不會(huì)想到自己的電話號(hào)碼,郵箱,生日,購(gòu)買記錄,收入水平,家庭住址,親朋好友等私人信息早就被各種商業(yè)機(jī)構(gòu)非法存儲(chǔ)或賤賣給其它任何有需要的企業(yè)或個(gè)人了。
更可怕的是,這些信息你永遠(yuǎn)無(wú)法刪除,它們永遠(yuǎn)存在于互聯(lián)網(wǎng)的某些你不知道的角落。除非你更換掉自己的所有信息,但是這代價(jià)太大了。
用戶隱私問題一直是大數(shù)據(jù)應(yīng)用難以繞開的一個(gè)問題,如被央視曝光過(guò)的分眾無(wú)線、羅維鄧白氏以及網(wǎng)易郵箱都涉及侵犯用戶隱私。目前,中國(guó)并沒有專門的法律法規(guī)來(lái)界定用戶隱私,處理相關(guān)問題時(shí)多采用其他相關(guān)法規(guī)條例來(lái)解釋。但隨著民眾隱私意識(shí)的日益增強(qiáng),合法合規(guī)地獲取數(shù)據(jù)、分析數(shù)據(jù)和應(yīng)用數(shù)據(jù),是進(jìn)行大數(shù)據(jù)分析時(shí)必須遵循的原則。
說(shuō)到隱私被侵犯,愛德華?斯諾登應(yīng)該占據(jù)一席之地,這位前美國(guó)中央情報(bào)局(CIA)雇員一手引爆了美國(guó)“棱鏡計(jì)劃”(PRISM)的內(nèi)幕消息。“棱鏡”項(xiàng)目是一項(xiàng)由美國(guó)國(guó)家安全局(NSA)自2007年起開始實(shí)施的絕密電子監(jiān)聽計(jì)劃,年耗資近2000億美元,用于監(jiān)聽全美電話通話記錄,據(jù)稱還可以使情報(bào)人員通過(guò)“后門”進(jìn)入9家主要科技公司的服務(wù)器,包括微軟、雅虎、谷歌、Facebook、PalTalk、美國(guó)在線、Skype、YouTube、蘋果。這個(gè)事件引發(fā)了人們對(duì)政府使用大數(shù)據(jù)時(shí)對(duì)公民隱私侵犯的擔(dān)心。
再看看我們身邊,當(dāng)微博,微信,QQ空間這些社交平臺(tái)肆意的吞噬著數(shù)億用戶的各種信息時(shí),你就不要指望你還有隱私權(quán)了,就算你在某個(gè)地方刪除了,但也許這些信息已經(jīng)被其他人轉(zhuǎn)載或保存了,更有可能已經(jīng)被百度或Google存為快照,早就提供給任意用戶搜索了。
因此在大數(shù)據(jù)的背景下,很多人都在積極的抵制無(wú)底線的數(shù)字化,這種大數(shù)據(jù)和個(gè)體之間的博弈還會(huì)一直繼續(xù)下去……
專家給予了我們一些如何有效保護(hù)大數(shù)據(jù)背景下隱私權(quán)的建議:1-減少信息的數(shù)字化;2-隱私權(quán)立法;3-數(shù)字隱私權(quán)基礎(chǔ)設(shè)施(類似DRM數(shù)字版權(quán)管理);4-人類改變認(rèn)知(接受忽略過(guò)去);5-創(chuàng)造良性的信息生態(tài);6-語(yǔ)境化。
但是這些都很難立即見效或者有實(shí)質(zhì)性的改善。
比如,現(xiàn)在有一種職業(yè)叫刪帖人,專門負(fù)責(zé)幫人到各大網(wǎng)站刪帖,刪除評(píng)論。其實(shí)這些人就是通過(guò)黑客技術(shù)侵入各大網(wǎng)站,破獲管理員的密碼然后進(jìn)行手工定向刪除。只不過(guò)他們保護(hù)的不是客戶的隱私,而大多是丑聞。還有一種職業(yè)叫人肉專家,他們負(fù)責(zé)從互聯(lián)網(wǎng)上找到一個(gè)與他們根本就無(wú)關(guān)系用戶的任意信息。這是很可怕的事情,也就是說(shuō),如果有人想找到你,只需要兩個(gè)條件:1-你上過(guò)網(wǎng),留下過(guò)痕跡;2-你的親朋好友或僅僅是認(rèn)識(shí)你的人上過(guò)網(wǎng),留下過(guò)你的痕跡。這兩個(gè)條件滿足其一,人肉專家就可以很輕松的找到你,可能還知道你現(xiàn)在正在某個(gè)餐廳和誰(shuí)一起共進(jìn)晚餐。
當(dāng)很多互聯(lián)網(wǎng)企業(yè)意識(shí)到隱私對(duì)于用戶的重要性時(shí),為了繼續(xù)得到用戶的信任,他們采取了很多辦法,比如google承諾僅保留用戶的搜索記錄9個(gè)月,瀏覽器廠商提供了無(wú)痕沖浪模式,社交網(wǎng)站拒絕公共搜索引擎的爬蟲進(jìn)入,并將提供出去的數(shù)據(jù)全部采取匿名方式處理等。
在這種復(fù)雜的環(huán)境里面,很多人依然沒有建立對(duì)于信息隱私的保護(hù)意識(shí),讓自己一直處于被滋擾,被精心設(shè)計(jì),被利用,被監(jiān)視的處境中。可是,我們能做的幾乎微乎其微,因?yàn)閭€(gè)人隱私數(shù)據(jù)已經(jīng)無(wú)法由我們自己掌控了,就像一首詩(shī)里說(shuō)到的:“如果你現(xiàn)在繼續(xù)麻木,那就別指望這麻木能抵擋得住被”扒光”那一刻的驚恐和絕望……”
和大數(shù)據(jù)相關(guān)的技術(shù)
? 云技術(shù)
大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要分布式處理框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)萬(wàn)的電腦分配工作。可以說(shuō),云計(jì)算充當(dāng)了工業(yè)革命時(shí)期的發(fā)動(dòng)機(jī)的角色,而大數(shù)據(jù)則是電。
云計(jì)算思想的起源是麥卡錫在上世紀(jì)60年代提出的:把計(jì)算能力作為一種像水和電一樣的公用事業(yè)提供給用戶。
如今,在Google、Amazon、Facebook等一批互聯(lián)網(wǎng)企業(yè)引領(lǐng)下,一種行之有效的模式出現(xiàn)了:云計(jì)算提供基礎(chǔ)架構(gòu)平臺(tái),大數(shù)據(jù)應(yīng)用運(yùn)行在這個(gè)平臺(tái)上。
業(yè)內(nèi)是這么形容兩者的關(guān)系:沒有大數(shù)據(jù)的信息積淀,則云計(jì)算的計(jì)算能力再?gòu)?qiáng)大,也難以找到用武之地;沒有云計(jì)算的處理能力,則大數(shù)據(jù)的信息積淀再豐富,也終究只是鏡花水月。
那么大數(shù)據(jù)到底需要哪些云計(jì)算技術(shù)呢?
這里暫且列舉一些,比如虛擬化技術(shù),分布式處理技術(shù),海量數(shù)據(jù)的存儲(chǔ)和管理技術(shù),NoSQL、實(shí)時(shí)流數(shù)據(jù)處理、智能分析技術(shù)(類似模式識(shí)別以及自然語(yǔ)言理解)等。
云計(jì)算和大數(shù)據(jù)之間的關(guān)系可以用下面的一張圖來(lái)說(shuō)明,兩者之間結(jié)合后會(huì)產(chǎn)生如下效應(yīng):可以提供更多基于海量業(yè)務(wù)數(shù)據(jù)的創(chuàng)新型服務(wù);通過(guò)云計(jì)算技術(shù)的不斷發(fā)展降低大數(shù)據(jù)業(yè)務(wù)的創(chuàng)新成本。
36大數(shù)據(jù)
如果將云計(jì)算與大數(shù)據(jù)進(jìn)行一些比較,最明顯的區(qū)分在兩個(gè)方面:
第一,在概念上兩者有所不同,云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)。然而大數(shù)據(jù)必須有云作為基礎(chǔ)架構(gòu),才能得以順暢運(yùn)營(yíng)。
第二,大數(shù)據(jù)和云計(jì)算的目標(biāo)受眾不同,云計(jì)算是CIO等關(guān)心的技術(shù)層,是一個(gè)進(jìn)階的IT解決方案。而大數(shù)據(jù)是CEO關(guān)注的、是業(yè)務(wù)層的產(chǎn)品,而大數(shù)據(jù)的決策者是業(yè)務(wù)層。
詳情:
作者 | 網(wǎng)絡(luò)大數(shù)據(jù)
來(lái)源 | 產(chǎn)業(yè)智能官
數(shù)據(jù)處理是對(duì)紛繁復(fù)雜的海量數(shù)據(jù)價(jià)值的提煉,而其中最有價(jià)值的地方在于預(yù)測(cè)性分析,即可以通過(guò)數(shù)據(jù)可視化、統(tǒng)計(jì)模式識(shí)別、數(shù)據(jù)描述等數(shù)據(jù)挖掘形式幫助數(shù)據(jù)科學(xué)家更好的理解數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘的結(jié)果得出預(yù)測(cè)性決策。其中主要工作環(huán)節(jié)包括:
大數(shù)據(jù)采集 大數(shù)據(jù)預(yù)處理 大數(shù)據(jù)存儲(chǔ)及管理 大數(shù)據(jù)分析及挖掘 大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。
一、大數(shù)據(jù)采集技術(shù)
數(shù)據(jù)是指通過(guò)RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識(shí)服務(wù)模型的根本。重點(diǎn)要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù);突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù);設(shè)計(jì)質(zhì)量評(píng)估模型,開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。
大數(shù)據(jù)采集一般分為:
大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。必須著重攻克針對(duì)大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)。
基礎(chǔ)支撐層:提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。重點(diǎn)攻克分布式虛擬存儲(chǔ)技術(shù),大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。
二、大數(shù)據(jù)預(yù)處理技術(shù)
完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗等操作。
抽取:因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過(guò)程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。
清洗:對(duì)于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),因此要對(duì)數(shù)據(jù)通過(guò)過(guò)濾“去噪”從而提取出有效數(shù)據(jù)。
三、大數(shù)據(jù)存儲(chǔ)及管理技術(shù)
大數(shù)據(jù)存儲(chǔ)與管理要用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來(lái),建立相應(yīng)的數(shù)據(jù)庫(kù),并進(jìn)行管理和調(diào)用。重點(diǎn)解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。主要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。開發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。
開發(fā)新型數(shù)據(jù)庫(kù)技術(shù),數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)緩存系統(tǒng)。其中,非關(guān)系型數(shù)據(jù)庫(kù)主要指的是NoSQL數(shù)據(jù)庫(kù),分為:鍵值數(shù)據(jù)庫(kù)、列存數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)以及文檔數(shù)據(jù)庫(kù)等類型。關(guān)系型數(shù)據(jù)庫(kù)包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)以及NewSQL數(shù)據(jù)庫(kù)。
開發(fā)大數(shù)據(jù)安全技術(shù):改進(jìn)數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計(jì)等技術(shù);突破隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R(shí)別和取證、數(shù)據(jù)持有完整性驗(yàn)證等技術(shù)。
四、大數(shù)據(jù)分析及挖掘技術(shù)
大數(shù)據(jù)分析技術(shù):改進(jìn)已有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù);開發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語(yǔ)義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)挖掘涉及的技術(shù)方法很多,有多種分類法。根據(jù)挖掘任務(wù)可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。
機(jī)器學(xué)習(xí)中,可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
數(shù)據(jù)挖掘主要過(guò)程是:根據(jù)分析挖掘目標(biāo),從數(shù)據(jù)庫(kù)中把數(shù)據(jù)提取出來(lái),然后經(jīng)過(guò)ETL組織成適合分析挖掘算法使用寬表,然后利用數(shù)據(jù)挖掘軟件進(jìn)行挖掘。傳統(tǒng)的數(shù)據(jù)挖掘軟件,一般只能支持在單機(jī)上進(jìn)行小規(guī)模數(shù)據(jù)處理,受此限制傳統(tǒng)數(shù)據(jù)分析挖掘一般會(huì)采用抽樣方式來(lái)減少數(shù)據(jù)分析規(guī)模。
數(shù)據(jù)挖掘的計(jì)算復(fù)雜度和靈活度遠(yuǎn)遠(yuǎn)超過(guò)前兩類需求。一是由于數(shù)據(jù)挖掘問題開放性,導(dǎo)致數(shù)據(jù)挖掘會(huì)涉及大量衍生變量計(jì)算,衍生變量多變導(dǎo)致數(shù)據(jù)預(yù)處理計(jì)算復(fù)雜性;二是很多數(shù)據(jù)挖掘算法本身就比較復(fù)雜,計(jì)算量就很大,特別是大量機(jī)器學(xué)習(xí)算法,都是迭代計(jì)算,需要通過(guò)多次迭代來(lái)求最優(yōu)解,例如K-means聚類算法、PageRank算法等。
從挖掘任務(wù)和挖掘方法的角度,著重突破:
可視化分析。數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話,讓用戶直觀的感受到結(jié)果。 數(shù)據(jù)挖掘算法。圖像化是將機(jī)器語(yǔ)言翻譯給人看,而數(shù)據(jù)挖掘就是機(jī)器的母語(yǔ)。分割、集群、孤立點(diǎn)分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價(jià)值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時(shí)還具有很高的處理速度。 預(yù)測(cè)性分析。預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。 語(yǔ)義引擎。語(yǔ)義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。語(yǔ)言處理技術(shù)包括機(jī)器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。 數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐,透過(guò)標(biāo)準(zhǔn)化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)行處理可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果。
預(yù)測(cè)分析成功的7個(gè)秘訣
預(yù)測(cè)未來(lái)一直是一個(gè)冒險(xiǎn)的命題。幸運(yùn)的是,預(yù)測(cè)分析技術(shù)的出現(xiàn)使得用戶能夠基于歷史數(shù)據(jù)和分析技術(shù)(如統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí))預(yù)測(cè)未來(lái)的結(jié)果,這使得預(yù)測(cè)結(jié)果和趨勢(shì)變得比過(guò)去幾年更加可靠。
盡管如此,與任何新興技術(shù)一樣,想要充分發(fā)揮預(yù)測(cè)分析的潛力也是很難的。而可能使挑戰(zhàn)變得更加復(fù)雜的是,由不完善的策略或預(yù)測(cè)分析工具的誤用導(dǎo)致的不準(zhǔn)確或誤導(dǎo)性的結(jié)果可能在幾周、幾個(gè)月甚至幾年內(nèi)才會(huì)顯現(xiàn)出來(lái)。
預(yù)測(cè)分析有可能徹底改變?cè)S多的行業(yè)和業(yè)務(wù),包括零售、制造、供應(yīng)鏈、網(wǎng)絡(luò)管理、金融服務(wù)和醫(yī)療保健。AI網(wǎng)絡(luò)技術(shù)公司Mist Systems的聯(lián)合創(chuàng)始人、首席技術(shù)官Bob fridy預(yù)測(cè):“深度學(xué)習(xí)和預(yù)測(cè)性AI分析技術(shù)將會(huì)改變我們社會(huì)的所有部分,就像十年來(lái)互聯(lián)網(wǎng)和蜂窩技術(shù)所帶來(lái)的轉(zhuǎn)變一樣。”。
這里有七個(gè)建議,旨在幫助您的組織充分利用其預(yù)測(cè)分析計(jì)劃。
1.能夠訪問高質(zhì)量、易于理解的數(shù)據(jù)
預(yù)測(cè)分析應(yīng)用程序需要大量數(shù)據(jù),并依賴于通過(guò)反饋循環(huán)提供的信息來(lái)不斷改進(jìn)。全球IT解決方案和服務(wù)提供商Infotech的首席數(shù)據(jù)和分析官Soumendra Mohanty評(píng)論道:“數(shù)據(jù)和預(yù)測(cè)分析之間是相互促進(jìn)的關(guān)系。”
了解流入預(yù)測(cè)分析模型的數(shù)據(jù)類型非常重要。“一個(gè)人身上會(huì)有什么樣的數(shù)據(jù)?” Eric Feigl - Ding問道,他是流行病學(xué)家、營(yíng)養(yǎng)學(xué)家和健康經(jīng)濟(jì)學(xué)家,目前是哈佛陳氏公共衛(wèi)生學(xué)院的訪問科學(xué)家。“是每天都在Facebook和谷歌上收集的實(shí)時(shí)數(shù)據(jù),還是難以訪問的醫(yī)療記錄所需的醫(yī)療數(shù)據(jù)?”為了做出準(zhǔn)確的預(yù)測(cè),模型需要被設(shè)計(jì)成能夠處理它所吸收的特定類型的數(shù)據(jù)。
簡(jiǎn)單地將大量數(shù)據(jù)扔向計(jì)算資源的預(yù)測(cè)建模工作注定會(huì)失敗。“由于存在大量數(shù)據(jù),而其中大部分?jǐn)?shù)據(jù)可能與特定問題無(wú)關(guān),只是在給定樣本中可能存在相關(guān)關(guān)系,”FactSet投資組合管理和交易解決方案副總裁兼研究主管Henri Waelbroeck解釋道,F(xiàn)actSet是一家金融數(shù)據(jù)和軟件公司。“如果不了解產(chǎn)生數(shù)據(jù)的過(guò)程,一個(gè)在有偏見的數(shù)據(jù)上訓(xùn)練的模型可能是完全錯(cuò)誤的。”
2.找到合適的模式
SAP高級(jí)分析產(chǎn)品經(jīng)理Richard Mooney指出,每個(gè)人都癡迷于算法,但是算法必須和輸入到算法中的數(shù)據(jù)一樣好。“如果找不到適合的模式,那么他們就毫無(wú)用處,”他寫道。“大多數(shù)數(shù)據(jù)集都有其隱藏的模式。”
模式通常以兩種方式隱藏:
模式位于兩列之間的關(guān)系中。例如,可以通過(guò)即將進(jìn)行的交易的截止日期信息與相關(guān)的電子郵件開盤價(jià)數(shù)據(jù)進(jìn)行比較來(lái)發(fā)現(xiàn)一種模式。Mooney說(shuō):“如果交易即將結(jié)束,電子郵件的公開率應(yīng)該會(huì)大幅提高,因?yàn)橘I方會(huì)有很多人需要閱讀并審查合同。”
模式顯示了變量隨時(shí)間變化的關(guān)系。“以上面的例子為例,了解客戶打開了200次電子郵件并不像知道他們?cè)谏现艽蜷_了175次那樣有用,”Mooney說(shuō)。
3 .專注于可管理的任務(wù),這些任務(wù)可能會(huì)帶來(lái)積極的投資回報(bào)
紐約理工學(xué)院的分析和商業(yè)智能主任Michael Urmeneta稱:“如今,人們很想把機(jī)器學(xué)習(xí)算法應(yīng)用到海量數(shù)據(jù)上,以期獲得更深刻的見解。”他說(shuō),這種方法的問題在于,它就像試圖一次治愈所有形式的癌癥一樣。Urmeneta解釋說(shuō):“這會(huì)導(dǎo)致問題太大,數(shù)據(jù)太亂——沒有足夠的資金和足夠的支持。這樣是不可能獲得成功的。”
而當(dāng)任務(wù)相對(duì)集中時(shí),成功的可能性就會(huì)大得多。Urmeneta指出:“如果有問題的話,我們很可能會(huì)接觸到那些能夠理解復(fù)雜關(guān)系的專家” 。“這樣,我們就很可能會(huì)有更清晰或更好理解的數(shù)據(jù)來(lái)進(jìn)行處理。”
4.使用正確的方法來(lái)完成工作
好消息是,幾乎有無(wú)數(shù)的方法可以用來(lái)生成精確的預(yù)測(cè)分析。然而,這也是個(gè)壞消息。芝加哥大學(xué)NORC (前國(guó)家意見研究中心)的行為、經(jīng)濟(jì)分析和決策實(shí)踐主任Angela Fontes說(shuō):“每天都有新的、熱門的分析方法出現(xiàn),使用新方法很容易讓人興奮”。“然而,根據(jù)我的經(jīng)驗(yàn),最成功的項(xiàng)目是那些真正深入思考分析結(jié)果并讓其指導(dǎo)他們選擇方法的項(xiàng)目——即使最合適的方法并不是最性感、最新的方法。”
羅切斯特理工學(xué)院計(jì)算機(jī)工程系主任、副教授shanchie Jay Yang建議說(shuō):“用戶必須謹(jǐn)慎選擇適合他們需求的方法”。“必須擁有一種高效且可解釋的技術(shù),一種可以利用序列數(shù)據(jù)、時(shí)間數(shù)據(jù)的統(tǒng)計(jì)特性,然后將其外推到最有可能的未來(lái),”Yang說(shuō)。
5.用精確定義的目標(biāo)構(gòu)建模型
這似乎是顯而易見的,但許多預(yù)測(cè)分析項(xiàng)目開始時(shí)的目標(biāo)是構(gòu)建一個(gè)宏偉的模型,卻沒有一個(gè)明確的最終使用計(jì)劃。“有很多很棒的模型從來(lái)沒有被人使用過(guò),因?yàn)闆]有人知道如何使用這些模型來(lái)實(shí)現(xiàn)或提供價(jià)值,”汽車、保險(xiǎn)和碰撞修復(fù)行業(yè)的SaaS提供商CCC信息服務(wù)公司的產(chǎn)品管理高級(jí)副總裁Jason Verlen評(píng)論道。
對(duì)此,F(xiàn)ontes也表示同意。“使用正確的工具肯定會(huì)確保我們從分析中得到想要的結(jié)果……”因?yàn)檫@迫使我們必須對(duì)自己的目標(biāo)非常清楚,”她解釋道。“如果我們不清楚分析的目標(biāo),就永遠(yuǎn)也不可能真正得到我們想要的東西。”
6.在IT和相關(guān)業(yè)務(wù)部門之間建立密切的合作關(guān)系
在業(yè)務(wù)和技術(shù)組織之間建立牢固的合作伙伴關(guān)系是至關(guān)重要的。客戶體驗(yàn)技術(shù)提供商Genesys的人工智能產(chǎn)品管理副總裁Paul lasserr說(shuō):“你應(yīng)該能夠理解新技術(shù)如何應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)或改善現(xiàn)有的業(yè)務(wù)環(huán)境。”然后,一旦設(shè)置了目標(biāo),就可以在一個(gè)限定范圍的應(yīng)用程序中測(cè)試模型,以確定解決方案是否真正提供了所需的價(jià)值。
7.不要被設(shè)計(jì)不良的模型誤導(dǎo)
模型是由人設(shè)計(jì)的,所以它們經(jīng)常包含著潛在的缺陷。錯(cuò)誤的模型或使用不正確或不當(dāng)?shù)臄?shù)據(jù)構(gòu)建的模型很容易產(chǎn)生誤導(dǎo),在極端情況下,甚至?xí)a(chǎn)生完全錯(cuò)誤的預(yù)測(cè)。
沒有實(shí)現(xiàn)適當(dāng)隨機(jī)化的選擇偏差會(huì)混淆預(yù)測(cè)。例如,在一項(xiàng)假設(shè)的減肥研究中,可能有50%的參與者選擇退出后續(xù)的體重測(cè)量。然而,那些中途退出的人與留下來(lái)的人有著不同的體重軌跡。這使得分析變得復(fù)雜,因?yàn)樵谶@樣的研究中,那些堅(jiān)持參加這個(gè)項(xiàng)目的人通常是那些真正減肥的人。另一方面,戒煙者通常是那些很少或根本沒有減肥經(jīng)歷的人。因此,雖然減肥在整個(gè)世界都是具有因果性和可預(yù)測(cè)性的,但在一個(gè)有50%退出率的有限數(shù)據(jù)庫(kù)中,實(shí)際的減肥結(jié)果可能會(huì)被隱藏起來(lái)。
六、大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù)
大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識(shí)挖掘出來(lái),為人類的社會(huì)經(jīng)濟(jì)活動(dòng)提供依據(jù),從而提高各個(gè)領(lǐng)域的運(yùn)行效率,大大提高整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。
在我國(guó),大數(shù)據(jù)將重點(diǎn)應(yīng)用于以下三大領(lǐng)域:商業(yè)智能 、政府決策、公共服務(wù)。例如:商業(yè)智能技術(shù),政府決策技術(shù),電信數(shù)據(jù)信息處理與挖掘技術(shù),電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù),氣象信息分析技術(shù),環(huán)境監(jiān)測(cè)技術(shù),警務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng)),大規(guī)模基因序列分析比對(duì)技術(shù),Web信息挖掘技術(shù),多媒體數(shù)據(jù)并行化處理技術(shù),影視制作渲染技術(shù),其他各種行業(yè)的云計(jì)算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。
外行人的大數(shù)據(jù)五問 帶你了解大數(shù)據(jù)
大數(shù)據(jù)是什么?是一種運(yùn)營(yíng)模式,是一種能力,還是一種技術(shù),或是一種數(shù)據(jù)集合的統(tǒng)稱?今天我們所說(shuō)的“大數(shù)據(jù)”和過(guò)去傳統(tǒng)意義上的“數(shù)據(jù)”的區(qū)別又在哪里?大數(shù)據(jù)有什么特點(diǎn)?來(lái)源有哪些?又應(yīng)用于哪些方面等等。接下來(lái)小編帶您一起了解大數(shù)據(jù)。
大數(shù)據(jù)概念
"大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。 "大數(shù)據(jù)"首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在10TB?規(guī)模左右,但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。
百度知道—大數(shù)據(jù)概念
大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)的4V特點(diǎn):Volume、Velocity、Variety、Veracity。
互聯(lián)網(wǎng)周刊—大數(shù)據(jù)概念
"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個(gè)V"之類的簡(jiǎn)單概念,而是涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無(wú)法實(shí)現(xiàn)的。換句話說(shuō),大數(shù)據(jù)讓我們以一種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成變革之力
研究機(jī)構(gòu)Gartner—大數(shù)據(jù)概念
"大數(shù)據(jù)"是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,"大數(shù)據(jù)"指的是無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。 亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser提到一個(gè)簡(jiǎn)單的定義:大數(shù)據(jù)就是任何超過(guò)了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。 研發(fā)小組對(duì)大數(shù)據(jù)的定義:"大數(shù)據(jù)是最大的宣傳技術(shù)、是最時(shí)髦的技術(shù),當(dāng)這種現(xiàn)象出現(xiàn)時(shí),定義就變得很混亂。" Kelly說(shuō):"大數(shù)據(jù)是可能不包含所有的信息,但我覺得大部分是正確的。對(duì)大數(shù)據(jù)的一部分認(rèn)知在于,它是如此之大,分析它需要多個(gè)工作負(fù)載,這是AWS的定義。當(dāng)你的技術(shù)達(dá)到極限時(shí),也就是數(shù)據(jù)的極限"。 大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫(kù)相比,開源的大數(shù)據(jù)分析工具的如Hadoop的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價(jià)值在哪里。
大數(shù)據(jù)分析
眾所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。基于如此的認(rèn)識(shí),大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?
大數(shù)據(jù)技術(shù)
數(shù)據(jù)采集:ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等。
基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
數(shù)據(jù)處理:自然語(yǔ)言處理(NLP,NaturalLanguageProcessing)是研究人與計(jì)算機(jī)交互的語(yǔ)言問題的一門學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理解(NLU,NaturalLanguage Understanding),也稱為計(jì)算語(yǔ)言學(xué)(Computational Linguistics。一方面它是語(yǔ)言信息處理的一個(gè)分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。
統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘:分類 (Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)
模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。
大數(shù)據(jù)特點(diǎn)
要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過(guò)去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個(gè)V來(lái)總結(jié)(Vol-ume、Variety、Value和Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。
第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別。
第二,數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。
第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。
大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說(shuō)的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過(guò)解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。
當(dāng)下我國(guó)大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個(gè)方面著力
一是建立一套運(yùn)行機(jī)制。大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過(guò)程中各個(gè)環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)合,搞好頂層設(shè)計(jì)。
二是規(guī)范一套建設(shè)標(biāo)準(zhǔn)。沒有標(biāo)準(zhǔn)就沒有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個(gè)領(lǐng)域、不斷動(dòng)態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實(shí)現(xiàn)各級(jí)各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。
三是搭建一個(gè)共享平臺(tái)。數(shù)據(jù)只有不斷流動(dòng)和充分共享,才有生命力。應(yīng)在各專用數(shù)據(jù)庫(kù)建設(shè)的基礎(chǔ)上,通過(guò)數(shù)據(jù)集成,實(shí)現(xiàn)各級(jí)各類指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。
四是培養(yǎng)一支專業(yè)隊(duì)伍。大數(shù)據(jù)建設(shè)的每個(gè)環(huán)節(jié)都需要依靠專業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊(duì)伍。
大數(shù)據(jù)作用
大數(shù)據(jù)時(shí)代到來(lái),認(rèn)同這一判斷的人越來(lái)越多。那么大數(shù)據(jù)意味著什么,他到底會(huì)改變什么??jī)H僅從技術(shù)角度回答,已不足以解惑。大數(shù)據(jù)只是賓語(yǔ),離開了人這個(gè)主語(yǔ),它再大也沒有意義。我們需要把大數(shù)據(jù)放在人的背景中加以透視,理解它作為時(shí)代變革力量的所以然。
變革價(jià)值的力量
未來(lái)十年,決定中國(guó)是不是有大智慧的核心意義標(biāo)準(zhǔn)(那個(gè)"思想者"),就是國(guó)民幸福。一體現(xiàn)在民生上,通過(guò)大數(shù)據(jù)讓有意義的事變得澄明,看我們?cè)谌伺c人關(guān)系上,做得是否比以前更有意義;二體現(xiàn)在生態(tài)上,通過(guò)大數(shù)據(jù)讓有意義的事變得澄明,看我們?cè)谔炫c人關(guān)系上,做得是否比以前更有意義。總之,讓我們從前10年的意義混沌時(shí)代,進(jìn)入未來(lái)10年意義澄明時(shí)代。
變革經(jīng)濟(jì)的力量
生產(chǎn)者是有價(jià)值的,消費(fèi)者是價(jià)值的意義所在。有意義的才有價(jià)值,消費(fèi)者不認(rèn)同的,就賣不出去,就實(shí)現(xiàn)不了價(jià)值;只有消費(fèi)者認(rèn)同的,才賣得出去,才實(shí)現(xiàn)得了價(jià)值。大數(shù)據(jù)幫助我們從消費(fèi)者這個(gè)源頭識(shí)別意義,從而幫助生產(chǎn)者實(shí)現(xiàn)價(jià)值。這就是啟動(dòng)內(nèi)需的原理。
變革組織的力量
隨著具有語(yǔ)義網(wǎng)特征的數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)據(jù)資源發(fā)展起來(lái),組織的變革就越來(lái)越顯得不可避免。大數(shù)據(jù)將推動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)生無(wú)組織的組織力量。最先反映這種結(jié)構(gòu)特點(diǎn)的,是各種各樣去中心化的WEB2.0應(yīng)用,如RSS、維基、博客等。
大數(shù)據(jù)之所以成為時(shí)代變革力量,在于它通過(guò)追隨意義而獲得智慧。
大數(shù)據(jù)處理
大數(shù)據(jù)處理數(shù)據(jù)時(shí)代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。
大數(shù)據(jù)處理的流程
具體的大數(shù)據(jù)處理方法確實(shí)有很多,但是根據(jù)筆者長(zhǎng)時(shí)間的實(shí)踐,總結(jié)了一個(gè)普遍適用的大數(shù)據(jù)處理流程,并且這個(gè)流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,最后是數(shù)據(jù)挖掘。
大數(shù)據(jù)處理之一:采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶來(lái)進(jìn)行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。
大數(shù)據(jù)處理之二:導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。
導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
大數(shù)據(jù)處理之三:統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
大數(shù)據(jù)處理之四:挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。
整個(gè)大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個(gè)方面的步驟,才能算得上是一個(gè)比較完整的大數(shù)據(jù)處理。
大數(shù)據(jù)應(yīng)用與案例分析
大數(shù)據(jù)應(yīng)用的關(guān)鍵,也是其必要條件,就在于"IT"與"經(jīng)營(yíng)"的融合,當(dāng)然,這里的經(jīng)營(yíng)的內(nèi)涵可以非常廣泛,小至一個(gè)零售門店的經(jīng)營(yíng),大至一個(gè)城市的經(jīng)營(yíng)。以下是我整理的關(guān)于各行各業(yè),不同的組織機(jī)構(gòu)在大數(shù)據(jù)方面的應(yīng)用的案例,在此申明,以下案例均來(lái)源于網(wǎng)絡(luò),本文僅作引用,并在此基礎(chǔ)上作簡(jiǎn)單的梳理和分類。
大數(shù)據(jù)應(yīng)用案例之:醫(yī)療行業(yè)
[1] Seton Healthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過(guò)大數(shù)據(jù)處理,更好地分析病人的信息。
[2] 在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒,每秒鐘有超過(guò)3000次的數(shù)據(jù)讀取。通過(guò)這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對(duì)性地采取措施,避免早產(chǎn)嬰兒夭折。
[3] 它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過(guò)社交網(wǎng)絡(luò)來(lái)收集數(shù)據(jù)的健康類App。也許未來(lái)數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說(shuō)不是通用的成人每日三次一次一片,而是檢測(cè)到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)提醒你再次服藥。
大數(shù)據(jù)應(yīng)用案例之:能源行業(yè)
[1] 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國(guó),為了鼓勵(lì)利用太陽(yáng)能,會(huì)在家庭安裝太陽(yáng)能,除了賣電給你,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)2~3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購(gòu)買一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果提前買就會(huì)比較便宜,買現(xiàn)貨就比較貴。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本。
[2] 維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級(jí)計(jì)算機(jī),然后對(duì)氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時(shí)便可完成。
大數(shù)據(jù)應(yīng)用案例之:通信行業(yè)
[1] XO Communications通過(guò)使用IBM SPSS預(yù)測(cè)分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測(cè)客戶的行為,發(fā)現(xiàn)行為趨勢(shì),并找出存在缺陷的環(huán)節(jié),從而幫助公司及時(shí)采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過(guò)提供單個(gè)端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺(tái),幫助通信企業(yè)制定更科學(xué)、合理決策。
[2] 電信業(yè)者透過(guò)數(shù)以千萬(wàn)計(jì)的客戶資料,能分析出多種使用者行為和趨勢(shì),賣給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。
[3] 中國(guó)移動(dòng)通過(guò)大數(shù)據(jù)分析,對(duì)企業(yè)運(yùn)營(yíng)的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。
[4] NTT docomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來(lái),為顧客提供附近的餐飲店信息,接近末班車時(shí)間時(shí),提供末班車信息服務(wù)。
大數(shù)據(jù)應(yīng)用案例之:零售業(yè)
[1] "我們的某個(gè)客戶,是一家領(lǐng)先的專業(yè)時(shí)裝零售商,通過(guò)當(dāng)?shù)氐陌儇浬痰辍⒕W(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶提供服務(wù)。公司希望向客戶提供差異化服務(wù),如何定位公司的差異化,他們通過(guò)從 Twitter 和 Facebook 上收集社交信息,更深入的理解化妝品的營(yíng)銷模式,隨后他們認(rèn)識(shí)到必須保留兩類有價(jià)值的客戶:高消費(fèi)者和高影響者。希望通過(guò)接受免費(fèi)化妝服務(wù),讓用戶進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺(tái)上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。
[2] 零售企業(yè)也監(jiān)控客戶的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來(lái)展開分析,從而在銷售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見,此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前提下,增加了高利潤(rùn)率自有品牌商品的比例
當(dāng)前名稱:抽樣數(shù)據(jù)nosql,抽樣數(shù)據(jù)分析顯示非數(shù)據(jù)型數(shù)據(jù)
新聞來(lái)源:http://www.chinadenli.net/article16/dsedogg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供定制網(wǎng)站、建站公司、網(wǎng)站營(yíng)銷、網(wǎng)頁(yè)設(shè)計(jì)公司、靜態(tài)網(wǎng)站、做網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)