個人言論,本文僅從另一個視角看待大數(shù)據(jù),如不能理解請一笑而過,勿做無謂的拍磚,僅此而已。

1什么是大數(shù)據(jù)
現(xiàn)在很多人都熱衷于把大數(shù)據(jù)放在嘴邊,但你要問一下什么是大數(shù)據(jù),大數(shù)據(jù)和你有什么關(guān)系?估計很少能說出一二三來。究其原因,一是因為大家對新技術(shù)有著很深的原始渴求,至少在聊天時不會顯得很“土鱉”;二是在工作和生活環(huán)境中真正能參與實踐大數(shù)據(jù)的案例實在太少了。
最早提出大數(shù)據(jù)時代到來的是麥肯錫:“數(shù)據(jù),已經(jīng)***到當今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”
IBM 最早將大數(shù)據(jù)的特征歸納為4個“V”(***量Volume,多樣Variety,價值Value,快速Velocity),第一,數(shù)據(jù)***量巨大。大數(shù)據(jù)的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數(shù)據(jù)類型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業(yè)價值高。第四,處理速度快。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。其實這些V并不能真正說***楚大數(shù)據(jù)的所有特征,下面這張圖對大數(shù)據(jù)的一些相關(guān)特性做出了有效的說明。

維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時代》一書中舉了百般例證,都是為了說明一個道理:在大數(shù)據(jù)時代已經(jīng)到來的時候要用大數(shù)據(jù)思維去發(fā)掘大數(shù)據(jù)的潛在價值。書中,作者提及最多的是Google如何利用人們的搜索記錄挖掘數(shù)據(jù)二次利用價值,比如預(yù)測某地流感爆發(fā)的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數(shù)據(jù)進行有針對性的書籍購買推薦,以此有效提升銷售量;Farecast如何利用過去十年所有的航線機票價格打折數(shù)據(jù),來預(yù)測用戶購買機票的時機是否合適。
書中提到大數(shù)據(jù)的核心是預(yù)測。有三個思路的轉(zhuǎn)變:1-不是隨機樣本,而是全量數(shù)據(jù);2-不是精確性,而是混雜型;3-不是因果關(guān)系,而是相關(guān)關(guān)系。
2現(xiàn)狀分析
根據(jù)×××2014年12月16日發(fā)布的《第三次全國經(jīng)濟普查主要數(shù)據(jù)公報》中顯示全國共有從事第二產(chǎn)業(yè)和第三產(chǎn)業(yè)活動的法人單位1085.7萬個,占全部企業(yè)法人單位95.6%。從業(yè)人員35602.3萬人,平均每個單位32.8人。這個數(shù)據(jù)說明了中國絕大多數(shù)的企業(yè)都是中小企業(yè),在這種情況下,有多少企業(yè)有海量數(shù)據(jù)呢?
我們換個角度在看看一下數(shù)據(jù),我們搜索一下國內(nèi)幾個典型客戶的網(wǎng)站排名情況查詢網(wǎng)站是alexa。
用友:

東軟:

綠盟:

從中可以看出用友的pv大,也就是一天63000個,一年的數(shù)據(jù)量也就是2300萬,在加上別的數(shù)據(jù),數(shù)據(jù)的量級也就是G級別的,還遠未到T級,更別說P級了。在這個量級上,一臺好點的pc server就可以處理完成大部分的需求,如果考慮到可靠性最多需要兩臺。通過上面的分析,我們可以發(fā)現(xiàn)在中國,絕大多數(shù)的公司是沒有太多數(shù)據(jù)的。
3大數(shù)據(jù)的核心價值
《大數(shù)據(jù)時代》中提到的大數(shù)據(jù)的核心價值是預(yù)測,但我們提到大數(shù)據(jù)往往提到都是大數(shù)據(jù)技術(shù),比如hadoop,spark,storm,hbase,hlive,spark等等,人們對此的討論總是樂此不彼。但現(xiàn)實的情況往往是數(shù)據(jù)只能驗證現(xiàn)在,數(shù)據(jù)無法預(yù)見未來!
舉個最近的例子:
大數(shù)據(jù)告訴我們股市暴跌后必然有反彈。于是6.25大跌后,大家都認為周5必然有一個反彈。結(jié)果周5就被莊家們狠狠的教育了一把。6.28的雙降(降息,降準),所有都說周一6.29會上漲,可周一中國的莊家讓散戶們明白,數(shù)據(jù)和經(jīng)驗只是你的一廂情愿,他不會給你一絲的喘息機會。
一切不以解決業(yè)務(wù)為出發(fā)點的技術(shù)都是耍流氓,計算機技術(shù)的發(fā)展是非常迅速的,往往一個技術(shù)可能沒有多長時間就會被淘汰或者升級。如果沒有業(yè)務(wù)場景作為支持,存粹的學(xué)習(xí)大數(shù)據(jù)的技術(shù)是沒有太大的價值,筆者崇尚的是學(xué)以致用。因為大腦有個很明顯的特征是健忘,如果用不到,學(xué)這些技術(shù)過一段時間就會忘記,還不如暫時不學(xué),等后面需要用到的時候在學(xué)。原理基礎(chǔ)知識等除外。
賽克藍德(secisland)原創(chuàng),請勿轉(zhuǎn)載。
4數(shù)據(jù)真的值錢嗎
很多時候數(shù)據(jù)并沒有我們想象的這么值錢,尤其是互聯(lián)網(wǎng)上很容易采集到的數(shù)據(jù),比如:爬蟲這個東西,我一開始不是太懂,但是花點時間,基本上通了,無論是用python自己寫一個,還是直接用現(xiàn)成的各種軟件,都是很快就可以部署并開始采集。中國有大量的程序員,還有的稍微懂點編程的計算機愛好者,另外爬蟲軟件的出現(xiàn)可以讓一個新手隨便花點時間就可以學(xué)會采集。所以采集的門檻在降低;其次數(shù)據(jù)的可復(fù)制性導(dǎo)致其廉價,尤其是非結(jié)構(gòu)性的數(shù)據(jù),從現(xiàn)在互聯(lián)網(wǎng)上大量的轉(zhuǎn)載文章就可以看出知識的傳播復(fù)制是非常廉價的。
數(shù)據(jù)的利用才是有價值的。比如一個老***,他每天看幾十個零散數(shù)據(jù)放到他面前,但是卻沒有把行為數(shù)據(jù)和商業(yè)數(shù)據(jù)的關(guān)系告訴他有什么用呢?一個公司CEO,每天看到幾十個數(shù)據(jù),什么PV、PU、UV等等是沒有意***的,對于他們來說,只需要知道有問題嗎?問題是什么?有新的發(fā)現(xiàn)嗎?需要做什么?這就行了。
5大數(shù)據(jù)的泡沫
伯克利的Jordan教授給出了答案,他是機器學(xué)習(xí)世界范圍內(nèi)最被尊敬的專家之一(下面的翻譯是知乎上的作者Quinn Sure)。
1. 目前的大數(shù)據(jù)給出的結(jié)果可靠性太低,如果急于應(yīng)用到實際中,就好比是土木工程都沒學(xué)好就開始造橋,結(jié)果只能造出“豆腐渣工程”,一大波“false positive”(假陽性)正在接近,因為數(shù)據(jù)增長的速度不夠支撐我們把大數(shù)據(jù)到處亂用的欲望。作為一個科學(xué),不夠嚴謹(原文是“沒有error bar”)。不像造橋的土木工程,經(jīng)過多年的積累,明確地能告訴我們什么樣的情況可以造,什么不可以。而大數(shù)據(jù)沒有。
2. 目前在computer vision領(lǐng)域進展還很小,只能在非常有限的范圍內(nèi)識別,比如人臉識別這樣非常具***的引用(雖然這個不是直接說大數(shù)據(jù),但是可以看出,作者認為真正做到萬物都sensor還很遠,大數(shù)據(jù)的采集能力終究還是有限的)
3. neural network根本和人腦的neural network不是一回兒事,我們對大腦的理解根本沒到可以引用到計算機科學(xué)的程度,現(xiàn)在deep learning所采用的back propagation技巧,明顯不是大腦的運作方式,network的結(jié)構(gòu)都完全不同,什么對數(shù)據(jù)的模糊性處理已經(jīng)達到人腦的境界云云,主要是媒***扯談。
對他觀點的總結(jié):
有些媒***為了讓公眾容易理解打了些比方,但是這種比方造成了太多誤解,進而造成了太多hype(夸張的大肆宣傳)。大數(shù)據(jù)還是一個沒有足夠嚴謹程度的科學(xué),可能有一定的概率做出一些有用的預(yù)測,但是使用不當,過分過早地依賴,則會造成災(zāi)難性的后果。
很多時候大家過早對一個技術(shù)爆發(fā)熱情,寄希望她可以改變世界,如果短時間沒有成果,有可能熱情一下子轉(zhuǎn)冷又覺得這是個錯誤,加速抽離給這個技術(shù)的資源。顯然Michael很擔心現(xiàn)在公眾對這個技術(shù)的熱情,并不是基于對這個技術(shù)的理解,從而有可能會經(jīng)歷這樣的態(tài)度轉(zhuǎn)變。但是他認為這個領(lǐng)域是現(xiàn)實存在的,很多重要的應(yīng)用,假以時日,是會創(chuàng)造價值的。但是現(xiàn)在很多媒***宣傳,甚至投資行為,都是泡沫。
6從小數(shù)據(jù)開始
那怎么做的呢,從小數(shù)據(jù)開始,小數(shù)據(jù)就是個***化的數(shù)據(jù),是我們每個個***或組織的數(shù)字化信息。比如我天天都喝一兩酒,突然有天喝完酒了胃疼,我就想了,這天和之前有何不同?原來,這天喝的酒是個新牌子,可能就是喝了這個新牌子的酒讓我胃疼。這就是我生活中的“小數(shù)據(jù)”,它不比大數(shù)據(jù)那樣浩***痹櫻炊暈易約褐涼刂匾O衷諍芏嗥笠得媼俚淖畬笪侍獠皇竊趺從么笫藎切∈荻濟揮煤玫那榭魷略趺從么笫蕁4笫縈Ω檬譴有∈葜鸞パ荼瀋先サ模且桓穌5納皇撬布潯浠摹
首先要了解自己的企業(yè),自己所在的行業(yè)的核心是什么。有很多企業(yè)在競爭的過程中,最終不是被現(xiàn)在的競爭對手打敗,而是被很多不是你的競爭對手所打敗。很簡單的一個例子,大家都認為亞馬遜是做電商的,但這是錯的,它現(xiàn)在最主要的收入來自于云服務(wù)。所以要找到企業(yè)的核心數(shù)據(jù),這個是最關(guān)鍵的。只有在這個基礎(chǔ)上,利用分析好這些數(shù)據(jù),然后在做一些延伸。其次,在找與內(nèi)部相關(guān)的一些數(shù)據(jù),去慢慢地成長它。有點像滾雪球,第一層是核心,第二層是外圍相關(guān)的數(shù)據(jù)。第三層是外部機構(gòu)的一些結(jié)構(gòu)化數(shù)據(jù)。第四層是社會化的,以及各種現(xiàn)在所謂的非結(jié)構(gòu)化的數(shù)據(jù)。這幾層要一層一層地找到它,而且要找到與自己相關(guān)的有價值的東西。這樣你的數(shù)據(jù)才能利用起來。
賽克藍德(secisland)原創(chuàng),請勿轉(zhuǎn)載。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
本文名稱:大數(shù)據(jù)的誤區(qū)-創(chuàng)新互聯(lián)
鏈接URL:http://www.chinadenli.net/article6/dgejog.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供商城網(wǎng)站、品牌網(wǎng)站建設(shè)、網(wǎng)站營銷、外貿(mào)建站、網(wǎng)站制作、面包屑導(dǎo)航
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容