關(guān)于大數(shù)據(jù),依然有很多朋友在不斷提問,什么是大數(shù)據(jù)?其實有時候我也說不清楚所問之題,所以特地整理如下的QA,方便學(xué)習(xí):

什么是大數(shù)據(jù)?
大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的單位有哪些?
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大數(shù)據(jù)有哪些特征?
大數(shù)據(jù)的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)
大數(shù)據(jù)主要技術(shù)是哪些?
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
大數(shù)據(jù)的國家政策是什么?
2015年9月,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,明確到2020年,形成一批具有國際競爭力的大數(shù)據(jù)處理、分析、可視化軟件和硬件支撐平臺等產(chǎn)品,培育10家國際領(lǐng)先的大數(shù)據(jù)核心龍頭企業(yè),500家大數(shù)據(jù)應(yīng)用、服務(wù)和產(chǎn)品制造企業(yè)。
大數(shù)據(jù)的市場規(guī)模有多大?
研究機構(gòu)IDC預(yù)測,全球大數(shù)據(jù)(Big Data)與分析市場規(guī)模將由2015年的1220億美元,在5年間成長超過50%,并在2019年底達到1870億美元的規(guī)模。中國信息通信研究院日前發(fā)布的《中國大數(shù)據(jù)發(fā)展調(diào)查報告(2017)》稱,2016年中國大數(shù)據(jù)市場規(guī)模達168億元,預(yù)計2017年~2020年仍將保持30%以上的增長。調(diào)查顯示,目前近六成企業(yè)已成立數(shù)據(jù)分析相關(guān)部門,超過1/3的企業(yè)已經(jīng)應(yīng)用大數(shù)據(jù)。大數(shù)據(jù)應(yīng)用為企業(yè)帶來最明顯的效果是實現(xiàn)了智能決策和提升了運營效率。
你必須知道的十個大數(shù)據(jù)案例是哪些?
1. 梅西百貨的實時定價機制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達7300萬種貨品進行實時調(diào)價。
2. Tipp24 AG針對歐洲bocai業(yè)構(gòu)建的下注和預(yù)測平臺。該公司用KXEN軟件來分析數(shù)十億計的交易以及客戶的特性,然后通過預(yù)測模型對特定用戶進行動態(tài)的營銷活動。這項舉措減少了90%的預(yù)測模型構(gòu)建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉(zhuǎn)其長久以來在預(yù)測分析方面的劣勢。”Laney分析到。
3. 沃爾瑪?shù)乃阉鳌_@家零售業(yè)寡頭為其網(wǎng)站W(wǎng)almart.com自行設(shè)計了最新的搜索引擎Polaris,利用語義數(shù)據(jù)進行文本分析、機器學(xué)習(xí)和同義詞挖掘等。根據(jù)沃爾瑪?shù)恼f法,語義搜索技術(shù)的運用使得在線購物的完成率提升了10%到15%。“對沃爾瑪來說,這就意味著數(shù)十億美元的金額。”Laney說。
4. 快餐業(yè)的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內(nèi)容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準(zhǔn)備時間相對長的食品。
5. Morton牛排店的品牌認知。當(dāng)一位顧客開玩笑地通過推特向這家位于芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他將在一天工作之后抵達該處)時,Morton就開始了自己的社交秀。首先,分析推特數(shù)據(jù),發(fā)現(xiàn)該顧客是本店的常客,也是推特的常用者。根據(jù)客戶以往的訂單,推測出其所乘的航班,然后派出一位身著燕尾服的侍者為客戶提供晚餐。也許,這聽起來過于離奇,但是你必須審視自己:“我是否有能力做到這個程度?”Laney說。
6. PredPol Inc.。PredPol公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預(yù)測算法的變體和犯罪數(shù)據(jù)來預(yù)測犯罪發(fā)生的幾率,可以精確到500平方英尺的范圍內(nèi)。在洛杉磯運用該算法的地區(qū),盜竊罪和暴力犯罪分布下降了33%和21%。
7. Tesco PLC(特易購)和運營效率。這家超市連鎖在其數(shù)據(jù)倉庫中收集了700萬部冰箱的數(shù)據(jù)。通過對這些數(shù)據(jù)的分析,進行更全面的監(jiān)控并進行主動的維修以降低整體能耗。
8. American Express(美國運通,AmEx)和商業(yè)智能。以往,AmEx只能實現(xiàn)事后諸葛式的報告和滯后的預(yù)測。“傳統(tǒng)的BI已經(jīng)無法滿足業(yè)務(wù)發(fā)展的需要。”Laney認為。于是,AmEx開始構(gòu)建真正能夠預(yù)測忠誠度的模型,基于歷史交易數(shù)據(jù),用115個變量來進行分析預(yù)測。該公司表示,對于澳大利亞將于之后四個月中流失的客戶,已經(jīng)能夠識別出其中的24%。
9. Express Scripts Holding Co.的產(chǎn)品制造。該公司發(fā)現(xiàn)那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發(fā)了一個新產(chǎn)品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。
10. Infinity Property & Casualty Corp.的黑暗數(shù)據(jù)(dark data)。Laney對于黑暗數(shù)據(jù)的定義是,那些針對單一目標(biāo)而收集的數(shù)據(jù),通常用過之后就被歸檔閑置,其真正價值未能被充分挖掘。在特定情況下,這些數(shù)據(jù)可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。
十大數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典算法
1. C4.5
C4.5算法是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法. C4.5算法繼承了ID3算法的優(yōu)點,并在以下幾方面對ID3算法進行了改進:
1) 用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構(gòu)造過程中進行剪枝;
3) 能夠完成對連續(xù)屬性的離散化處理;
4) 能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。
C4.5算法有如下優(yōu)點:產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率較高。其缺點是:在構(gòu)造樹的過程中,需要對數(shù)據(jù)集進行多次的順序掃描和排序,因而導(dǎo)致算法的低效。
2. The k-means algorithm 即K-Means算法
k-means algorithm算法是一個聚類算法,把n的對象根據(jù)他們的屬性分為k個分割,k < n。它與處理混合正態(tài)分布的大期望算法很相似,因為他們都試圖找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對象屬性來自于空間向量,并且目標(biāo)是使各個群組內(nèi)部的均方誤差總和最小。
3. Support vector machines
支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計分類以及回歸分析中。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類器進行了比較。
4. The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。
5. 大期望(EM)算法
在統(tǒng)計計算中,大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。大期望經(jīng)常用在機器學(xué)習(xí)和計算機視覺的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。
6. PageRank
PageRank是Google算法的重要內(nèi)容。2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網(wǎng)頁,而是指佩奇,即這個等級方法是以佩奇來命名的。
PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量倆衡量網(wǎng)站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個概念引自學(xué)術(shù)中一篇論文的被引述的頻度——即被別人引述的次數(shù)越多,一般判斷這篇論文的權(quán)威性就越高。
7. AdaBoost
Adaboost是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強的最終分類器 (強分類器)。其算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。
8. kNN: k-nearest neighbor classification
K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學(xué)習(xí)算法之一。該方法的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。
9. Naive Bayes
在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。 樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設(shè)屬性之間相互獨立,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時,NBC模型的性能最為良好。
10. CART: 分類與回歸樹
CART, Classification and Regression Trees。 在分類樹下面有兩個關(guān)鍵的思想。第一個是關(guān)于遞歸地劃分自變量空間的想法;第二個想法是用驗證數(shù)據(jù)進行剪枝。
大數(shù)據(jù)泡沫有哪些?
(1)這幾年社會上關(guān)于大數(shù)據(jù)的宣傳,媒體人的引進和炒作,有部分內(nèi)容是在誤導(dǎo)大家,主要原因還是很多人在盲人摸象,少有系統(tǒng)的研究和理解。
(2)只知其然不知其所以然,導(dǎo)致對大數(shù)據(jù)應(yīng)用的期望太高,大數(shù)據(jù)技術(shù)不是萬金油,在新的技術(shù)泛型和技術(shù)生態(tài)下,現(xiàn)階段技術(shù)的穩(wěn)定性、成熟性和有效性還待進一步發(fā)展。
(3)關(guān)注重點有問題,導(dǎo)致目前的很多大數(shù)據(jù)應(yīng)用并未涉及到核心業(yè)務(wù)和計算模型,多是數(shù)據(jù)的采集和存儲管理,這也是造成行業(yè)整體門檻還不夠高,同質(zhì)化競爭激烈,沒有發(fā)揮出應(yīng)有價值的原因。大數(shù)據(jù)泡沫顯然是客觀存在的,但其長期的應(yīng)用價值卻不容小覷,泡沫不代表沒有價值,就像2000年的互聯(lián)網(wǎng)泡沫,泡沫破滅之后的涅磐,讓人類真正跨入了互聯(lián)網(wǎng)時代。大數(shù)據(jù)泡沫的價值就是讓全民認識到大數(shù)據(jù)時代數(shù)據(jù)分析和數(shù)據(jù)決策的重要性,這波泡沫過去,也許我們能正式跨入人工智能時代。
大數(shù)據(jù)需要哪些人才?
大數(shù)據(jù)主要職位:首席數(shù)據(jù)官,數(shù)據(jù)規(guī)劃師,數(shù)據(jù)工程師,數(shù)據(jù)架構(gòu)師,數(shù)據(jù)分析師,數(shù)據(jù)應(yīng)用師,數(shù)據(jù)科學(xué)家
素質(zhì)要求:專業(yè)技能,業(yè)務(wù)理解能力,學(xué)習(xí)能力,數(shù)據(jù)信仰,創(chuàng)新精神
企業(yè)要活用大數(shù)據(jù),需要3種人才:第一是數(shù)據(jù)的IT專家;其二是分析數(shù)據(jù)的資料分析人員;其叁是活用數(shù)據(jù)的經(jīng)理人。
什么數(shù)據(jù)科學(xué)家?
數(shù)據(jù)科學(xué)家是運用統(tǒng)計分析、機器學(xué)習(xí)、分布式處理等技術(shù),從大量數(shù)據(jù)中提取出對業(yè)務(wù)有意義的信息,以易懂的形式傳達給決策者,并創(chuàng)造出新的數(shù)據(jù)運用服務(wù)的人才。
數(shù)據(jù)科學(xué)家有哪幾種類別?
理論數(shù)據(jù)科學(xué)家致力于數(shù)據(jù)科學(xué)的理論研究,為其他的數(shù)據(jù)科學(xué)家創(chuàng)造框架和工具。本質(zhì)上是將統(tǒng)計數(shù)據(jù)、數(shù)據(jù)存儲和計算機科學(xué)在理論層面應(yīng)用于大數(shù)據(jù)的學(xué)者。
應(yīng)用數(shù)據(jù)科學(xué)家對于如何運用大數(shù)據(jù)有更好的理解。科學(xué)需要嚴謹,我認為數(shù)據(jù)應(yīng)用植根于學(xué)術(shù)嚴謹,但是在應(yīng)用層面工作。應(yīng)用數(shù)據(jù)科學(xué)家的工作是先進行架設(shè),再用大數(shù)據(jù)進行驗證。每個人都會受惠于他們的研究發(fā)現(xiàn)和工具。
行業(yè)數(shù)據(jù)科學(xué)家用應(yīng)用數(shù)據(jù)科學(xué)地解決某個具體的市場問題、行業(yè)、生意,實現(xiàn)利益大化的單一目的。行業(yè)數(shù)據(jù)科學(xué)家得擅長溝通,能夠讓他們的發(fā)現(xiàn)應(yīng)用于商業(yè)。將工商、經(jīng)濟和會計方面的經(jīng)驗應(yīng)用在商業(yè)領(lǐng)域是他的價值所在。與商業(yè)分析師和商業(yè)顧問的角色有點相似。
要成為一名數(shù)據(jù)科學(xué)家,需要掌握哪些核心技能?
作為一名數(shù)據(jù)科學(xué)家,一般需要編程和數(shù)據(jù)庫、數(shù)學(xué)&統(tǒng)計、交流和可視化、領(lǐng)導(dǎo)力和軟技能:四個方面的技能。
1、編程和數(shù)據(jù)庫
一般來說,數(shù)據(jù)科學(xué)家大多要求具備編程、計算機科學(xué)相關(guān)的專業(yè)背景,掌握對處理大數(shù)據(jù)所必需的Hadoop、Mahout等大規(guī)模并行處理技術(shù)與機器學(xué)習(xí)相關(guān)的技能。一般能利用python熟練的獲取數(shù)據(jù),整理數(shù)據(jù),并會使用matplotlib展現(xiàn)數(shù)據(jù)。
2、數(shù)學(xué)、統(tǒng)計和數(shù)據(jù)挖掘
除了數(shù)學(xué)、統(tǒng)計方面的素養(yǎng)之外,還需要具備使用SPSS、SAS等主流統(tǒng)計分析軟件的技能。其中,面向統(tǒng)計分析的開源編程語言及其運行環(huán)境「R」最近備受矚目。R的強項不僅在于其包含了豐富的統(tǒng)計分析庫,而且具備將結(jié)果進行可視化的高品質(zhì)圖表生成功能,并可以通過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的包擴展機制,通過導(dǎo)入擴展包就可以使用標(biāo)準(zhǔn)狀態(tài)下所不支持的函數(shù)和數(shù)據(jù)集。
3、數(shù)據(jù)可視化
信息的質(zhì)量很大程度上依賴于其表達方式。對數(shù)字羅列所組成的數(shù)據(jù)中所包含的意義進行分析,開發(fā)Web原型,使用外部API將圖表、地圖、Dashboard等其他服務(wù)統(tǒng)一起來,從而使分析結(jié)果可視化,這是對于數(shù)據(jù)科學(xué)家來說十分重要的技能之一。
4、領(lǐng)導(dǎo)力和軟技能
數(shù)據(jù)科學(xué)家不僅要具有黑客的頭腦,對數(shù)據(jù)有好奇心,還要對商業(yè)有熱情,是有影響力、有創(chuàng)造力,能解決問題的人。
2017年大數(shù)據(jù)版圖

當(dāng)前標(biāo)題:天天在說大數(shù)據(jù),你真的懂了嗎?
分享地址:http://www.chinadenli.net/article6/sdgdig.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供關(guān)鍵詞優(yōu)化、ChatGPT、云服務(wù)器、域名注冊、電子商務(wù)、搜索引擎優(yōu)化
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)