系列回顧:

趨勢:大數(shù)據(jù)代表未來,投資力度增強
獨家:最新大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀和主要子行業(yè)介紹
36大數(shù)據(jù)專稿,拒絕轉(zhuǎn)載!
一、數(shù)據(jù)的歸屬權(quán)不清晰,數(shù)據(jù)資產(chǎn)型企業(yè)私密占有平臺數(shù)據(jù),制約著大數(shù)據(jù)的融合及發(fā)展。
阿里巴巴,這家集B2B、B2C、C2C電商平臺與第三方支付于一身的巨無霸企業(yè),在2009年前后開始低調(diào)試水小貸業(yè)務,并在之后成立了阿里金融事業(yè)部。基于阿里平臺所累積信用和行為數(shù)據(jù)的全新風險管理模式,快速靈活的放款審批流程,為需求旺盛但供給遠遠不足的小微企業(yè)小額信貸業(yè)務打開了一條別樣的路。阿里金融從出現(xiàn)開始便受到了廣泛關(guān)注和討論。許多機構(gòu)和個人都向往之,也對其模式了解得清楚明白,但均默默然而無法復制。究其原因,就在于“阿里平臺獨有的沉淀信用及行為數(shù)據(jù)”——數(shù)據(jù),阿里金融的獨門利器。
無論已有的金融交易軟件(如金太陽、大智慧等),亦或電商平臺、O2O平臺、第三方支付平臺,還是SNS 和其他交互數(shù)據(jù)源;現(xiàn)狀是——原始數(shù)據(jù)存儲在平臺后端,被平臺掌握者控制,數(shù)據(jù)的創(chuàng)造者(平臺用戶們)是否掌握與自己相關(guān)的數(shù)據(jù)取決于平臺的開放性和接口提供。平臺企業(yè)們互相獨立地像挖礦一樣在沉淀數(shù)據(jù)中淘金,各自取得一些不錯的成果,但事實上數(shù)據(jù)的私密占有也嚴重制約著大數(shù)據(jù)的廣泛應用和整體發(fā)展。
那么,數(shù)據(jù)到底是誰的?是平臺企業(yè)的,還是數(shù)據(jù)創(chuàng)造者(平臺用戶)的?還是既是平臺企業(yè)的,也是平臺用戶的?什么樣的數(shù)據(jù)是公開的,什么樣的數(shù)據(jù)是私密的?
一般認為,原始數(shù)據(jù)沉淀在平臺上,平臺實際占有并可以使用,但在未獲授權(quán)的情況下不能提供給第三方,用戶對原始數(shù)據(jù)的占有獲取權(quán)及公開程度基本取決于用戶與平臺達成的協(xié)議(多為安裝平臺軟件前的“用戶須知”部分,用戶除用腳投票外并無實際協(xié)議制定權(quán));而平臺對原始數(shù)據(jù)經(jīng)過統(tǒng)計提煉獲得的其他信息屬于平臺企業(yè)。
參考國外立法,數(shù)據(jù)是屬于個人的,平臺企業(yè)可以解除、使用數(shù)據(jù)不代表個人放棄對數(shù)據(jù)的所有權(quán)。國際立法趨勢上看,信息主體的權(quán)利正在強化,如信息主體的遺忘權(quán)、轉(zhuǎn)移權(quán);信息控制主體的責任更加明晰,如明確了負有個人信息保護義務的服務提供商范圍、要求服務提供商設(shè)置個人信息保護專職崗位,增加了服務提供商對侵權(quán)行為的通知義務,便于用戶采取預防和減損措施。
國內(nèi)的政策法規(guī)方面:2012年12月28日,全國人大常委會出臺《全國人大常委會關(guān)于加強網(wǎng)絡信息保護的決定》,對網(wǎng)絡信息保護進行了原則性的規(guī)定;2013年7月,工信部出臺《電信和互聯(lián)網(wǎng)用戶個人信息保護規(guī)定》;除此以外,《信息安全技術(shù)、公共及商用服務信息系統(tǒng)個人信息保護指南》作為我國首個個人信息保護的國家標準,雖然不具有法律上的強制約束效力,但具有指南性,亦可作為衡量互聯(lián)網(wǎng)企業(yè)是否有過失的參考性標準;目前,我國正在起草《電子商務法》,強化對平臺的監(jiān)管。
二、數(shù)據(jù)有效性將直接影響到大數(shù)據(jù)的應用水平。
數(shù)據(jù)的質(zhì)量
大數(shù)據(jù)就像砂金礦,為了開采出金子,人們需要不斷的淘沙,淘出沙金,然后再經(jīng)過冶煉獲得千足金。而數(shù)據(jù)質(zhì)量就相當于砂金礦的含金量和成色,良好的數(shù)據(jù)質(zhì)量是挖掘價值的基本保障。
我們認為,數(shù)據(jù)質(zhì)量主要涵蓋兩個大方面:一是基本質(zhì)量,包含準確性、一致性、容量和更新率4個要點;二是可應用性,包含易識別性、易處理性、獲取及時性、遠程訪問性和智能性5個要點;詳情見下表。
洗數(shù)據(jù)的難度
在大數(shù)據(jù)應用中,有一項極其重要也極其困難的工作,那就是“洗數(shù)據(jù)”。洗數(shù)據(jù)就是把大量包含無效數(shù)據(jù)、分布雜亂無章的原始數(shù)據(jù)進行歸并聚合,通過建立數(shù)據(jù)標準并執(zhí)行來取得我們需要的分析樣本的過程。
正所謂:Garbage In, Garbage Out! 數(shù)據(jù)挖掘的領(lǐng)域內(nèi)有一個觀點:如果數(shù)據(jù)準確度在60%的時候,你干出來的事,一定會被用戶罵;如果數(shù)據(jù)準確度在80%左右,那么用戶會說,還不錯;只有數(shù)據(jù)準確度到了90%的時候,用戶才會覺得真厲害。但是從數(shù)據(jù)準確度從80%到90%要付出的成本要比60%到80%的付出大得多得多。大多數(shù)據(jù)的數(shù)據(jù)挖掘團隊都會止步于70%這個地方,因為再往后,這就是一件相當累的活,絕對少不了大量人力的工作。
我們這里使用用戶地址舉例說明,因為地址是用戶自己填寫的,有很多的坑,這就需要大量的洗數(shù)據(jù)工作。首先,第一類是假/錯地址,因為有的商家作弊或是用戶做測試,比如直接就輸入“該地址不存在”、“13243234asdfasdi”之類的情況,這類的地址可以通過程序識別出來。然后,很多情況是很難通過程序識別出來,比如“宇宙路地球小區(qū)”,但這類地址可以被人識別出來。甚至還有連人腦都無法識別的,比如“北京市東四環(huán)中路23號南航大廈5樓540室”,這個地址根本不存在。其次,第二類是真地址,但是因為用戶輸入不標準,所以很難處理,比如將“建國門外大街” 縮寫成 “建外大街”,“中國工商銀行”縮寫成“工行”; 比 如錯別字將“朝陽門”寫成“潮陽門”;比如顛倒,將“東四環(huán)中路朝陽公園” 和 “朝陽公園(靠東四環(huán))”;比如別名,將有的寫開發(fā)商的小區(qū)名“東恒國際”,有的則寫行政的地名“八里莊東里”等等等等。
像上面這樣的例子多得不能再多了,如果希望提高數(shù)據(jù)可應用的程度,那么必然需要花大量人力通過編寫程序和手動挑選來淘洗數(shù)據(jù)。而隨著投入的邊際效用遞減,數(shù)據(jù)有效性的要求越高,則需要投入的成本就成倍甚至指數(shù)級增長。
三、適宜海量數(shù)據(jù)處理的軟硬件成熟度不夠,成本太高,普及率低下。
從某種意義上來說,“大數(shù)據(jù)”一直存在,只是受限于時代和科技,因為缺乏相應的數(shù)據(jù)記錄、分析工具而無法實現(xiàn)。
市場上缺乏兼具業(yè)務場景普適性和海量數(shù)據(jù)處理能力的數(shù)據(jù)庫軟件大數(shù)據(jù)時代的到來,使得電子商務、公共管理、SNS等領(lǐng)域幾乎每個與用戶相關(guān)的業(yè)務數(shù)據(jù)量都在億級別,某些平臺的日系統(tǒng)調(diào)用可能達到百億級別,而且歷史數(shù)據(jù)不能輕易刪除,所以需要能對TB甚至PB級數(shù)據(jù)進行高速處理的數(shù)據(jù)庫。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,如Oracle,mysql, SQL Server等不能很好地滿足用戶需求,而較新的NoSQL數(shù)據(jù)庫也依然沒有達到適應不同業(yè)務場景的需求,目前依然需要根據(jù)用戶不同的業(yè)務特征來選擇適合的數(shù)據(jù)庫軟件。
私有云和云服務普及程度太低
所有企業(yè)和個人都或多或少有大數(shù)據(jù)應用的需求。但不同的實體有不同的出發(fā)點,更在意安全和自主性的企業(yè)希望構(gòu)建屬于自己的私有云;應用需求少,對成本更敏感的企業(yè)則需要在線的即時云服務。但受限于人們對云技術(shù)的接納程度、云服務的成本優(yōu)勢尚不明顯等原因,私有云和云服務普及程度偏低也大大限制了大數(shù)據(jù)的發(fā)展。
四、 數(shù)據(jù)尚未獲得真正意義上的定價和產(chǎn)業(yè)化。
數(shù)據(jù)的公開性與歸屬權(quán)不清晰直接導致了數(shù)據(jù)融合工作被割裂到一個個的獨立的數(shù)據(jù)資產(chǎn)型平臺內(nèi)部。目前的大數(shù)據(jù)應用更多是針對公開數(shù)據(jù)和自有數(shù)據(jù)的價值挖掘,數(shù)據(jù)尚未獲得真正意義上的定價和產(chǎn)品化。
在數(shù)據(jù)共享相對成熟的金融體系,以銀行業(yè)為例,跨銀行間的數(shù)據(jù)共享通道是人民銀行與銀監(jiān)會分別牽頭、管理的征信系統(tǒng)與客戶風險統(tǒng)計系統(tǒng),均采取“報送數(shù)據(jù)才能享受共享”及“信貸主體本身可申請及授權(quán)查詢”的原則。在未納入眾多信托、小貸、互聯(lián)網(wǎng)金融等機構(gòu)數(shù)據(jù)的情況下,上述數(shù)據(jù)池的維護成本已經(jīng)非常高。那么多新的交易和交互數(shù)據(jù)源如何進行互相融合,并形成一個個類似于金融投資業(yè)的萬得、同花順一樣在細分業(yè)務場景下成熟且具有應用價值的產(chǎn)業(yè)化數(shù)據(jù)池?這是一個問題。
數(shù)據(jù)的產(chǎn)業(yè)化,從破除阻礙的角度看并關(guān)鍵在于兩點,一是數(shù)據(jù)的公開性與歸屬權(quán)需要在法律及政策層面得到更明確的規(guī)范和指引,二是對同類業(yè)務場景下不同平臺的數(shù)據(jù)制定統(tǒng)一的數(shù)據(jù)標準;從操作層面看,在應用范圍的選擇上,不應尋求一步到位或大而全,最好確定到具體的業(yè)務場景和產(chǎn)品形態(tài);從實現(xiàn)路徑看,寄望于行政力量介入模式(類似于銀行間整合)的可行性不高,也許“平臺還數(shù)據(jù)于用戶,通過第三方機構(gòu)公證數(shù)據(jù)真實性,用戶再授權(quán)進行跨平臺融合”才是一條可以期待的路。
網(wǎng)頁名稱:無法回避!那些制約大數(shù)據(jù)行業(yè)發(fā)展的問題……
文章地址:http://www.chinadenli.net/article30/sdijso.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計、外貿(mào)建站、標簽優(yōu)化、網(wǎng)站維護、網(wǎng)站設(shè)計、ChatGPT
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)