通常來說,當數(shù)據(jù)多、并發(fā)量大的時候,架構中可以引入Redis,幫助提升架構的整體性能,減少Mysql(或其他數(shù)據(jù)庫)的壓力,但不是使用Redis,就不用MySQL。
十余年的孟連網(wǎng)站建設經(jīng)驗,針對設計、前端、開發(fā)、售后、文案、推廣等六對一服務,響應快,48小時及時工作處理。營銷型網(wǎng)站的優(yōu)勢是能夠根據(jù)用戶設備顯示端的尺寸不同,自動調(diào)整孟連建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設計,從而大程度地提升瀏覽體驗。創(chuàng)新互聯(lián)建站從事“孟連網(wǎng)站設計”,“孟連網(wǎng)站推廣”以來,每個客戶項目都認真落實執(zhí)行。
因為Redis的性能十分優(yōu)越,可以支持每秒十幾萬此的讀/寫操作,并且它還支持持久化、集群部署、分布式、主從同步等,Redis在高并發(fā)的場景下數(shù)據(jù)的安全和一致性,所以它經(jīng)常用于兩個場景:
緩存
判斷數(shù)據(jù)是否適合緩存到Redis中,可以從幾個方面考慮: 會經(jīng)常查詢么?命中率如何?寫操作多么?數(shù)據(jù)大小?
我們經(jīng)常采用這樣的方式將數(shù)據(jù)刷到Redis中:查詢的請求過來,現(xiàn)在Redis中查詢,如果查詢不到,就查詢數(shù)據(jù)庫拿到數(shù)據(jù),再放到緩存中,這樣第二次相同的查詢請求過來,就可以直接在Redis中拿到數(shù)據(jù);不過要注意【緩存穿透】的問題。
緩存的刷新會比較復雜,通常是修改完數(shù)據(jù)庫之后,還需要對Redis中的數(shù)據(jù)進行操作;代碼很簡單,但是需要保證這兩步為同一事務,或最終的事務一致性。
高速讀寫
常見的就是計數(shù)器,比如一篇文章的閱讀量,不可能每一次閱讀就在數(shù)據(jù)庫里面update一次。
高并發(fā)的場景很適合使用Redis,比如雙11秒殺,庫存一共就一千件,到了秒殺的時間,通常會在極為短暫的時間內(nèi),有數(shù)萬級的請求達到服務器,如果使用數(shù)據(jù)庫的話,很可能在這一瞬間造成數(shù)據(jù)庫的崩潰,所以通常會使用Redis(秒殺的場景會比較復雜,Redis只是其中之一,例如如果請求超過某個數(shù)量的時候,多余的請求就會被限流)。
這種高并發(fā)的場景,是當請求達到服務器的時候,直接在Redis上讀寫,請求不會訪問到數(shù)據(jù)庫;程序會在合適的時間,比如一千件庫存都被秒殺,再將數(shù)據(jù)批量寫到數(shù)據(jù)庫中。
所以通常來說,在必要的時候引入Redis,可以減少MySQL(或其他)數(shù)據(jù)庫的壓力,兩者不是替代的關系 。
我將持續(xù)分享Java開發(fā)、架構設計、程序員職業(yè)發(fā)展等方面的見解,希望能得到你的關注。
Redis和MySQL的應用場景是不同的。
通常來說,沒有說用Redis就不用MySQL的這種情況。
因為Redis是一種非關系型數(shù)據(jù)庫(NoSQL),而MySQL是一種關系型數(shù)據(jù)庫。
和Redis同類的數(shù)據(jù)庫還有MongoDB和Memchache(其實并沒有持久化數(shù)據(jù))
那關系型數(shù)據(jù)庫現(xiàn)在常用的一般有MySQL,SQL Server,Oracle。
我們先來了解一下關系型數(shù)據(jù)庫和非關系型數(shù)據(jù)庫的區(qū)別吧。
1.存儲方式
關系型數(shù)據(jù)庫是表格式的,因此存儲在表的行和列中。他們之間很容易關聯(lián)協(xié)作存儲,提取數(shù)據(jù)很方便。而Nosql數(shù)據(jù)庫則與其相反,他是大塊的組合在一起。通常存儲在數(shù)據(jù)集中,就像文檔、鍵值對或者圖結構。
2.存儲結構
關系型數(shù)據(jù)庫對應的是結構化數(shù)據(jù),數(shù)據(jù)表都預先定義了結構(列的定義),結構描述了數(shù)據(jù)的形式和內(nèi)容。這一點對數(shù)據(jù)建模至關重要,雖然預定義結構帶來了可靠性和穩(wěn)定性,但是修改這些數(shù)據(jù)比較困難。而Nosql數(shù)據(jù)庫基于動態(tài)結構,使用與非結構化數(shù)據(jù)。因為Nosql數(shù)據(jù)庫是動態(tài)結構,可以很容易適應數(shù)據(jù)類型和結構的變化。
3.存儲規(guī)范
關系型數(shù)據(jù)庫的數(shù)據(jù)存儲為了更高的規(guī)范性,把數(shù)據(jù)分割為最小的關系表以避免重復,獲得精簡的空間利用。雖然管理起來很清晰,但是單個操作設計到多張表的時候,數(shù)據(jù)管理就顯得有點麻煩。而Nosql數(shù)據(jù)存儲在平面數(shù)據(jù)集中,數(shù)據(jù)經(jīng)常可能會重復。單個數(shù)據(jù)庫很少被分隔開,而是存儲成了一個整體,這樣整塊數(shù)據(jù)更加便于讀寫
4.存儲擴展
這可能是兩者之間最大的區(qū)別,關系型數(shù)據(jù)庫是縱向擴展,也就是說想要提高處理能力,要使用速度更快的計算機。因為數(shù)據(jù)存儲在關系表中,操作的性能瓶頸可能涉及到多個表,需要通過提升計算機性能來克服。雖然有很大的擴展空間,但是最終會達到縱向擴展的上限。而Nosql數(shù)據(jù)庫是橫向擴展的,它的存儲天然就是分布式的,可以通過給資源池添加更多的普通數(shù)據(jù)庫服務器來分擔負載。
5.查詢方式
關系型數(shù)據(jù)庫通過結構化查詢語言來操作數(shù)據(jù)庫(就是我們通常說的SQL)。SQL支持數(shù)據(jù)庫CURD操作的功能非常強大,是業(yè)界的標準用法。而Nosql查詢以塊為單元操作數(shù)據(jù),使用的是非結構化查詢語言(UnQl),它是沒有標準的。關系型數(shù)據(jù)庫表中主鍵的概念對應Nosql中存儲文檔的ID。關系型數(shù)據(jù)庫使用預定義優(yōu)化方式(比如索引)來加快查詢操作,而Nosql更簡單更精確的數(shù)據(jù)訪問模式。
6.事務
關系型數(shù)據(jù)庫遵循ACID規(guī)則(原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)),而Nosql數(shù)據(jù)庫遵循BASE原則(基本可用(Basically Availble)、軟/柔性事務(Soft-state )、最終一致性(Eventual Consistency))。由于關系型數(shù)據(jù)庫的數(shù)據(jù)強一致性,所以對事務的支持很好。關系型數(shù)據(jù)庫支持對事務原子性細粒度控制,并且易于回滾事務。而Nosql數(shù)據(jù)庫是在CAP(一致性、可用性、分區(qū)容忍度)中任選兩項,因為基于節(jié)點的分布式系統(tǒng)中,很難全部滿足,所以對事務的支持不是很好,雖然也可以使用事務,但是并不是Nosql的閃光點。
7.性能
關系型數(shù)據(jù)庫為了維護數(shù)據(jù)的一致性付出了巨大的代價,讀寫性能比較差。在面對高并發(fā)讀寫性能非常差,面對海量數(shù)據(jù)的時候效率非常低。而Nosql存儲的格式都是key-value類型的,并且存儲在內(nèi)存中,非常容易存儲,而且對于數(shù)據(jù)的 一致性是 弱要求。Nosql無需sql的解析,提高了讀寫性能。
8.授權方式
大多數(shù)的關系型數(shù)據(jù)庫都是付費的并且價格昂貴,成本較大(MySQL是開源的,所以應用的場景最多),而Nosql數(shù)據(jù)庫通常都是開源的。
所以,在實際的應用環(huán)境中,我們一般會使用MySQL存儲我們的業(yè)務過程中的數(shù)據(jù),因為這些數(shù)據(jù)之間的關系比較復雜,我們常常會需要在查詢一個表的數(shù)據(jù)時候,將其他關系表的數(shù)據(jù)查詢出來,例如,查詢某個用戶的訂單,那至少是需要用戶表和訂單表的數(shù)據(jù)。
查詢某個商品的銷售數(shù)據(jù),那可能就會需要用戶表,訂單表,訂單明細表,商品表等等。
而在這樣的使用場景中,我們使用Redis來存儲的話,也就是KeyValue形式存儲的話,其實并不能滿足我們的需要。
即使Redis的讀取效率再高,我們也沒法用。
但,對于某些沒有關聯(lián)少,且需要高頻率讀寫,我們使用Redis就能夠很好的提高整個體統(tǒng)的并發(fā)能力。
例如商品的庫存信息,我們雖然在MySQL中會有這樣的字段,但是我們并不想MySQL的數(shù)據(jù)庫被高頻的讀寫,因為使用這樣會導致我的商品表或者庫存表IO非常高,從而影響整個體統(tǒng)的效率。
所以,對于這樣的數(shù)據(jù),且有沒有什么復雜邏輯關系(就只是隸屬于SKU)的數(shù)據(jù),我們就可以放在Redis里面,下單直接在Redis中減掉庫存,這樣,我們的訂單的并發(fā)能力就能夠提高了。
個人覺得應該站出來更正一下,相反的數(shù)據(jù)量大,更不應該用redis。
為什么?
因為redis是內(nèi)存型數(shù)據(jù)庫啊,是放在內(nèi)存里的。
設想一下,假如你的電腦100G的資料,都用redis來存儲,那么你需要100G以上的內(nèi)存!
使用場景
Redis最明顯的用例之一是將其用作緩存。只是保存熱數(shù)據(jù),或者具有過期的cache。
例如facebook,使用Memcached來作為其會話緩存。
總之,沒有見過哪個大公司數(shù)據(jù)量大了,換掉mysql用redis的。
題主你錯了,不是用redis代替MySQL,而是引入redis來優(yōu)化。
BAT里越來越多的項目組已經(jīng)采用了redis+MySQL的架構來開發(fā)平臺工具。
如題主所說,當數(shù)據(jù)多的時候,MySQL的查詢效率會大打折扣。我們通常默認如果查詢的字段包含索引的話,返回是毫秒級別的。但是在實際工作中,我曾經(jīng)遇到過一張包含10個字段的表,1800萬+條數(shù)據(jù),當某種場景下,我們不得不根據(jù)一個未加索引的字段進行精確查詢的時候,單條sql語句的執(zhí)行時長有時能夠達到2min以上,就更別提如果用like這種模糊查詢的話,其效率將會多么低下。
我們最開始是希望能夠通過增加索引的方式解決,但是面對千萬級別的數(shù)據(jù)量,我們也不敢貿(mào)然加索引,因為一旦數(shù)據(jù)庫hang住,期間的所有數(shù)據(jù)庫寫入請求都會被放到等待隊列中,如果請求是通過http請求發(fā)過來的,很有可能導致服務發(fā)生分鐘級別的超時不響應。
經(jīng)過一番調(diào)研,最終敲定的解決方案是引入redis作為緩存。redis具有運行效率高,數(shù)據(jù)查詢速度快,支持多種存儲類型以及事務等優(yōu)勢,我們把經(jīng)常讀取,而不經(jīng)常改動的數(shù)據(jù)放入redis中,服務器讀取這類數(shù)據(jù)的時候時候,直接與redis通信,極大的緩解了MySQL的壓力。
然而,我在上面也說了,是redis+MySQL結合的方式,而不是替代。原因就是redis雖然讀寫很快,但是不適合做數(shù)據(jù)持久層,主要原因是使用redis做數(shù)據(jù)落盤是要以效率作為代價的,即每隔制定的時間,redis就要去進行數(shù)據(jù)備份/落盤,這對于單線程的它來說,勢必會因“分心”而影響效率,結果得不償失。
樓主你好,首先糾正下,數(shù)據(jù)多并不是一定就用Redis,Redis歸屬于NoSQL數(shù)據(jù)庫中,其特點擁有高性能讀寫數(shù)據(jù)速度,主要解決業(yè)務效率瓶頸。下面就詳細說下Redis的相比MySQL優(yōu)點。( 關于Redis詳細了解參見我近期文章: )
讀寫異常快
Redis非常快,每秒可執(zhí)行大約10萬次的讀寫速度。
豐富的數(shù)據(jù)類型
Redis支持豐富的數(shù)據(jù)類型,有二進制字符串、列表、集合、排序集和散列等等。這使得Redis很容易被用來解決各種問題,因為我們知道哪些問題可以更好使用地哪些數(shù)據(jù)類型來處理解決。
原子性
Redis的所有操作都是原子操作,這確保如果兩個客戶端并發(fā)訪問,Redis服務器能接收更新的值。
豐富實用工具 支持異機主從復制
Redis支持主從復制的配置,它可以實現(xiàn)主服務器的完全拷貝。
以上為開發(fā)者青睞Redis的主要幾個可取之處。但是,請注意實際生產(chǎn)環(huán)境中企業(yè)都是結合Redis和MySQL的特定進行不同應用場景的取舍。 如緩存——熱數(shù)據(jù)、計數(shù)器、消息隊列(與ActiveMQ,RocketMQ等工具類似)、位操作(大數(shù)據(jù)處理)、分布式鎖與單線程機制、最新列表(如新聞列表頁面最新的新聞列表)以及排行榜等等 可以看見Redis大顯身手的場景。可是對于嚴謹?shù)臄?shù)據(jù)準確度和復雜的關系型應用MySQL等關系型數(shù)據(jù)庫依然不可替。
web應用中一般采用MySQL+Redis的方式,web應用每次先訪問Redis,如果沒有找到數(shù)據(jù),才去訪問MySQL。
本質(zhì)區(qū)別
1、mysql:數(shù)據(jù)放在磁盤 redis:數(shù)據(jù)放在內(nèi)存。
首先要知道m(xù)ysql存儲在磁盤里,redis存儲在內(nèi)存里,redis既可以用來做持久存儲,也可以做緩存,而目前大多數(shù)公司的存儲都是mysql + redis,mysql作為主存儲,redis作為輔助存儲被用作緩存,加快訪問讀取的速度,提高性能。
使用場景區(qū)別
1、mysql支持sql查詢,可以實現(xiàn)一些關聯(lián)的查詢以及統(tǒng)計;
2、redis對內(nèi)存要求比較高,在有限的條件下不能把所有數(shù)據(jù)都放在redis;
3、mysql偏向于存數(shù)據(jù),redis偏向于快速取數(shù)據(jù),但redis查詢復雜的表關系時不如mysql,所以可以把熱門的數(shù)據(jù)放redis,mysql存基本數(shù)據(jù)。
mysql的運行機制
mysql作為持久化存儲的關系型數(shù)據(jù)庫,相對薄弱的地方在于每次請求訪問數(shù)據(jù)庫時,都存在著I/O操作,如果反復頻繁的訪問數(shù)據(jù)庫。第一:會在反復鏈接數(shù)據(jù)庫上花費大量時間,從而導致運行效率過慢;第二:反復地訪問數(shù)據(jù)庫也會導致數(shù)據(jù)庫的負載過高,那么此時緩存的概念就衍生了出來。
Redis持久化
由于Redis的數(shù)據(jù)都存放在內(nèi)存中,如果沒有配置持久化,redis重啟后數(shù)據(jù)就全丟失了,于是需要開啟redis的持久化功能,將數(shù)據(jù)保存到磁盤上,當redis重啟后,可以從磁盤中恢復數(shù)據(jù)。redis提供兩種方式進行持久化,一種是RDB持久化(原理是將Reids在內(nèi)存中的數(shù)據(jù)庫記錄定時dump到磁盤上的RDB持久化),另外一種是AOF(append only file)持久化(原理是將Reids的操作日志以追加的方式寫入文件)。
redis是放在內(nèi)存的~!
數(shù)據(jù)量多少絕對不是選擇redis和mysql的準則,因為無論是mysql和redis都可以集群擴展,約束它們的只是硬件(即你有沒有那么多錢搭建上千個組成的集群),我個人覺得數(shù)據(jù)讀取的快慢可能是選擇的標準之一,另外工作中往往是兩者同是使用,因為mysql存儲在硬盤,做持久化存儲,而redis存儲在內(nèi)存中做緩存提升效率。
關系型數(shù)據(jù)庫是必不可少的,因為只有關系型數(shù)據(jù)庫才能提供給你各種各樣的查詢方式。如果有一系列的數(shù)據(jù)會頻繁的查詢,那么就用redis進行非持久化的存儲,以供查詢使用,是解決并發(fā)性能問題的其中一個手段
1 理解ACID與BASE的區(qū)別(ACID是關系型數(shù)據(jù)庫強一致性的四個要求,而BASE是NoSQL數(shù)據(jù)庫通常對可用性及一致性的弱要求原則,它們的意思分別是,ACID:atomicity, consistency, isolation, durability;BASE:Basically Available, Soft-state, Eventually Consistent。同時有意思的是ACID在英語里意為酸,BASE意思為堿)
2 理解持久化與非持久化的區(qū)別。這么說是因為有的NoSQL系統(tǒng)是純內(nèi)存存儲的。
3 你必須意識到傳統(tǒng)有關系型數(shù)據(jù)庫與NoSQL系統(tǒng)在數(shù)據(jù)結構上的本質(zhì)區(qū)別。傳統(tǒng)關系型數(shù)據(jù)庫通常是基于行的表格型存儲,而NoSQL系統(tǒng)包括了列式存儲(Cassandra)、key/value存儲(Memcached)、文檔型存儲(CouchDB)以及圖結構存儲(Neo4j)
4與傳統(tǒng)關系數(shù)據(jù)庫有統(tǒng)一的SQL語言操作接口不同,NoSQL系統(tǒng)通常有自己特有的API接口。
5 在架構上,你必須搞清楚,NoSQL系統(tǒng)是被設計用于成百上千臺機器的集群中的,而非共享型數(shù)據(jù)庫系統(tǒng)的架構。
6在NoSQL系統(tǒng)中,可能你得習慣一下不知道你的數(shù)據(jù)具體存在何處的情況。
7 在NoSQL系統(tǒng)中,你最好習慣它的弱一致性。”eventually consistent”(最終一致性)正是BASE原則中的重要一項。比如在Twitter,你在Followers列表中經(jīng)常會感受到數(shù)據(jù)的延遲。
8 在NoSQL系統(tǒng)中,你要理解,很多時候數(shù)據(jù)并不總是可用的。
9 你得理解,有的方案是擁有分區(qū)容忍性的,有的方案不一定有。
大數(shù)據(jù)的由來
對于“大數(shù)據(jù)”(Big data)研究機構Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。
1
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術上看,大數(shù)據(jù)與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術。
大數(shù)據(jù)需要特殊的技術,以有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大數(shù)據(jù)的應用領域
大數(shù)據(jù)無處不在,大數(shù)據(jù)應用于各個行業(yè),包括金融、 汽車 、餐飲、電信、能源、體能和 娛樂 等在內(nèi)的 社會 各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
制造業(yè),利用工業(yè)大數(shù)據(jù)提升制造業(yè)水平,包括產(chǎn)品故障診斷與預測、分析工藝流程、改進生產(chǎn)工藝,優(yōu)化生產(chǎn)過程能耗、工業(yè)供應鏈分析與優(yōu)化、生產(chǎn)計劃與排程。
金融行業(yè),大數(shù)據(jù)在高頻交易、社交情緒分析和信貸風險分析三大金融創(chuàng)新領域發(fā)揮重大作用。
汽車 行業(yè),利用大數(shù)據(jù)和物聯(lián)網(wǎng)技術的無人駕駛 汽車 ,在不遠的未來將走入我們的日常生活。
互聯(lián)網(wǎng)行業(yè),借助于大數(shù)據(jù)技術,可以分析客戶行為,進行商品推薦和針對性廣告投放。
電信行業(yè),利用大數(shù)據(jù)技術實現(xiàn)客戶離網(wǎng)分析,及時掌握客戶離網(wǎng)傾向,出臺客戶挽留措施。
能源行業(yè),隨著智能電網(wǎng)的發(fā)展,電力公司可以掌握海量的用戶用電信息,利用大數(shù)據(jù)技術分析用戶用電模式,可以改進電網(wǎng)運行,合理設計電力需求響應系統(tǒng),確保電網(wǎng)運行安全。
物流行業(yè),利用大數(shù)據(jù)優(yōu)化物流網(wǎng)絡,提高物流效率,降低物流成本。
城市管理,可以利用大數(shù)據(jù)實現(xiàn)智能交通、環(huán)保監(jiān)測、城市規(guī)劃和智能安防。
體育 娛樂 ,大數(shù)據(jù)可以幫助我們訓練球隊,決定投拍哪種 題財?shù)?影視作品,以及預測比賽結果。
安全領域,政府可以利用大數(shù)據(jù)技術構建起強大的國家安全保障體系,企業(yè)可以利用大數(shù)據(jù)抵御網(wǎng)絡攻擊,警察可以借助大數(shù)據(jù)來預防犯罪。
個人生活, 大數(shù)據(jù)還可以應用于個人生活,利用與每個人相關聯(lián)的“個人大數(shù)據(jù)”,分析個人生活行為習慣,為其提供更加周到的個性化服務。
大數(shù)據(jù)的價值,遠遠不止于此,大數(shù)據(jù)對各行各業(yè)的滲透,大大推動了 社會 生產(chǎn)和生活,未來必將產(chǎn)生重大而深遠的影響。
大數(shù)據(jù)方面核心技術有哪些?
大數(shù)據(jù)技術的體系龐大且復雜,基礎的技術包含數(shù)據(jù)的采集、數(shù)據(jù)預處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學習、并行計算、可視化等各種技術范疇和不同的技術層面。首先給出一個通用化的大數(shù)據(jù)處理框架,主要分為下面幾個方面:數(shù)據(jù)采集與預處理、數(shù)據(jù)存儲、數(shù)據(jù)清洗、數(shù)據(jù)查詢分析和數(shù)據(jù)可視化。
數(shù)據(jù)采集與預處理
對于各種來源的數(shù)據(jù),包括移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡的數(shù)據(jù)等,這些結構化和非結構化的海量數(shù)據(jù)是零散的,也就是所謂的數(shù)據(jù)孤島,此時的這些數(shù)據(jù)并沒有什么意義,數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉庫中,把零散的數(shù)據(jù)整合在一起,對這些數(shù)據(jù)綜合起來進行分析。數(shù)據(jù)采集包括文件日志的采集、數(shù)據(jù)庫日志的采集、關系型數(shù)據(jù)庫的接入和應用程序的接入等。在數(shù)據(jù)量比較小的時候,可以寫個定時的腳本將日志寫入存儲系統(tǒng),但隨著數(shù)據(jù)量的增長,這些方法無法提供數(shù)據(jù)安全保障,并且運維困難,需要更強壯的解決方案。
Flume NG
Flume NG作為實時日志收集系統(tǒng),支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),同時,對數(shù)據(jù)進行簡單處理,并寫到各種數(shù)據(jù)接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三層架構:Agent層,Collector層和Store層,每一層均可水平拓展。其中Agent包含Source,Channel和 Sink,source用來消費(收集)數(shù)據(jù)源到channel組件中,channel作為中間臨時存儲,保存所有source的組件信息,sink從channel中讀取數(shù)據(jù),讀取成功之后會刪除channel中的信息。
NDC
Logstash
Logstash是開源的服務器端數(shù)據(jù)處理管道,能夠同時從多個來源采集數(shù)據(jù)、轉換數(shù)據(jù),然后將數(shù)據(jù)發(fā)送到您最喜歡的 “存儲庫” 中。一般常用的存儲庫是Elasticsearch。Logstash 支持各種輸入選擇,可以在同一時間從眾多常用的數(shù)據(jù)來源捕捉事件,能夠以連續(xù)的流式傳輸方式,輕松地從您的日志、指標、Web 應用、數(shù)據(jù)存儲以及各種 AWS 服務采集數(shù)據(jù)。
Sqoop
Sqoop,用來將關系型數(shù)據(jù)庫和Hadoop中的數(shù)據(jù)進行相互轉移的工具,可以將一個關系型數(shù)據(jù)庫(例如Mysql、Oracle)中的數(shù)據(jù)導入到Hadoop(例如HDFS、Hive、Hbase)中,也可以將Hadoop(例如HDFS、Hive、Hbase)中的數(shù)據(jù)導入到關系型數(shù)據(jù)庫(例如Mysql、Oracle)中。Sqoop 啟用了一個 MapReduce 作業(yè)(極其容錯的分布式并行計算)來執(zhí)行任務。Sqoop 的另一大優(yōu)勢是其傳輸大量結構化或半結構化數(shù)據(jù)的過程是完全自動化的。
流式計算
流式計算是行業(yè)研究的一個熱點,流式計算對多個高吞吐量的數(shù)據(jù)源進行實時的清洗、聚合和分析,可以對存在于社交網(wǎng)站、新聞等的數(shù)據(jù)信息流進行快速的處理并反饋,目前大數(shù)據(jù)流分析工具有很多,比如開源的strom,spark streaming等。
Strom集群結構是有一個主節(jié)點(nimbus)和多個工作節(jié)點(supervisor)組成的主從結構,主節(jié)點通過配置靜態(tài)指定或者在運行時動態(tài)選舉,nimbus與supervisor都是Storm提供的后臺守護進程,之間的通信是結合Zookeeper的狀態(tài)變更通知和監(jiān)控通知來處理。nimbus進程的主要職責是管理、協(xié)調(diào)和監(jiān)控集群上運行的topology(包括topology的發(fā)布、任務指派、事件處理時重新指派任務等)。supervisor進程等待nimbus分配任務后生成并監(jiān)控worker(jvm進程)執(zhí)行任務。supervisor與worker運行在不同的jvm上,如果由supervisor啟動的某個worker因為錯誤異常退出(或被kill掉),supervisor會嘗試重新生成新的worker進程。
Zookeeper
Zookeeper是一個分布式的,開放源碼的分布式應用程序協(xié)調(diào)服務,提供數(shù)據(jù)同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置,那么對這個地方的配置感興趣的所有的都可以獲得變更,省去了手動拷貝配置的繁瑣,還很好的保證了數(shù)據(jù)的可靠和一致性,同時它可以通過名字來獲取資源或者服務的地址等信息,可以監(jiān)控集群中機器的變化,實現(xiàn)了類似于心跳機制的功能。
數(shù)據(jù)存儲
Hadoop作為一個開源的框架,專為離線和大規(guī)模數(shù)據(jù)分析而設計,HDFS作為其核心的存儲引擎,已被廣泛用于數(shù)據(jù)存儲。
HBase
HBase,是一個分布式的、面向列的開源數(shù)據(jù)庫,可以認為是hdfs的封裝,本質(zhì)是數(shù)據(jù)存儲、NoSQL數(shù)據(jù)庫。HBase是一種Key/Value系統(tǒng),部署在hdfs上,克服了hdfs在隨機讀寫這個方面的缺點,與hadoop一樣,Hbase目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器,來增加計算和存儲能力。
Phoenix
Phoenix,相當于一個Java中間件,幫助開發(fā)工程師能夠像使用JDBC訪問關系型數(shù)據(jù)庫一樣訪問NoSQL數(shù)據(jù)庫HBase。
Yarn
Yarn是一種Hadoop資源管理器,可為上層應用提供統(tǒng)一的資源管理和調(diào)度,它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。Yarn由下面的幾大組件構成:一個全局的資源管理器ResourceManager、ResourceManager的每個節(jié)點代理NodeManager、表示每個應用的Application以及每一個ApplicationMaster擁有多個Container在NodeManager上運行。
Mesos
Mesos是一款開源的集群管理軟件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等應用架構。
Redis
Redis是一種速度非常快的非關系數(shù)據(jù)庫,可以存儲鍵與5種不同類型的值之間的映射,可以將存儲在內(nèi)存的鍵值對數(shù)據(jù)持久化到硬盤中,使用復制特性來擴展性能,還可以使用客戶端分片來擴展寫性能。
Atlas
Atlas是一個位于應用程序與MySQL之間的中間件。在后端DB看來,Atlas相當于連接它的客戶端,在前端應用看來,Atlas相當于一個DB。Atlas作為服務端與應用程序通訊,它實現(xiàn)了MySQL的客戶端和服務端協(xié)議,同時作為客戶端與MySQL通訊。它對應用程序屏蔽了DB的細節(jié),同時為了降低MySQL負擔,它還維護了連接池。Atlas啟動后會創(chuàng)建多個線程,其中一個為主線程,其余為工作線程。主線程負責監(jiān)聽所有的客戶端連接請求,工作線程只監(jiān)聽主線程的命令請求。
Kudu
Kudu是圍繞Hadoop生態(tài)圈建立的存儲引擎,Kudu擁有和Hadoop生態(tài)圈共同的設計理念,它運行在普通的服務器上、可分布式規(guī)模化部署、并且滿足工業(yè)界的高可用要求。其設計理念為fast analytics on fast data。作為一個開源的存儲引擎,可以同時提供低延遲的隨機讀寫和高效的數(shù)據(jù)分析能力。Kudu不但提供了行級的插入、更新、刪除API,同時也提供了接近Parquet性能的批量掃描操作。使用同一份存儲,既可以進行隨機讀寫,也可以滿足數(shù)據(jù)分析的要求。Kudu的應用場景很廣泛,比如可以進行實時的數(shù)據(jù)分析,用于數(shù)據(jù)可能會存在變化的時序數(shù)據(jù)應用等。
在數(shù)據(jù)存儲過程中,涉及到的數(shù)據(jù)表都是成千上百列,包含各種復雜的Query,推薦使用列式存儲方法,比如parquent,ORC等對數(shù)據(jù)進行壓縮。Parquet 可以支持靈活的壓縮選項,顯著減少磁盤上的存儲。
數(shù)據(jù)清洗
MapReduce作為Hadoop的查詢引擎,用于大規(guī)模數(shù)據(jù)集的并行計算,”Map(映射)”和”Reduce(歸約)”,是它的主要思想。它極大的方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)中。
隨著業(yè)務數(shù)據(jù)量的增多,需要進行訓練和清洗的數(shù)據(jù)會變得越來越復雜,這個時候就需要任務調(diào)度系統(tǒng),比如oozie或者azkaban,對關鍵任務進行調(diào)度和監(jiān)控。
Oozie
Oozie是用于Hadoop平臺的一種工作流調(diào)度引擎,提供了RESTful API接口來接受用戶的提交請求(提交工作流作業(yè)),當提交了workflow后,由工作流引擎負責workflow的執(zhí)行以及狀態(tài)的轉換。用戶在HDFS上部署好作業(yè)(MR作業(yè)),然后向Oozie提交Workflow,Oozie以異步方式將作業(yè)(MR作業(yè))提交給Hadoop。這也是為什么當調(diào)用Oozie 的RESTful接口提交作業(yè)之后能立即返回一個JobId的原因,用戶程序不必等待作業(yè)執(zhí)行完成(因為有些大作業(yè)可能會執(zhí)行很久(幾個小時甚至幾天))。Oozie在后臺以異步方式,再將workflow對應的Action提交給hadoop執(zhí)行。
Azkaban
Azkaban也是一種工作流的控制引擎,可以用來解決有多個hadoop或者spark等離線計算任務之間的依賴關系問題。azkaban主要是由三部分構成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban將大多數(shù)的狀態(tài)信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、認證、調(diào)度以及對工作流執(zhí)行過程中的監(jiān)控等;Azkaban Executor Server用來調(diào)度工作流和任務,記錄工作流或者任務的日志。
流計算任務的處理平臺Sloth,是網(wǎng)易首個自研流計算平臺,旨在解決公司內(nèi)各產(chǎn)品日益增長的流計算需求。作為一個計算服務平臺,其特點是易用、實時、可靠,為用戶節(jié)省技術方面(開發(fā)、運維)的投入,幫助用戶專注于解決產(chǎn)品本身的流計算需求
數(shù)據(jù)查詢分析
Hive
Hive的核心工作就是把SQL語句翻譯成MR程序,可以將結構化的數(shù)據(jù)映射為一張數(shù)據(jù)庫表,并提供 HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數(shù)據(jù),它完全依賴于HDFS和MapReduce。可以將Hive理解為一個客戶端工具,將SQL操作轉換為相應的MapReduce jobs,然后在hadoop上面運行。Hive支持標準的SQL語法,免去了用戶編寫MapReduce程序的過程,它的出現(xiàn)可以讓那些精通SQL技能、但是不熟悉MapReduce 、編程能力較弱與不擅長Java語言的用戶能夠在HDFS大規(guī)模數(shù)據(jù)集上很方便地利用SQL 語言查詢、匯總、分析數(shù)據(jù)。
Hive是為大數(shù)據(jù)批量處理而生的,Hive的出現(xiàn)解決了傳統(tǒng)的關系型數(shù)據(jù)庫(MySql、Oracle)在大數(shù)據(jù)處理上的瓶頸 。Hive 將執(zhí)行計劃分成map-shuffle-reduce-map-shuffle-reduce…的模型。如果一個Query會被編譯成多輪MapReduce,則會有更多的寫中間結果。由于MapReduce執(zhí)行框架本身的特點,過多的中間過程會增加整個Query的執(zhí)行時間。在Hive的運行過程中,用戶只需要創(chuàng)建表,導入數(shù)據(jù),編寫SQL分析語句即可。剩下的過程由Hive框架自動的完成。
Impala
Impala是對Hive的一個補充,可以實現(xiàn)高效的SQL查詢。使用Impala來實現(xiàn)SQL on Hadoop,用來進行大數(shù)據(jù)實時查詢分析。通過熟悉的傳統(tǒng)關系型數(shù)據(jù)庫的SQL風格來操作大數(shù)據(jù),同時數(shù)據(jù)也是可以存儲到HDFS和HBase中的。Impala沒有再使用緩慢的Hive+MapReduce批處理,而是通過使用與商用并行關系數(shù)據(jù)庫中類似的分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成),可以直接從HDFS或HBase中用SELECT、JOIN和統(tǒng)計函數(shù)查詢數(shù)據(jù),從而大大降低了延遲。Impala將整個查詢分成一執(zhí)行計劃樹,而不是一連串的MapReduce任務,相比Hive沒了MapReduce啟動時間。
Hive 適合于長時間的批處理查詢分析,而Impala適合于實時交互式SQL查詢,Impala給數(shù)據(jù)人員提供了快速實驗,驗證想法的大數(shù)據(jù)分析工具,可以先使用Hive進行數(shù)據(jù)轉換處理,之后使用Impala在Hive處理好后的數(shù)據(jù)集上進行快速的數(shù)據(jù)分析。總的來說:Impala把執(zhí)行計劃表現(xiàn)為一棵完整的執(zhí)行計劃樹,可以更自然地分發(fā)執(zhí)行計劃到各個Impalad執(zhí)行查詢,而不用像Hive那樣把它組合成管道型的map-reduce模式,以此保證Impala有更好的并發(fā)性和避免不必要的中間sort與shuffle。但是Impala不支持UDF,能處理的問題有一定的限制。
Spark
Spark擁有Hadoop MapReduce所具有的特點,它將Job中間輸出結果保存在內(nèi)存中,從而不需要讀取HDFS。Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark 是在 Scala 語言中實現(xiàn)的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。
Nutch
Nutch 是一個開源Java 實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬蟲。
Solr
Solr用Java編寫、運行在Servlet容器(如Apache Tomcat或Jetty)的一個獨立的企業(yè)級搜索應用的全文搜索服務器。它對外提供類似于Web-service的API接口,用戶可以通過http請求,向搜索引擎服務器提交一定格式的XML文件,生成索引;也可以通過Http Get操作提出查找請求,并得到XML格式的返回結果。
Elasticsearch
Elasticsearch是一個開源的全文搜索引擎,基于Lucene的搜索服務器,可以快速的儲存、搜索和分析海量的數(shù)據(jù)。設計用于云計算中,能夠達到實時搜索,穩(wěn)定,可靠,快速,安裝使用方便。
還涉及到一些機器學習語言,比如,Mahout主要目標是創(chuàng)建一些可伸縮的機器學習算法,供開發(fā)人員在Apache的許可下免費使用;深度學習框架Caffe以及使用數(shù)據(jù)流圖進行數(shù)值計算的開源軟件庫TensorFlow等,常用的機器學習算法比如,貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡、協(xié)同過濾等。
數(shù)據(jù)可視化
對接一些BI平臺,將分析得到的數(shù)據(jù)進行可視化,用于指導決策服務。主流的BI平臺比如,國外的敏捷BI Tableau、Qlikview、PowrerBI等,國內(nèi)的SmallBI和新興的網(wǎng)易有數(shù)等。
在上面的每一個階段,保障數(shù)據(jù)的安全是不可忽視的問題。
基于網(wǎng)絡身份認證的協(xié)議Kerberos,用來在非安全網(wǎng)絡中,對個人通信以安全的手段進行身份認證,它允許某實體在非安全網(wǎng)絡環(huán)境下通信,向另一個實體以一種安全的方式證明自己的身份。
控制權限的ranger是一個Hadoop集群權限框架,提供操作、監(jiān)控、管理復雜的數(shù)據(jù)權限,它提供一個集中的管理機制,管理基于yarn的Hadoop生態(tài)圈的所有數(shù)據(jù)權限。可以對Hadoop生態(tài)的組件如Hive,Hbase進行細粒度的數(shù)據(jù)訪問控制。通過操作Ranger控制臺,管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、數(shù)據(jù)庫、表、字段權限。這些策略可以為不同的用戶和組來設置,同時權限可與hadoop無縫對接。
簡單說有三大核心技術:拿數(shù)據(jù),算數(shù)據(jù),賣數(shù)據(jù)。
2. 什么是NoSQL?
2.1 NoSQL 概述
NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”,
泛指非關系型的數(shù)據(jù)庫。隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的關系數(shù)據(jù)庫在應付web2.0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動態(tài)網(wǎng)站已經(jīng)顯得力不從心,暴露了很多難以克服的問題,而非關系型的數(shù)據(jù)庫則由于其本身的特點得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫的產(chǎn)生就是為了解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應用難題,包括超大規(guī)模數(shù)據(jù)的存儲。
(例如谷歌或Facebook每天為他們的用戶收集萬億比特的數(shù)據(jù))。這些類型的數(shù)據(jù)存儲不需要固定的模式,無需多余操作就可以橫向擴展。
2.2 NoSQL代表
MongDB、 Redis、Memcache
3. 關系型數(shù)據(jù)庫與NoSQL的區(qū)別?
3.1 RDBMS
高度組織化結構化數(shù)據(jù)
結構化查詢語言(SQL)
數(shù)據(jù)和關系都存儲在單獨的表中。
數(shù)據(jù)操縱語言,數(shù)據(jù)定義語言
嚴格的一致性
基礎事務
ACID
關系型數(shù)據(jù)庫遵循ACID規(guī)則
事務在英文中是transaction,和現(xiàn)實世界中的交易很類似,它有如下四個特性:
A (Atomicity) 原子性
原子性很容易理解,也就是說事務里的所有操作要么全部做完,要么都不做,事務成功的條件是事務里的所有操作都成功,只要有一個操作失敗,整個事務就失敗,需要回滾。比如銀行轉賬,從A賬戶轉100元至B賬戶,分為兩個步驟:1)從A賬戶取100元;2)存入100元至B賬戶。這兩步要么一起完成,要么一起不完成,如果只完成第一步,第二步失敗,錢會莫名其妙少了100元。
C (Consistency) 一致性
一致性也比較容易理解,也就是說數(shù)據(jù)庫要一直處于一致的狀態(tài),事務的運行不會改變數(shù)據(jù)庫原本的一致性約束。
I (Isolation) 獨立性
所謂的獨立性是指并發(fā)的事務之間不會互相影響,如果一個事務要訪問的數(shù)據(jù)正在被另外一個事務修改,只要另外一個事務未提交,它所訪問的數(shù)據(jù)就不受未提交事務的影響。比如現(xiàn)有有個交易是從A賬戶轉100元至B賬戶,在這個交易還未完成的情況下,如果此時B查詢自己的賬戶,是看不到新增加的100元的
D (Durability) 持久性
持久性是指一旦事務提交后,它所做的修改將會永久的保存在數(shù)據(jù)庫上,即使出現(xiàn)宕機也不會丟失。
3.2 NoSQL
代表著不僅僅是SQL
沒有聲明性查詢語言
沒有預定義的模式
鍵 - 值對存儲,列存儲,文檔存儲,圖形數(shù)據(jù)庫
最終一致性,而非ACID屬性
非結構化和不可預知的數(shù)據(jù)
CAP定理
高性能,高可用性和可伸縮性
分布式數(shù)據(jù)庫中的CAP原理(了解)
CAP定理:
Consistency(一致性), 數(shù)據(jù)一致更新,所有數(shù)據(jù)變動都是同步的
Availability(可用性), 好的響應性能
Partition tolerance(分區(qū)容錯性) 可靠性
P: 系統(tǒng)中任意信息的丟失或失敗不會影響系統(tǒng)的繼續(xù)運作。
定理:任何分布式系統(tǒng)只可同時滿足二點,沒法三者兼顧。
CAP理論的核心是:一個分布式系統(tǒng)不可能同時很好的滿足一致性,可用性和分區(qū)容錯性這三個需求,
因此,根據(jù) CAP 原理將 NoSQL 數(shù)據(jù)庫分成了滿足 CA 原則、滿足 CP 原則和滿足 AP 原則三 大類:
CA - 單點集群,滿足一致性,可用性的系統(tǒng),通常在可擴展性上不太強大。
CP - 滿足一致性,分區(qū)容忍性的系統(tǒng),通常性能不是特別高。
AP - 滿足可用性,分區(qū)容忍性的系統(tǒng),通常可能對一致性要求低一些。
CAP理論就是說在分布式存儲系統(tǒng)中,最多只能實現(xiàn)上面的兩點。
而由于當前的網(wǎng)絡硬件肯定會出現(xiàn)延遲丟包等問題,所以分區(qū)容忍性是我們必須需要實現(xiàn)的。
所以我們只能在一致性和可用性之間進行權衡,沒有NoSQL系統(tǒng)能同時保證這三點。
說明:C:強一致性 A:高可用性 P:分布式容忍性
舉例:
CA:傳統(tǒng)Oracle數(shù)據(jù)庫
AP:大多數(shù)網(wǎng)站架構的選擇
CP:Redis、Mongodb
注意:分布式架構的時候必須做出取舍。
一致性和可用性之間取一個平衡。多余大多數(shù)web應用,其實并不需要強一致性。
因此犧牲C換取P,這是目前分布式數(shù)據(jù)庫產(chǎn)品的方向。
4. 當下NoSQL的經(jīng)典應用
當下的應用是 SQL 與 NoSQL 一起使用的。
代表項目:阿里巴巴商品信息的存放。
去 IOE 化。
ps:I 是指 IBM 的小型機,很貴的,好像好幾萬一臺;O 是指 Oracle 數(shù)據(jù)庫,也很貴的,好幾萬呢;M 是指 EMC 的存儲設備,也很貴的。
難點:
數(shù)據(jù)類型多樣性。
數(shù)據(jù)源多樣性和變化重構。
數(shù)據(jù)源改造而服務平臺不需要大面積重構。
網(wǎng)站名稱:nosql持久化,nosql的好處
本文網(wǎng)址:http://www.chinadenli.net/article38/dscddpp.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供微信小程序、網(wǎng)站維護、網(wǎng)站建設、網(wǎng)站內(nèi)鏈、定制開發(fā)、網(wǎng)站排名
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)