淺談可量化的數(shù)據(jù)中心監(jiān)控服務(wù)及運(yùn)營(yíng)方法

經(jīng)過(guò)十多年的建設(shè)和發(fā)展,不管是老的數(shù)據(jù)中心或者新建的數(shù)據(jù)中心,后期的運(yùn)維管理方法及手段已經(jīng)考慮的比較成熟,當(dāng)然運(yùn)維管理工具已經(jīng)成為必備的產(chǎn)品。說(shuō)起數(shù)據(jù)中心運(yùn)維,其中的理論、方案、方法和工具會(huì)有很多很多中說(shuō)法,今天主要討論主動(dòng)監(jiān)控工具所面臨的問(wèn)題,以及解決之道。
監(jiān)控系統(tǒng)面臨的主要問(wèn)題是告警量過(guò)多的問(wèn)題,導(dǎo)致用戶認(rèn)為系統(tǒng)不可信,雖然這些告警都是用戶自己配置出來(lái)的,但是用戶渾然不知。第二個(gè)問(wèn)題是監(jiān)控系統(tǒng)如何使用,值班團(tuán)隊(duì)如何進(jìn)行考核,讓物盡其用,人盡其才。第三個(gè)問(wèn)題是如何量化監(jiān)控服務(wù),體現(xiàn)監(jiān)控服務(wù)的價(jià)值。
關(guān)于告警過(guò)多的問(wèn)題,基于我之前項(xiàng)目的經(jīng)驗(yàn),引起告警量高的兩個(gè)主因是監(jiān)控策略過(guò)多和監(jiān)控范圍過(guò)細(xì)。解決方法主要是通過(guò)定向配置策略和限制重復(fù)告警兩種方法來(lái)優(yōu)化告警,這樣使得嚴(yán)重告警信息的準(zhǔn)確率提高到80%左右,但是對(duì)于預(yù)警類(lèi)的信息還是比較多,因?yàn)椴豢赡馨验撝刀ㄖ频揭粋€(gè)恰到好處的數(shù)值、也不能能完全限制住網(wǎng)絡(luò)中頻繁發(fā)生的trap信息(trap是網(wǎng)絡(luò)設(shè)備和各OS都會(huì)觸發(fā)的信息),當(dāng)然對(duì)于大多產(chǎn)品還是可以通過(guò)限制性策略限制無(wú)效trap的接收。而這幾種手段需要長(zhǎng)期性的系統(tǒng)維護(hù)來(lái)完成。
對(duì)于監(jiān)控系統(tǒng)的考核主要是看系統(tǒng)功能、設(shè)備類(lèi)型的覆蓋率、監(jiān)控頻率粒度和穩(wěn)定性等指標(biāo)。當(dāng)然對(duì)于故障的準(zhǔn)確率這一個(gè)指標(biāo)大家覺(jué)得非常重要,如果考慮工具是運(yùn)維團(tuán)隊(duì)自身的工具后,這個(gè)指標(biāo)的定義意義就不大了,看后面對(duì)于工具的持續(xù)優(yōu)化說(shuō)明,可能就比較好理解。準(zhǔn)確率和運(yùn)維團(tuán)隊(duì)的態(tài)度和能力相關(guān),根據(jù)我做過(guò)的眾多項(xiàng)目總結(jié),運(yùn)維團(tuán)隊(duì)對(duì)監(jiān)控工具的重視程度,直接影響這個(gè)數(shù)據(jù)。
業(yè)內(nèi)對(duì)于監(jiān)控團(tuán)隊(duì)的考核沒(méi)有明確的約定,主要還是長(zhǎng)期運(yùn)維的一個(gè)經(jīng)驗(yàn)總結(jié),普遍認(rèn)可監(jiān)控服務(wù)考核的主要指標(biāo)在于響應(yīng)時(shí)間,告警數(shù)量;告警數(shù)量主要是核算工作量和成本,數(shù)量會(huì)成為核算服務(wù)的基數(shù)。我們?cè)诓煌纳a(chǎn)環(huán)境中,設(shè)備的負(fù)荷、運(yùn)營(yíng)時(shí)間、環(huán)境和業(yè)務(wù)系統(tǒng)等是千差萬(wàn)別的,出現(xiàn)故障的數(shù)量和時(shí)間是不確定的,比如在思科高端交換機(jī)較多的網(wǎng)絡(luò)中,負(fù)載也很低,網(wǎng)絡(luò)全年不會(huì)出現(xiàn)任何問(wèn)題。但對(duì)于網(wǎng)絡(luò)建設(shè)年限比較舊,設(shè)備比較陳舊的網(wǎng)絡(luò),出現(xiàn)故障的頻率就比較高了。
監(jiān)控服務(wù)考核指標(biāo)主要定義是漏報(bào)率、誤報(bào)率和上報(bào)率(15分鐘內(nèi)),前兩個(gè)指標(biāo)是考核團(tuán)隊(duì)對(duì)監(jiān)控系統(tǒng)的運(yùn)營(yíng)能力,在下面告警質(zhì)量的問(wèn)題里講。不能因有監(jiān)控系統(tǒng)后運(yùn)維團(tuán)隊(duì)就高枕無(wú)憂,運(yùn)維團(tuán)隊(duì)需要不停的優(yōu)化和改進(jìn)監(jiān)控系統(tǒng),同時(shí)在網(wǎng)絡(luò)、業(yè)務(wù)系統(tǒng)發(fā)生變更后,對(duì)監(jiān)控持續(xù)的優(yōu)化。第三個(gè)指標(biāo)是考核團(tuán)隊(duì)的執(zhí)行能力,有告警是必須及時(shí)分析上報(bào)的。這樣從整個(gè)團(tuán)隊(duì)的工作態(tài)度和能力兩個(gè)緯度進(jìn)行考核。
監(jiān)控服務(wù)價(jià)值統(tǒng)計(jì)主要是核算服務(wù)的費(fèi)用,這個(gè)是量化現(xiàn)代化服務(wù)的一個(gè)普遍觀點(diǎn),不管是甲方還是乙方,數(shù)字說(shuō)話是普遍認(rèn)可的一個(gè)觀點(diǎn),根據(jù)上面提到的以告警量做為核算成本的一個(gè)基數(shù),再根據(jù)告警的嚴(yán)重等級(jí)和相關(guān)業(yè)務(wù)項(xiàng)的等級(jí),進(jìn)行加權(quán)計(jì)算,例如同樣嚴(yán)重等級(jí)的告警,對(duì)于不通等級(jí)的業(yè)務(wù)系統(tǒng),發(fā)現(xiàn)該告警的的價(jià)值是不一樣的。再在以上幾個(gè)指標(biāo)考慮的基礎(chǔ)上,增加響應(yīng)時(shí)間的計(jì)算,基本上可以計(jì)算服務(wù)的價(jià)值量。計(jì)算公式為(需要CMDB的支撐):
M=p(w1*a1*b1*r1+w2*a2*b2*r2+……wn*an*bn*rn)+基本服務(wù)價(jià)格(驗(yàn)證誤報(bào)、巡檢等工作)
基本價(jià)格服務(wù)包括:網(wǎng)元數(shù)量*單價(jià);網(wǎng)元是網(wǎng)絡(luò)管理中可以監(jiān)視和管理的最小單位,包括軟件、硬件和應(yīng)用等服務(wù)。這里就包括常規(guī)告警監(jiān)控和性能報(bào)告等。
用以上兩種緯度計(jì)算,主要是從服務(wù)團(tuán)隊(duì)的態(tài)度和能力兩個(gè)緯度進(jìn)行激勵(lì)。
簡(jiǎn)稱(chēng) | 字符描述 |
M(money) | 服務(wù)價(jià)值 |
w(work) | 告警項(xiàng) |
a(alert) | 告警級(jí)別 |
b (business) | 業(yè)務(wù)系統(tǒng)級(jí)別 |
r(response) | 響應(yīng)時(shí)間 |
p(price) | 基本價(jià)格 |
例如:
告警級(jí)別:業(yè)務(wù)系統(tǒng)級(jí)別:響應(yīng)時(shí)間:
嚴(yán)重告警 | 1.5 | XX生產(chǎn)系統(tǒng) | 1.5 | 5分鐘 | 1.5 | ||
高級(jí)告警 | 1.2 | OA系統(tǒng) | 1.2 | 10分鐘 | 1.2 | ||
初級(jí)告警 | 1.0 | 公司門(mén)戶系統(tǒng) | 1.0 | 15分鐘 | 1.0 | ||
警告告警 | 1.0 | XX測(cè)試系統(tǒng) | 1.0 | 30分鐘 | 0.9 | ||
初級(jí)告警 | 0.8 | 內(nèi)部論壇 | 0.8 | 60分鐘 | -1 |
在目前了解到的國(guó)內(nèi)幾家互聯(lián)網(wǎng)公司中,數(shù)據(jù)中心運(yùn)維的成熟度比較高,運(yùn)維考核主要從五個(gè)緯度考慮,即響應(yīng)時(shí)間、準(zhǔn)備度(預(yù)防機(jī)制)、處理態(tài)度與能力、處理結(jié)果和后續(xù)措施。前三個(gè)跟監(jiān)控相關(guān),及時(shí)上報(bào)體現(xiàn)響應(yīng)時(shí)間;對(duì)監(jiān)控工具持續(xù)優(yōu)化、巡檢和演練等體現(xiàn)準(zhǔn)備度和能力。
告警常見(jiàn)問(wèn)題
1、監(jiān)控存在局限,存在監(jiān)控盲點(diǎn)。規(guī)避方法:在網(wǎng)絡(luò)層、應(yīng)用層、系統(tǒng)層建立監(jiān)控策略,盡可能的掃除盲點(diǎn)。防止漏報(bào)。
2、告警延時(shí),在產(chǎn)生告警到接受告警的過(guò)程中,系統(tǒng)會(huì)經(jīng)過(guò)告警轉(zhuǎn)換接口,郵件或短信接口,容易出現(xiàn)排隊(duì)和阻塞。規(guī)避方法:拓寬渠道、減少擁塞,嚴(yán)重告警發(fā)送短信,其他預(yù)警類(lèi)告警發(fā)送郵件或頁(yè)面顯示等。防止漏報(bào)。
3、告警質(zhì)量問(wèn)題。提升監(jiān)控策略和質(zhì)量在運(yùn)維過(guò)程中會(huì)一直延續(xù)。規(guī)避方法:核心思想是運(yùn)營(yíng),通過(guò)規(guī)劃和統(tǒng)籌能力,既要全局規(guī)劃告警分類(lèi)、告警模型、告警策略,還要持續(xù)按業(yè)務(wù)和人的告警數(shù)量、告警分布持續(xù)優(yōu)化。防止誤報(bào)
告警模型
1、告警分類(lèi),便于建立告警模型、方便歸納和分析定位外,最重要的是有一個(gè)完整、系統(tǒng)的故障檢測(cè)、告警響應(yīng)機(jī)制。
2、告警模型,具備一定規(guī)則的預(yù)處理程序,比如定義一個(gè)閾值或多維度的組合條件。例如連續(xù)多次超過(guò)某個(gè)閾值后,產(chǎn)生告警,可以避免性能瞬時(shí)高而產(chǎn)生的告警。
告警優(yōu)化
1、按照頻率收斂告警,按照頻率和次數(shù)設(shè)計(jì)告警策略
2、根據(jù)責(zé)任人、設(shè)備類(lèi)型或時(shí)間來(lái)收斂告警、合并告警。
3、告警關(guān)聯(lián),讓有相關(guān)關(guān)系的模塊之間不要產(chǎn)生重復(fù)告警。(在一些互聯(lián)網(wǎng)中心的自開(kāi)發(fā)系統(tǒng)中有這樣的功能)
4、告警分析,還是主要是講運(yùn)營(yíng)過(guò)程中對(duì)告警的持續(xù)性分析,跟蹤,優(yōu)化策略,使得告警數(shù)量保持在一個(gè)合理范圍。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專(zhuān)為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。
本文標(biāo)題:淺談可量化的數(shù)據(jù)中心監(jiān)控服務(wù)及運(yùn)營(yíng)方法-創(chuàng)新互聯(lián)
轉(zhuǎn)載注明:http://www.chinadenli.net/article48/iijhp.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站建設(shè)、網(wǎng)站維護(hù)、商城網(wǎng)站、微信小程序、電子商務(wù)、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容