01. 建設(shè)背景
某大型機(jī)場(chǎng)安全可靠、優(yōu)質(zhì)高效的運(yùn)行狀態(tài)離不開大量網(wǎng)絡(luò)基礎(chǔ)設(shè)施的建設(shè)和先進(jìn)信息技術(shù)的支撐。截至目前,該機(jī)場(chǎng)已經(jīng)投運(yùn)使用了9大平臺(tái),100多個(gè)業(yè)務(wù)系統(tǒng),部署在上千臺(tái)服務(wù)器上。同時(shí)應(yīng)用了大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算、Docker、移動(dòng)應(yīng)用等多種新技術(shù)。
隨著航空運(yùn)輸量的逐年增加,某大型機(jī)場(chǎng)信息資源規(guī)模日漸龐大,日常信息資源監(jiān)控管理出現(xiàn)了缺乏管理措施、告警有效性持續(xù)降低、監(jiān)控告警覆蓋度不足、缺乏持續(xù)運(yùn)營(yíng)等問題。傳統(tǒng)的監(jiān)控工具已無法滿足管理規(guī)范和業(yè)務(wù)需求。
基于以上背景,該機(jī)場(chǎng)打造IT運(yùn)營(yíng)管理平臺(tái),完成自動(dòng)化運(yùn)維工具、配置管理中心、IT服務(wù)管理中心、監(jiān)控告警中心等運(yùn)維工具的建設(shè),實(shí)現(xiàn)運(yùn)維工具的打通,進(jìn)一步提升業(yè)務(wù)連續(xù)性和監(jiān)控故障處理效率,滿足未來運(yùn)維工作的發(fā)展需求。
02. 建設(shè)目標(biāo)
為解決告警管理問題,該機(jī)場(chǎng)通過引入嘉為藍(lán)鯨告警中心,實(shí)現(xiàn)告警生命周期管理能力提升,并期望達(dá)到以下目標(biāo):
03. 建設(shè)方案
1)告警統(tǒng)一接入,實(shí)現(xiàn)運(yùn)維場(chǎng)景聯(lián)動(dòng)
IT運(yùn)營(yíng)管理平臺(tái)以PaaS為底座,接入各種監(jiān)控系統(tǒng)的告警數(shù)據(jù),實(shí)現(xiàn)告警數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)和管理。基于平臺(tái)的CMDB、運(yùn)營(yíng)大屏、ITSM和標(biāo)準(zhǔn)運(yùn)維功能,實(shí)現(xiàn)統(tǒng)一的告警生命周期管理。這一過程中,各環(huán)節(jié)與各運(yùn)維工具緊密交互聯(lián)動(dòng),不僅顯著提升了運(yùn)維效率,同時(shí)也為系統(tǒng)的優(yōu)化和改進(jìn)提供了寶貴的數(shù)據(jù)和深入的分析結(jié)果。
2)多告警源并行,提升告警覆蓋率
監(jiān)控的覆蓋面和完善程度影響告警的有效性和可靠性。在接入原有的Zabbix、帶外監(jiān)控、VCenter等監(jiān)控工具的基礎(chǔ)上,結(jié)合藍(lán)鯨監(jiān)控平臺(tái)的能力,增加服務(wù)撥測(cè)、日志關(guān)鍵字、業(yè)務(wù)個(gè)性化監(jiān)控、組件監(jiān)控、NTP監(jiān)控,全面提升告警覆蓋率。
① 多層級(jí)、多對(duì)象、多指標(biāo)、多維度的監(jiān)控
結(jié)合告警收斂和告警關(guān)聯(lián),通過更多維度的告警數(shù)據(jù)和更完善的告警信息,輔助排查和定位故障產(chǎn)生的原因,實(shí)現(xiàn)了信息系統(tǒng)24小時(shí)運(yùn)行保障。
② 大屏展示業(yè)務(wù)健康,告警快速響應(yīng)
為保證業(yè)務(wù)正常運(yùn)行和運(yùn)維告警的及時(shí)解決,該機(jī)場(chǎng)對(duì)于告警的要求是告警空屏。
ECC值班含十多個(gè)服務(wù)商,有完整的值班體系,對(duì)于告警響應(yīng)制度和責(zé)任人也有完善的管理規(guī)范。為了能快速的響應(yīng),在ECC值班室有一塊大屏,用于展示各業(yè)務(wù)的健康度,業(yè)務(wù)人員基于健康度情況快速響應(yīng)且處理告警。
告警產(chǎn)生以后,根據(jù)CMDB豐富將告警的歸屬業(yè)務(wù)信息補(bǔ)充完整,再基于業(yè)務(wù)維度做告警的統(tǒng)計(jì),大屏展示所有的業(yè)務(wù)狀態(tài)。業(yè)務(wù)無告警的狀態(tài)時(shí)為綠色,當(dāng)有告警產(chǎn)生時(shí),系統(tǒng)會(huì)根據(jù)告警等級(jí)在對(duì)應(yīng)的業(yè)務(wù)顯示健康度狀態(tài),且會(huì)伴有提醒音,對(duì)應(yīng)業(yè)務(wù)的值班人員進(jìn)行響應(yīng)處理。ECC的值班運(yùn)維人員目的就是解決所有的告警,實(shí)現(xiàn)全屏健康的狀態(tài)。
③ 告警自愈,實(shí)現(xiàn)告警快速恢復(fù)
對(duì)于處理措施確定且重復(fù)產(chǎn)生的告警,如果等待人工響應(yīng)且處理,會(huì)導(dǎo)致告警處理時(shí)間延長(zhǎng)。通過告警自愈的方式,自動(dòng)觸發(fā)相應(yīng)的處理措施,以恢復(fù)正常運(yùn)行狀態(tài)或減少潛在的風(fēng)險(xiǎn)。
在前期的運(yùn)維值班工作中,該機(jī)場(chǎng)已積累了部分常規(guī)且固定的告警處置方式。如部分非核心業(yè)務(wù)因進(jìn)程錯(cuò)誤導(dǎo)致的告警,根據(jù)告警帶出的信息匹配處理策略,并自動(dòng)執(zhí)行告警治愈,實(shí)現(xiàn)進(jìn)程重啟,快速自動(dòng)修復(fù)告警,恢復(fù)系統(tǒng)的正常運(yùn)行狀態(tài)。
④ 告警治理,提升告警有效性及效率
監(jiān)控范圍的擴(kuò)大帶來告警數(shù)量的增多,如何通過收斂實(shí)現(xiàn)有效告警尤為重要。該機(jī)場(chǎng)通過打標(biāo)簽的方式標(biāo)記告警處置,定期對(duì)告警進(jìn)行復(fù)盤,將告警處理方式、告警誤告、告警策略不合理等情況進(jìn)行總結(jié)。并根據(jù)復(fù)盤信息優(yōu)化監(jiān)控策略、告警收斂策略、告警處理策略等進(jìn)行優(yōu)化和調(diào)試,逐漸提升告警有效性。目前告警命中率達(dá)到75%。
并通過告警的報(bào)表分析,對(duì)廠商、業(yè)務(wù)等告警處理效率進(jìn)行分析,通過配合考核指標(biāo),提升告警的處理效率。
04. 建設(shè)成效
1)告警及時(shí)發(fā)現(xiàn)
告警通知的及時(shí)性提升150%,在告警產(chǎn)生1分鐘內(nèi)準(zhǔn)確觸達(dá)。減少了業(yè)務(wù)影響時(shí)間,提升了業(yè)務(wù)穩(wěn)定性和用戶滿意度。
2)有效輔助分析故障原因
通過告警的覆蓋率增加和告警的有效收斂,結(jié)合告警拓?fù)湟晥D和關(guān)聯(lián)告警等輔助信息,在告警產(chǎn)生后實(shí)現(xiàn)關(guān)聯(lián)分析排查,更快速找到告警的根因和關(guān)鍵,加速告警處理效率,減少告警影響范圍和時(shí)間。
3)保證業(yè)務(wù)持續(xù)性
結(jié)合監(jiān)控平臺(tái),在原有的監(jiān)控系統(tǒng)基礎(chǔ)上,完善服務(wù)撥測(cè)、日志關(guān)鍵字、業(yè)務(wù)個(gè)性化監(jiān)控、組件監(jiān)控、NTP監(jiān)控,實(shí)現(xiàn)更多維度及更細(xì)顆粒度的監(jiān)控,告警覆蓋率達(dá)到90%。在未發(fā)生業(yè)務(wù)故障前就已經(jīng)發(fā)現(xiàn)了局部告警,并根據(jù)告警關(guān)聯(lián)分析判斷相關(guān)業(yè)務(wù)及其他關(guān)聯(lián)告警,及時(shí)解決,減少因多種故障積累導(dǎo)致的業(yè)務(wù)故障。最大程度上保障了業(yè)務(wù)的持續(xù)性。
05. 產(chǎn)品適用性
嘉為藍(lán)鯨告警中心適用于告警生命周期管理,結(jié)合企業(yè)組織架構(gòu)和業(yè)務(wù)需求,總結(jié)出適合企業(yè)提升告警覆蓋和業(yè)務(wù)連續(xù)性的方案。適用存在以下業(yè)務(wù)場(chǎng)景需求的企業(yè):
CMDB治理:CMDB數(shù)據(jù)消費(fèi)與應(yīng)用指南
查看詳細(xì)
1分鐘解鎖開箱即用價(jià)值流:研發(fā)效率飆升實(shí)戰(zhàn)指南
查看詳細(xì)
CCI持續(xù)集成平臺(tái):高效集成K8s集群,流水線容器構(gòu)建集群上線
查看詳細(xì)
嘉為藍(lán)鯨CCI持續(xù)集成平臺(tái):Matrix Job 帶你開啟流水線編排 2.0 時(shí)代
查看詳細(xì)
告警管理:如何從零散事件中挖出關(guān)鍵信息
查看詳細(xì)
嘉為藍(lán)鯨CPack制品庫(kù):全新ML模型管理功能,助力AI交付與企業(yè)級(jí)DevOps實(shí)踐無縫結(jié)合
查看詳細(xì)
申請(qǐng)演示