可觀測(Observability)作為現(xiàn)代運維理念,相較于監(jiān)控,不僅僅是問題的發(fā)現(xiàn),更加強調(diào)系統(tǒng)在運行時應(yīng)具備全面的、深入的、可理解的狀態(tài)獲取能力。通過收集和分析系統(tǒng)的各種可觀測數(shù)據(jù)(涉及指標(biāo)、日志、Traces、事件、告警等數(shù)據(jù)),構(gòu)建一個全方位監(jiān)控與分析體系,讓運維團隊能夠在復(fù)雜多變的 IT 環(huán)境中實時了解系統(tǒng)內(nèi)部的健康狀況、性能表現(xiàn)以及故障原因。
嘉為藍鯨全棧智能觀測中心·鯨眼(以下簡稱“全棧智能觀測中心”)作為嘉為傾力打造的一款全棧可觀測產(chǎn)品,經(jīng)過持續(xù)的沉淀和迭代,目前已經(jīng)實現(xiàn)了業(yè)務(wù)全棧系統(tǒng)資源監(jiān)控、K8s容器監(jiān)控、云平臺監(jiān)控、硬件設(shè)備監(jiān)控、網(wǎng)站服務(wù)撥測、日志統(tǒng)一管理、應(yīng)用性能觀測、業(yè)務(wù)場景監(jiān)控、告警閉環(huán)管理等多個領(lǐng)域的可觀測。
01. 產(chǎn)品場景介紹
1)系統(tǒng)監(jiān)控
基于CMDB的業(yè)務(wù)和業(yè)務(wù)資源(主機、數(shù)據(jù)庫、中間件等業(yè)務(wù)資源件)的全棧系統(tǒng)資源監(jiān)控,一眼看全。
從業(yè)務(wù)的視角入口,呈現(xiàn)業(yè)務(wù)資源拓撲,支持拓撲節(jié)點下鉆指標(biāo)、告警詳情視圖。同時支持從資源的視角切入,直接按資源類型展示所有資源的監(jiān)控情況。
2)容器監(jiān)控
基于容器形態(tài)的資源探針,實現(xiàn)容器及容器內(nèi)運行組件資源的指標(biāo)和日志的統(tǒng)一監(jiān)控,云原生必備監(jiān)控利器。
① 容器指標(biāo)監(jiān)控
② 容器日志監(jiān)控
③ 云監(jiān)控
云資源視角的跨云平臺監(jiān)控,實現(xiàn)私有云、公有云的統(tǒng)一監(jiān)控告警管理;云上云下資源一體化監(jiān)控。
支持VMware、FusionCompute、云宏、阿里云、騰訊云等多種云平臺開箱即用;支持單云視角和跨云視角兩種資源展示模式;針對私有云支持自動發(fā)現(xiàn)資源實例的關(guān)聯(lián)拓撲,輔助問題排錯定位。
④ 硬件監(jiān)控
通過標(biāo)準(zhǔn)協(xié)議SNMP、IPMI、Syslog、Trap實現(xiàn)硬件設(shè)備的指標(biāo)、日志、告警的統(tǒng)一監(jiān)控。
⑤ 硬件指標(biāo)監(jiān)控
⑥ 硬件日志監(jiān)控
⑦ 網(wǎng)絡(luò)拓撲管理:支持用戶自定義網(wǎng)絡(luò)拓撲,并結(jié)合拓撲自動發(fā)現(xiàn)能力,自動輔助繪制網(wǎng)絡(luò)拓撲圖,掌握企業(yè)全局網(wǎng)絡(luò)概況。
5)網(wǎng)站撥測
基于業(yè)務(wù)的視角,通過遠程訪問協(xié)議HTTP(s)、TCP、UDP、ICMP(Ping)對應(yīng)用服務(wù)和網(wǎng)站進行黑盒監(jiān)控,實現(xiàn)業(yè)務(wù)最基礎(chǔ)的存活監(jiān)測。
6)日志統(tǒng)一管理
針對日志數(shù)據(jù)的統(tǒng)一接入、統(tǒng)一配置策略、統(tǒng)一查看檢索的統(tǒng)一日志管理,打通運維排障“最后一公里”。
支持主機操作系統(tǒng)、容器環(huán)境下的日志采集,內(nèi)置多種日志采集模板;存量日志支持通過ES、Kafka的方式接入支持kafka接入,進行統(tǒng)一接入和管理。
① 支持日志指標(biāo)和關(guān)鍵字監(jiān)控,并支持聚類智能指標(biāo)監(jiān)控。
② 日志檢索,支持AI算法智能聚類、聯(lián)合等檢索模式,并支持檢索脫敏。
7)APM
分布式服務(wù)調(diào)用鏈路監(jiān)控,自動生成服務(wù)調(diào)用拓撲,從應(yīng)用、服務(wù)、接口、調(diào)用 4個層次層層深入,監(jiān)控應(yīng)用的健康狀態(tài)和調(diào)用性能;并支持基礎(chǔ)資源監(jiān)控進行聯(lián)動和下鉆分析,輔助問題根因分析,提升問題定位效率。
支持應(yīng)用服務(wù)調(diào)用視角、應(yīng)用資源關(guān)聯(lián)視角、服務(wù)分析視角、接口分析視角、Trace調(diào)用鏈路視角多視角分析查看和追蹤問題。
8)業(yè)務(wù)監(jiān)控
以業(yè)務(wù)場景作為切入口,串聯(lián)跨應(yīng)用的系統(tǒng)調(diào)用,打通關(guān)聯(lián)應(yīng)用內(nèi)服務(wù)的調(diào)用關(guān)系,追蹤每一次活動軌跡。
9)統(tǒng)一告警
面向企業(yè)ECC、監(jiān)控組、運維人員等,基于告警事件的生命周期,實現(xiàn)告警管理的閉環(huán),提升團隊效率,保障業(yè)務(wù)穩(wěn)定。
提供一站式告警處置平臺:包含告警事件統(tǒng)一接入、告警豐富、告警壓縮(去重、合并、抑制和屏蔽)、告警處理(自愈和派單、通知)、告警關(guān)閉的閉環(huán)管理,以及告警事件的統(tǒng)一查詢、報表統(tǒng)計、關(guān)聯(lián)分析,輔助問題定位。
02. 產(chǎn)品能力介紹
為了實現(xiàn)上述各種觀測場景的落地,產(chǎn)品設(shè)計上結(jié)合PaaS+SaaS的理念,抽象各個場景的公共能力,融合成一套底層能力框架,并且能夠和企業(yè)內(nèi)的運維體系工具聯(lián)動集成,支撐上層的場景擴展,以適應(yīng)企業(yè)不斷變化的可觀測場景和管理訴求。圖中由下而上,依次是監(jiān)控對象、數(shù)據(jù)集成、數(shù)據(jù)中臺、能力中心、觀測場景五層以及外部集成模塊。
基于上述功能架構(gòu)規(guī)劃設(shè)計,本文將從對象和指標(biāo)管理、插件集成管理、策略配置管理、告警視圖管理、場景視圖管理5個基礎(chǔ)能力層面介紹當(dāng)前全棧智能觀測中心的功能。
1)對象和指標(biāo)管理
① 對象模型
引入監(jiān)控對象模型作為指標(biāo)管理的載體,連接對象和指標(biāo)。對于監(jiān)控對象模型設(shè)計如下圖:
② 承載對象模型的分層體系
利用監(jiān)控對象模型的樹形分層設(shè)計,對應(yīng)運維對象的分層體系,實現(xiàn)對象模型的建模和分層設(shè)計。例如對于組件服務(wù)層下的數(shù)據(jù)庫,我們可以抽象出 MySQL、MSSQL、Oracle 等一系列監(jiān)控對象,從而構(gòu)建3層乃至4層的對象模型設(shè)計,靈活設(shè)配企業(yè)內(nèi)的分層管理訴求。
③ 聯(lián)動 CMDB,關(guān)聯(lián)資源實例
監(jiān)控對象模型通過與 CMDB 模型關(guān)聯(lián),將 CMDB 模型下的資源實例,納管為監(jiān)控對象模型實例,實現(xiàn)監(jiān)控對象模型與資源實例的關(guān)聯(lián)。
④ 關(guān)聯(lián)插件采集,落地指標(biāo)體系
監(jiān)控對象模型通過關(guān)聯(lián)插件或指標(biāo)上報任務(wù)等方式關(guān)聯(lián)指標(biāo),并以此作為指標(biāo)數(shù)據(jù)的獲取方式,確保這批指標(biāo)都是真實可采集、可獲取、可度量的指標(biāo),從而建設(shè)屬于該對象的指標(biāo)體系。
⑤ 指標(biāo)管理
基于對象進行指標(biāo)管理,支持指標(biāo)的分類、名稱、描述、單位、等級、數(shù)據(jù)類型的管理,支持枚舉類型的指標(biāo)值映射管理,實現(xiàn)狀態(tài)指標(biāo)翻譯展示。
支持衍生指標(biāo)管理,基于插件原生指標(biāo)計算定義新的衍生指標(biāo),指標(biāo)計算能力支持單指標(biāo)函數(shù)計算、多指標(biāo)四則運算、復(fù)雜規(guī)則的PromQL計算,靈活適配各種衍生計算指標(biāo)的應(yīng)用場景。
⑥ 動態(tài)分組
基于屬性條件對監(jiān)控對象進行分組,具備動態(tài)更新的特性,可實現(xiàn)監(jiān)控目標(biāo)根據(jù)CMDB的實例變化自動應(yīng)用或者取消監(jiān)控。
2)插件集成管理
通過插件、協(xié)議、SDK等多種數(shù)據(jù)接入的方式,支持企業(yè)全棧觀測數(shù)據(jù)(指標(biāo)、日志、Traces、告警)接入。
① 指標(biāo)接入
除內(nèi)置的操作系統(tǒng)、云平臺、K8s容器、協(xié)議撥測等指標(biāo)采集能力之外,還支持多種自定義接入的方案,并且均支持產(chǎn)品頁面直接進行插件制作和調(diào)試。
② 日志接入
支持主機操作系統(tǒng)、容器環(huán)境下的日志采集,內(nèi)置多種日志采集模板;存量日志支持通過ES、Kafka的方式接入支持Kafka接入。
③ Trace接入
支持Skywalking和OT協(xié)議探針接入。
④ 告警接入
默認支持RestAPI推送接入,支持頁面編寫告警源插件的方式接入,插件支持推送和拉取兩種模式,內(nèi)置常見監(jiān)控系統(tǒng)接入插件。
3)策略配置管理
監(jiān)控策略:支持設(shè)置策略的基礎(chǔ)信息、監(jiān)控目標(biāo)、檢測配置、告警配置4種配置,如下:
4)告警視圖管理
實時刷新的活動告警列表,支持自定義展示字段和多種篩選條件,并支持告警實時檢索和自定義告警視圖,滿足ECC、管理員等多種角色的查看訴求。
分析視角的告警詳情,支持詳情、指標(biāo)、關(guān)聯(lián)告警、拓撲關(guān)聯(lián)、流轉(zhuǎn)記錄統(tǒng)一查看,一站式告警分析。
基于對象/業(yè)務(wù)的告警分類統(tǒng)計分析,并內(nèi)置提供常用的告警統(tǒng)計報表,跟蹤企業(yè)告警治理效果。
詳細的告警全生命周期閉環(huán)管理后續(xù)將在專門的專題文章中進行具體介紹。
5)場景視圖管理
除了本文開頭說到的內(nèi)置觀測場景,還支持自定義場景,可基于監(jiān)控對象模型管理,可自行擴展每種對象的監(jiān)控場景視圖,滿足企業(yè)持續(xù)發(fā)展的訴求。
數(shù)據(jù)檢索,支持指標(biāo)、日志、Trace檢索,支撐問題排錯追蹤,探索挖掘數(shù)據(jù)價值。
集成Grafana儀表盤,支持按照用戶個人喜好,定制自己專屬的指標(biāo)、日志儀表盤。
基于上述介紹的對象、采集、策略、告警、視圖5大基礎(chǔ)能力模塊,便可以自由構(gòu)建企業(yè)中所需的觀測場景。接下來我們將基于觀測場景視角,詳細介紹告警全生命周期管理、基礎(chǔ)組件監(jiān)控、容器監(jiān)控、云平臺監(jiān)控、硬件監(jiān)控、網(wǎng)站服務(wù)撥測、日志統(tǒng)一管理、調(diào)用鏈追蹤、業(yè)務(wù)監(jiān)控9大觀測場景,敬請期待。
申請演示