本期我們就以Google經(jīng)典運(yùn)維體系理念——SRE為例,通過對SRE的主旨內(nèi)容剖析,梳理SRE與運(yùn)維開發(fā)之間的聯(lián)系,同時(shí)通過典型SRE落地案例詳解,與大家一同探討SRE在金融行業(yè)的落地經(jīng)驗(yàn)。
01. SRE主旨內(nèi)容概覽
1)什么是SRE
首先我們來看看SRE的幾個(gè)定義:
分別來看,起源于Goole的SRE相對于它的組織來說,定義得是較為契合的,首先Google具備較強(qiáng)實(shí)力的人才儲(chǔ)備,其次,經(jīng)過了大量的內(nèi)部實(shí)踐,是經(jīng)得起考驗(yàn)的,同時(shí)由內(nèi)而外的推動(dòng)使得這一體系的落地情況也比較全面。但對于國內(nèi)企業(yè)來說, 全能型的人才稀缺以及傳統(tǒng)理念的固化讓這一定義顯得并不是那么的完善。
站在國內(nèi)企業(yè)自身的角度來看,我們更傾向于第三種:從實(shí)踐角度看 SRE 的關(guān)鍵點(diǎn),就一個(gè)詞:體系化,我們需要用全局視角才能更透徹的理解它。SRE實(shí)際上是需要多個(gè)團(tuán)隊(duì)、多個(gè)崗位分別去承擔(dān)不同職能,并且各個(gè)團(tuán)隊(duì)之間能夠相互協(xié)作合力,同時(shí)對外與業(yè)務(wù)團(tuán)隊(duì)、產(chǎn)品團(tuán)隊(duì)連接,構(gòu)建工具去實(shí)現(xiàn)日常的運(yùn)維和運(yùn)營。
2)SRE與DevOps關(guān)系
本質(zhì)上來講SRE與DevOps沒有很大差別,都是伴隨著分布式、云原生、容器化、微服務(wù)等技術(shù)所衍生出來的一些理念,我們可以理解為DevOps是SRE核心理念的普適版。相比起來,DevOps比較抽象,而SRE是Google將DevOps具體實(shí)踐后所提煉出來的理論體系。
3)SRE指導(dǎo)思想與關(guān)鍵概念
SRE具備以下幾個(gè)指導(dǎo)思想:
圍繞以上指導(dǎo)思想,我們可以將SRE的一些關(guān)鍵概念串聯(lián)起來,從而對SRE體系有更明確的認(rèn)知。
關(guān)鍵概念上,主要分為四個(gè)層面:
4)SRE崗位/團(tuán)隊(duì)的主要工作
了解了SRE整個(gè)體系的工作方式與方法以后,SRE具體團(tuán)隊(duì)在做什么樣的內(nèi)容呢?主要分以下三個(gè)板塊:
在這個(gè)過程中,我們可以下一個(gè)論斷,即:運(yùn)維模式/體系的下一站是SRE,而運(yùn)維技術(shù)的下一站是AIOps。
5)SRE方法論
方法論層面,主要有以下幾個(gè)重要點(diǎn):
02. SRE運(yùn)維平臺(tái)與運(yùn)維開發(fā)
1)運(yùn)維管理平臺(tái):實(shí)現(xiàn)SRE運(yùn)維開發(fā)的底座
SRE反復(fù)強(qiáng)調(diào)運(yùn)維組織需要大量的參與到運(yùn)維工具開發(fā)中去,來實(shí)現(xiàn)SRE的轉(zhuǎn)型。而做工具的開發(fā),傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)公司會(huì)有較大的區(qū)別。
因此對于大多數(shù)企業(yè)來說,要實(shí)現(xiàn)SRE運(yùn)維開發(fā),需要一個(gè)統(tǒng)一的底座——具備通用能力、通用開發(fā)框架,同時(shí)提供統(tǒng)一的資源納管,以及資源驅(qū)動(dòng)等能力,借助統(tǒng)一底座,下層資源統(tǒng)一納管實(shí)現(xiàn)數(shù)據(jù)打通和能力擴(kuò)展,上層通用能力框架實(shí)現(xiàn)工具開發(fā),可控生長,建立基于平臺(tái)的完整運(yùn)維開發(fā)體系。
其中包括幾個(gè)典型的場景:
CMDB——SRE運(yùn)維管理體系的基石,建立消費(fèi)驅(qū)動(dòng)的,可視、可用、可信、可靠的運(yùn)維高質(zhì)量CMDB,支撐運(yùn)維開發(fā)轉(zhuǎn)型。
可觀測性——助力SRE實(shí)現(xiàn)全鏈路追蹤與問題根因定位。構(gòu)建trace、log、metric關(guān)聯(lián)分析鏈路,依賴于平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一處理。
自動(dòng)化編排引擎——SRE自動(dòng)化運(yùn)維的抓手,自動(dòng)化場景的建設(shè)需要底層引擎的支撐,調(diào)用基本能力構(gòu)建上層自動(dòng)化體系,支撐SRE工具能力拓展。
03. SRE在金融行業(yè)落地探討
1)落地案例分析
以國內(nèi)某大型銀行SRE實(shí)踐為例,其SRE落地進(jìn)程有以下幾個(gè)重要關(guān)鍵點(diǎn):
① 確定SRE落地的核心理念:
符合長期戰(zhàn)略,改善運(yùn)維手動(dòng)、重復(fù)性工作,建立SRE團(tuán)隊(duì)提升運(yùn)維價(jià)值。
② 組建SRE試點(diǎn)團(tuán)隊(duì):
包含團(tuán)隊(duì)負(fù)責(zé)人,輪值團(tuán)隊(duì)經(jīng)理,業(yè)務(wù)核心技術(shù)成員,其他部門協(xié)助人員,從不同的團(tuán)隊(duì)中抽調(diào)相應(yīng)人員,保證每位人員都清楚的認(rèn)知SRE的建設(shè)目標(biāo),力出一孔。
③ SRE工作模式:采取平戰(zhàn)結(jié)合模式。
戰(zhàn)時(shí)應(yīng)急依賴于平時(shí)建設(shè)的工具、自動(dòng)化能力、問題總結(jié)等,形成平戰(zhàn)結(jié)合的工作模式。
④ SRE團(tuán)隊(duì)OKR:
團(tuán)隊(duì)OKR的制定與工作模式緊密配合,通過平戰(zhàn)結(jié)合的模式,實(shí)現(xiàn)全景業(yè)務(wù)系統(tǒng)可感可見,應(yīng)急處置可管可控,業(yè)務(wù)指標(biāo)可計(jì)可析。同時(shí)SRE團(tuán)隊(duì)建立三會(huì)機(jī)制,即周例會(huì)、月例會(huì)、專題會(huì),保證日常工作與專項(xiàng)事宜的快速處理。
目前來看該行的SRE實(shí)踐是比較成功的,其核心在于SRE團(tuán)隊(duì)的組建,一方面需要有開發(fā)人員介入,核心業(yè)務(wù)人員要懂開發(fā),懂架構(gòu),具備運(yùn)維開發(fā)能力。另一方面需要具備組織能力,SRE建設(shè)目標(biāo)分解到各個(gè)團(tuán)隊(duì)中,人員之間實(shí)現(xiàn)能力的融合,從而形成體系化的組織,推進(jìn)整體SRE進(jìn)程。
除此之外我們對眾多企業(yè)SRE進(jìn)程和落地實(shí)踐也進(jìn)行了詳細(xì)的深入分析,包含農(nóng)業(yè)銀行、騰訊、美圖等,如您感興趣,歡迎點(diǎn)擊了解詳情!
2)經(jīng)驗(yàn)探討
① SRE是否適合在金融行業(yè)落地?
SRE是一個(gè)體系化的過程,從組織架構(gòu)、到文化宣貫、到工具構(gòu)建、到人員能力配備都具備以后,才能形成完整的SRE體系。
我們建議可以先針對其中某一方向,例如工具向平臺(tái)化層面去靠攏,同時(shí)如果還有富余的精力的話可以考慮進(jìn)行一部分運(yùn)維開發(fā)能力的建設(shè),除此之外組織能力也可以適當(dāng)培養(yǎng),從而一步一步向SRE邁進(jìn),而不是一步登天。
② 如果要落地,需要注意哪些事項(xiàng)?
主要有3個(gè)重點(diǎn):
CMDB治理:CMDB消費(fèi)場景規(guī)劃指南
查看詳細(xì)
CTest測試管理平臺(tái):上新用例結(jié)構(gòu)化設(shè)計(jì)
查看詳細(xì)
CCode代碼管理平臺(tái):代碼合并前CI任務(wù)狀態(tài)校驗(yàn)
查看詳細(xì)
嘉為藍(lán)鯨WeOps:高效監(jiān)控Kubernetes集群的三大關(guān)鍵點(diǎn)
查看詳細(xì)
CFlow價(jià)值流管理平臺(tái):從流程線上化到價(jià)值可視化,研運(yùn)黑盒破解之道
查看詳細(xì)
CPack制品庫:制品黑白名單,為軟件供應(yīng)鏈安全護(hù)航
查看詳細(xì)
申請演示