企業(yè)運維系統(tǒng)建設經(jīng)過多年演變,從以商業(yè)軟件為主,到開源軟件的百花齊放,極大的降低了成本,但是在建設過程中,卻非常容易落入到煙囪式建設的陷阱,因此如何跨越它,成為了眾多企業(yè)面臨的難題。
今天,我將從嘉為科技WeOps產(chǎn)品研發(fā)部負責人的角度,和大家共同探討如何重塑運維系統(tǒng),跨越煙囪式建設的陷阱。接下來我將分為“開源的崛起”、“沒有銀彈”、“百花齊放”以及“融合聯(lián)動,重塑運維工具”四部分來逐一詳細介紹,希望能給大家?guī)硪恍┧悸放c啟發(fā)。
*注:以下內容整理自:嘉為科技WeOps產(chǎn)品研發(fā)部負責人 吳文豪 于嘉為藍鯨2022研運一體創(chuàng)新峰會的精彩分享——《重塑運維系統(tǒng):跨越煙囪式建設的陷阱》。
01. 開源的崛起
在我剛進入運維軟件開發(fā)領域的時候,開源軟件并不像現(xiàn)在這么火熱,絕大多數(shù)的企業(yè)使用的都是像Tivoli、微軟的System Center這類商業(yè)級閉源產(chǎn)品,在當時,我們沒法想象,一個非商業(yè)級的,沒有經(jīng)過大教堂式洗禮的軟件能夠像今天一樣,給我們的整個行業(yè)帶來如此大的沖擊。
之后在開源運動崛起的大背景下,各領域的運維工具,都出現(xiàn)了優(yōu)秀的挑戰(zhàn)者,他們憑借著社區(qū)的力量大量吸收用戶,飛速的迭代,對老牌的閉源商業(yè)軟件發(fā)起了挑戰(zhàn)。例如基礎監(jiān)控領域的Zabbix、自動化運維領域的Ansible、APM領域的SkyWalking。
開源運維軟件的興起為企業(yè)帶來了諸多紅利,使得建設成本高、技術黑盒、廠商捆綁等長期困擾我們的問題得到了很好的解決:
1)建設成本變低
曾經(jīng)的閉源商業(yè)級產(chǎn)品大多都價格不菲,而開源軟件免費使用的模式,使得運維系統(tǒng)首次建設成本得到了數(shù)十倍的下降。
2)技術變得透明
開源軟件不僅免費,同時還開放源碼,將技術完全透明化,我們可以看到開源軟件的實現(xiàn)原理,并自行修改源碼的邏輯,滿足個性化業(yè)務需求。
3)避免廠商綁定
在源碼完全開放的背景下,我們不再被廠商捆綁,并擁有了工具軟件完全的掌控權。
02. 沒有銀彈
神話中,銀彈就是可以讓強大的狼人被一擊斃命的武器。而這里的銀彈,指的是一招制敵,提高數(shù)量級的效能水平,而不只是效能有明顯改觀。
我們期望的運維系統(tǒng),是能夠通過開源運維軟件的諸多優(yōu)勢,快速,低成本的建設一個個幫助我們更好保障業(yè)務連續(xù)性的工廠,工廠之間通過數(shù)據(jù)網(wǎng)關、業(yè)務總線、數(shù)據(jù)湖等方式進行聯(lián)動,幫助我們更好的為業(yè)務提供服務。
例如:
可惜的是,沒有銀彈。而在實際實踐過程中,我們也很容易就建設起一套一套的煙囪,這些運維系統(tǒng)之間并沒有什么聯(lián)系。例如:我們想讓Zabbix的監(jiān)控數(shù)據(jù)、ELK的日志數(shù)據(jù)、Data Gerry的CMDB數(shù)據(jù)組合在一起使用,我們將不得不在他們之上,重新搭建一套新的系統(tǒng)。
除了上述問題外,開源技術還給我們帶來了許多新的考驗:
1)逐漸黑盒化
由于大量開源項目缺少體系化的培訓與規(guī)范的約束,隨著一些關鍵人員的變動,整個運維體系的某些元素會出現(xiàn)黑盒化。
2)維護成本提升
由于開發(fā)框架多種多樣,以及Golang、Ruby、PHP、Java等各種技術棧,開源漏洞,系統(tǒng)Bug等問題,雖然開源軟件讓企業(yè)的建設成本降低,但維護成本卻急速提升。
3)數(shù)據(jù)聯(lián)動困難
開源軟件解決了單一領域的問題,但是沒法很好的讓數(shù)據(jù)進行聯(lián)動,面向業(yè)務解決問題,需要獨立開發(fā)一套軟件來進行對接,過程中會出現(xiàn)非常多的API、表結構兼容性問題。
除此之外,隨著新技術棧的出現(xiàn),企業(yè)運維變得更加困難。我們不僅需要面對混合云、Serveless、AI、邊緣計算等等新的技術,還要面對DevOps文化帶來的研發(fā)運維體系變革。
企業(yè)的運維團隊不僅需要思考對內保障穩(wěn)定運行,為業(yè)務提供快速問題定位的能力、資產(chǎn)梳理的能力、標準化運維的能力等。對外要為組織提供IT價值幫助組織業(yè)務的發(fā)展,將IT能力自助化,提升組織的運轉效率,將運維數(shù)據(jù)轉變成能夠幫助組織業(yè)務發(fā)展的運營數(shù)據(jù)等。
03. 百花齊放
隨著算力的突破,Deep Learning迎來了新的春天,大家的想法逐漸變得一致,我們都在思考,能不能在幾乎不做改動的情況下,使用AIOps的方法,盡可能多的解決問題,例如把告警根因分析解決掉。
但是真正落地過AIOPS的企業(yè),都會在開始的時候就碰到了困難,算法工程師會告訴我們,他們需要完整的數(shù)據(jù)(Log、Metric、Event、資產(chǎn)關聯(lián)信息......)、規(guī)整的數(shù)據(jù)(清洗好的運維數(shù)據(jù))以及先驗知識(具體業(yè)務領域的知識),我們甚至沒法用合適的成本解決告警根因分析這個場景。
于是我們開始思考,這可能并不是AIOPS這項技術的問題,而是煙囪式運維系統(tǒng)的設計與不斷涌現(xiàn)的業(yè)務訴求之間的矛盾。
與此同時,在大洋的彼岸,有一批新興的閉源軟件企業(yè)開始用全新的架構,來重新塑造運維系統(tǒng),例如我們耳熟能詳?shù)腟plunk、Datadog、MoogSoft。
以Splunk為例,Splunk設計了一個強大的非結構化數(shù)據(jù)分析引擎,將所有的運維數(shù)據(jù)都存放在了一起,讓上層的各個SaaS在一個統(tǒng)一的數(shù)據(jù)源上進行演進,出現(xiàn)了如UEBA、ITSI、SOAR、MLToolkit等等的SaaS,運維系統(tǒng)的建設逐漸迎來了百花齊放的時代。
04. 融合聯(lián)動,重塑運維工具
在商業(yè)級閉源軟件再次崛起的過程中,開源社區(qū)也沒有停下自己的腳步,藍鯨平臺通過構建PaaS底座,在設計之初就拒絕煙囪建設的思路,為我們提供了重塑運維系統(tǒng)的一種選擇。
同時藍鯨配套的社區(qū)、認證體系,讓大家在同一套規(guī)則下進行SaaS的演進,使得我們可以避免運維系統(tǒng)的逐漸黑箱化。
而嘉為科技WeOps團隊在社區(qū)版藍鯨平臺的基礎上,進行了整合封裝、提供了企業(yè)級的必備功能,并且提供了培訓賦能、系統(tǒng)維保等服務。目標是幫助中型企業(yè)用最合適的成本,獲得企業(yè)級的能力以及支撐,更好的應對新的IT環(huán)境與文化。
05. 應對變化,伴隨成長
WeOps規(guī)劃了三個大的版本:
1)3.0(融合聯(lián)動)
3.0 系列我們以融合聯(lián)動為主題,主要提供:基礎監(jiān)控、資產(chǎn)管理、自動化運維以及運營服務等能力。
2)4.0(可觀測)
4.0 系列將提供日志分析、APM、Log、RUM等板塊。
3)5.0(智能化)
5.0 系列將通過Al技術,使整個運維效能得到更大幅度地提升。
WeOps采用訂閱模式,幫助企業(yè)漸進使用,用更低的成本去獲得一套一體化運維平臺,漸進式模式可以使得企業(yè)根據(jù)自身需求,使用部分模塊,提供更好的現(xiàn)金流保障。企業(yè)不再需要一次性投入大量成本進行運維系統(tǒng)的建設,使用較低成本與產(chǎn)品共同成長。而企業(yè)也可快速通過低成本去檢驗產(chǎn)品與自身的適配性,避免試錯高風險。
WeOps產(chǎn)品始終堅持開源共建的思路,我們會不斷對WeOps板塊進行持續(xù)性開源,與藍鯨社區(qū)進行生態(tài)共建,更好地回饋社區(qū)。
CMDB治理:CMDB數(shù)據(jù)消費與應用指南
查看詳細
1分鐘解鎖開箱即用價值流:研發(fā)效率飆升實戰(zhàn)指南
查看詳細
CCI持續(xù)集成平臺:高效集成K8s集群,流水線容器構建集群上線
查看詳細
嘉為藍鯨CCI持續(xù)集成平臺:Matrix Job 帶你開啟流水線編排 2.0 時代
查看詳細
告警管理:如何從零散事件中挖出關鍵信息
查看詳細
嘉為藍鯨CPack制品庫:全新ML模型管理功能,助力AI交付與企業(yè)級DevOps實踐無縫結合
查看詳細
申請演示