掃一掃 | 微信關注
|本文首發于公眾號:智能運維前沿,根據中國建設銀行運營數據中心副處長王艷華演講整理而成,有刪改。
建設銀行作為大型國有商業銀行,客戶體量大,業務范圍廣泛。隨著國內外環境的變化,根據“十四五規劃”要求,建設銀行在不斷積極踐行新發展理念,探索“新金融”落地實踐,目標是建設“以數據為關鍵生產要素、以科技為核心生產工具、以平臺生態為主要生產方式”的現代金融供給服務體系。
為此,建設銀行一直在推動“住房租賃、普惠金融、金融科技”三大戰略,開啟第二發展曲線,實現數字化經營、生態化業務。建行云生態是建設銀行落地三大戰略和第二曲線的基礎支撐,是數字化經營的操作系統,是生態化業務的載體和渠道。如果業務戰略是一支探照燈,“云”就是業務的影子;業務到哪里,“云”就在哪里。隨著三大戰略推進,建行云業務蓬勃發展——云規模3年發生了數量級的變化,覆蓋集團一體化、實體經濟、政務服務、住房服務、普惠金融等9大領域。
同時,建行云的目標客戶發生重大變化,不僅服務本行及集團業務,也助力國家經濟發展,賦能合作伙伴,服務百姓社會民生,涵蓋了政府、企業、軍隊、機構等戰略合作伙伴。
-1636352997981.jpg )
業務的快速發展的同時,建設銀行的IT技術架構也在不斷演進:分布式、容器化、信息技術創新帶來了越來越多的新產品和新技術,這些都對運維提出了更高的要求。為貫徹“規模化管控”和“雙態運維”的要求,建設銀行開始逐步探索云運維的落地實踐和變革轉型,運維管理體系從最初的流程驅動,向開發驅動、數據驅動、生態驅動演進;運維技術支撐,從人工操作向自動編排、自主管理到自我進化和發展演進。
-1636353177320.jpg )
建行云運維能力的演進
云時代的到來為建行IT運維模式帶來了全新的挑戰,運維需要在云平臺上實現應用的快速部署、及時更新與實時監控的同時,還需要由后臺走向前臺,作為一種全新的業務服務形式,推動全行的數字化轉型。而這種云運維模式在其演進過程中,也存在著諸多困難與挑戰,可以總結為以下5點:
· 運維范圍外延擴大:自身原有、集團內、合作伙伴、外部客戶等,多種運維體系、運維思想并存;
· 運維對象多種多類:隨技術發展,運維對象越來越多,包含不同地域、不同技術棧,云環境、傳統環境、移動環境等;
· 維護場景紛繁復雜:監控和變更管理、業務連續性管理、服務水平管理、多云管理、成本管理等端到端的場景要求;
· 管理需求一戶一例:包含自身敏態、穩態的運維管理要求和客戶自身的特殊管理和要求,千家千面;
· 運維管理復雜度指數級攀升:隨著運維服務多租戶化,多場景化的演變,結合著不同管理要求、不同技術體系,運維工作的復雜程度呈指數級上升
建行生態化運維(Eco-Ops)方案,正是針對以上問題的一種全新模式的運維體系。生態化運維(Eco-Ops)的建設是對運維模式的突破性探索實踐,通過打造“ 開放共享、眾創共建“的運維生態,支持技術共創,鼓勵成果共享,解決合作伙伴在數字化轉型過程中的痛點,推動行業大環境協同發展,創造更多合作共贏的機會。
什么是好的運維?好的運維是將最合適的技術快速應用于生產實踐中,滿足業務敏捷發展、技術快速迭代的需求,讓運維成為業務拓展的助力,而不是阻礙業務快速發展的絆腳石。
建設銀行生態化運維(Eco-Ops)是以生態圈運維能力提升作為目標,利用技術平臺支持成員場景開發,分享公共能力,鼓勵成果共享的運維體系。生態化運維理念是“開放共享、眾創共建”,將運維由單打獨斗模式轉變成共同奮斗,從運維平臺建設升級走向生態演進。通過自身與生態圈的連接,形成運維共識,可以獲取圈內提供的最佳實踐、公共服務、協同的運維運營組織,快速構建自身的運維服務體系,并可以通過平臺進行二次開發、成果共享,形成生態圈的良性循環。
“五個特征”分別是整體性、開放性、可持續性、多元化和服務化。
· 整體性,生態化運維是從方法論、制度流程、組織架構、技術能力、運營管理、內外部環境等全方位、多角度整體考慮的運維模式,面向生態圈成員整體而不僅僅是組織內部。
· 開放性,開放是生態的基礎,包括技術、服務、理念以及價值的開放,具備以客戶價值為核心的跨行業開放式的架構設計。
· 可持續性,生態圈需要經營管理、價值引導和文化潤澤等生態運營舉措,如采用仲裁管理、激勵機制、評價反饋、開源管理、生態大學、生態鏈管理,切實保障和推動生態圈的互利互贏和良性可持續發展。
· 多元化,生態圈中涵蓋不同行業、不同地域、不同性質的多元化組織。
· 服務化,是指將服務接口標準化,所有運維能力都以服務的方式向生態圈開放。
為滿足生態化運維這五個特征,生態化運維需具備以八大能力:
· 運維技術中臺能力,運維能力通過碎片化中臺沉淀,是生態化運維的基礎支撐能力;
· 多租戶支持能力,以混合云租戶的形式提供開放能力,是生態共存的方式;
· 服務管理集成能力,生態圈中每個組織共享出來的運維服務需通過公共平臺集成發布,是共享、眾創的關鍵;
· 端到端安全能力,保障從服務發布到使用的企業級流程安全,是生態圈的生存基礎;
· 生態管理能力,生態圈需要通過合理的運營才能發展壯大,是良性演進的融合催化劑;
· 運維實踐能力,保障共享的運維能力能夠快速在其他組織中參與實踐,是生態化運維落地的必要條件;
· 組織保障能力,以全新的組織架構和績效考核推動運維生態化轉型,是生態運維動力源;
·產品化能力,在運維中臺的基礎上提供將運維工具/業務快速產品的能力,是生態化的共享基礎。
Eco-Ops實踐的關鍵在于構建創新型組織架構、賦能式技術工具和模型化體系方法,這也是Eco-Ops實踐的三大支柱。IT界存在著說法:運維在價值鏈底端原因是運維做起來沒有成就感,很難找到專業化的方向。對此,我們通過模型化體系方法、賦能式技術工具來解決運維成就感不足問題,創新型組織架構來設定人員定位,解決成長問題。
創新型組織架構是一個學習型、成長型的組織,采用激勵的方式引導大家來創新;模型化體系方法將運維的大問題拆解成邊界清晰、標準描述、有評價標準的小問題,組織里的任何一個人都可以拿到創新的方向;同時,賦能式技術工具保證成員的研究成果得快速被應用,并且獲得良好的反饋。
-1636353290755.jpg )
生態化運維實踐要點
其中,模型化體系方法是三大支柱的核心,我們稱之為“綠洲”,指運維中以對象、活動、場景三維度構建的集成描述框架,寓意困境中的期望。我們希望以此來解決運維知識文檔化難以落地的問題,將運維實踐經驗知識化。
建立綠洲(OASIS)模型需要三步:
· 活動標準化。將運維領域各項工作進行分解識別運維活動,并對活動的要求基本步驟、規則接口進行抽象和標準化表述,即將運維已知方法論進行精簡、統一描述,基于此構建原子化的對象無關的運維活動服務。
· 對象模型化。在滿足運維活動要求的基礎上,按照奧卡姆剃刀原則,設計包含規則、屬性、關系、指標、軌跡和標簽的六要素對象模型,對象模型是特定對象運維管理的實例化,包含了對象整套的管理實踐。模型是對傳統CMDB的極大拓展,通過引入動態和高階語義信息,實現運維對象的完整描述。
· 場景行業化。運維場景是運維人員的實際工作界面,每個場景都是為了實現特定運維業務的流程、對象、活動的組合。不同行業、不同IT組織的特定管理流程和行業參數設置等都需要在場景中落地。
-1636353390217.jpg )
對象模型
通過綠洲提供的模型化表述,運維標準規范、實踐經驗都變成了數字化的共識,不僅為生態化運維的建立提供了方向,也降低了進入運維世界、認識運維問題的門檻。
在工具層面,建設銀行在多年的運維體系建設經驗基礎上,吸收互聯網技術棧的服務化、敏捷化思維,打造出“龍舟”平臺為生態圈成員單位提供快捷高效的共享運維服務。龍舟平臺既可以直接滿足運維人員的使用需求,也能為運維生態圈中其他組織的個性化運維場景提供服務接口和二次開發能力。龍舟平臺通過其獨具的生態化產品設計和運營模式,使生態圈成員共享最佳實踐成果。
-1636353471488.jpg )
龍舟運維平臺架構圖
任何體系的落地都離不開組織的保證,按活動、對象、場景進行劃分的運維專業化組織架構“天梯”是eco-ops落地實踐的關鍵要素之一,它是針對傳統運維組織機構臃腫、尾大不掉、創新氛圍不足的缺陷,在不改變大的組織架構下重新提升組織創新活力的一種內嵌式的人才能力發展模式,強調了內部與外部治理的協同,通過連接、開源、學習、創新、激勵的理念打造生態化的治理模式,能夠平衡組織的穩定性與靈活性。
如果說業務是翱翔天際的戰機群,Eco-ops是提供平臺支撐的航母,運維方法論控制航向,技術工具做動力引擎,數據就是基礎燃料,而AIOps、DevOps、SRE、低代碼等就是能讓動力更澎湃的催化劑。
Eco-Ops本質是運維模式,通過統一描述了運維業務,書同文、車同軌,試圖解決運維能力復制和演進的問題,讓經過檢驗的最佳實踐的運維能力、經驗復制和自我演進,快速、低成本構建運維體系,專注于數字化轉型的業務戰略。
Eco-Ops是后疫情時代的IT運維的一種考慮和選擇,在組織無需具備全部技能和能力的情況下,借助生態群的公共服務能力,獲取關鍵的技術、知識和能力,能為IT企業的數字化轉型實踐提供更好的動力和支撐。

生態化運維組織形式
以往傳統的運維支持業務場景的模式,成本比較高,所以會導致散點式、碎片化的情況;基于龍舟運維平臺,現在通過Ops方法論讓業務主動去尋找合適的技術。在體系引導下的技術應用才能回歸理性,具有更廣泛的推廣價值——這也是我們的目標。
以實現智能事件處置為例,首先要進行場景分解,看事前、事中、事后要做什么。事前建模,進行對象模板維護、事件完備檢查等;事中分為事件識別、根因定位、止損處置三個場景,每個場景又有細分,如止損處置包括止損推薦、止損實施的動作;事后有復盤驗證?;谶@些活動的標準和規則要求,我們抽象出它所對應的運維對象模型所需要的內容。比如,事件識別階段有啟動規則,處置階段有處置規則。每個對象有哪些處置動作,每個處置動作花多長時間,處置時有沒有業務影響,這些都屬于Ops。
-1636353583268.jpg )
規則分析方面,每個運維對象有多少指標、每個指標之間的根因依賴關系都是重要的因素。將建行物理子系統看作一個應用,它在事件中涉及到屬性、關系、指標、軌跡和標簽。場景拆分好了,活動定義有了,對象模型也建好了,在這個基礎上我們去尋找這些活動適合用哪一種算法模型來解決。這里會涉及到大量的算法,如時間序列分析、異常檢測、關聯分析、因果推理、推薦決策和自然語言處理類等。
面向業務場景的運維由單純的創新型產品不能解決根本問題,本質上還是需要以Eco-Ops(生態化運維)的思路進行拆解,將大問題變成小問題,一面保障安全、穩定,一面保障高效、敏捷,并在成本和收益間做出平衡,實現一個開放、共享、可持續發展的良性運維生態循環。
基于龍舟運維平臺的強大支撐,可鼓勵數據中心自有工具實現,運維工具花繁葉茂,各種各樣專業化的運維工具在平臺上輕松實現。通過“做平臺,搭場景”,龍舟運維平臺全面支持多租戶,支持多云管理,支持異構環境,屏蔽底層差異,形成建行標準CCBAPI。租戶可以共享運維平臺能力,可以依托平臺能力做二次開發,做自己的特色場景,做客戶的定制需求,眾創、共建、共享。
作為中國建設銀行生態化運維理念及龍舟運維平臺重要參與者和合作伙伴,廣通優云持續深研創新,與運維生態圈協同共建,與建設銀行在Eco-Ops生態運維打造方面,保持長期共研合作及理念共創。
未來,廣通優云期待繼續攜手中國建設銀行,打造運維生態圈,推動數據中心從建設升級邁向生態演進,并以此賦能更多數據中心用戶,合作共贏,共赴生態未來。