交通銀行數據中心管理范圍覆蓋生產環境、測試環境、同城及異地災備環境。隨著業務的發展,IT規模不斷擴張,以生產系統小型機分區為例,分區數從2006 年的300 多個增加到現在3000 多個,而人員的增長遠遠跟不上服務器數量的增長。采用傳統的依靠人員擴張的方式難以滿足快速交付和生產穩定運行的要求。
為此,交行數據中心提出了走“規范化、流程化和自動化道路”的發展策略。從數據中心成立伊始就采用自動化技術,降低人力資源成本。2005 年,交行數據中心在數據大集中之后就實現了批處理作業和版本發布的自動化。2008 年開始,建立了自動化運維平臺,實現了開放平臺日常運維工作的自動化,大大提高了運維效率,使得人員從日常繁重的運維工作中解脫出來,投入生產的預防性工作中。2011年,隨著
云計算技術的興起,交行進一步引入云計算的理念,建立了生產運維云服務平臺,將原來任務級的自動化提升到服務級。從IT 云服務的角度實現了資源配置管理和日常運維管理的“云化”,在生產運維中發揮了重要作用。
生產運維服務云的建設過程
自2009 年開始,交通銀行數據中心啟動了運維云服務平臺的建設工作。如何借助“云”的力量,全面提升運維管理能力,這需要從本質上去理解“云”的概念。基于對業界云計算概念、技術和相關實踐的深入研究及理解,交通銀行數據中心在國內首次提出了“運維流程即服務”的概念。并在此基礎上開展了運維云服務平臺的研究及建設工作,對運維“云”建設進行了長期持續發展的規劃,目的是將云計算技術應用于生產運維。
在云服務平臺中,對云計算技術的實踐側重在兩個方面,包括在底層建設基礎設施云(PaaS)、在上層建立生產運維服務云(BaaS),以達到有效提高資源利用率,全面提升系統運維管理能力的目的。
1.基礎設施“云化”。交行數據中心運維管理范圍包括生產環境和大量的測試環境,以及不直接面對客戶的輔助
生產管理系統等。硬件設備規模龐大,資源管理復雜,為了提高效率,實現資源配置和管理的規范化和流程化。
我們在運維云服務平臺中實現了虛擬資源池管理功能。通過推廣底層基礎架構的標準化、虛擬化,構建硬件資源虛擬化資源池,以及結合應用系統的運行情況,實現分配、交付、監控、動態調配、回收等一系列資源池管理功能,使得數據中心部分基礎設施環境,成為按需獲取、快速交付、可動態調整的計算資源。資源池的劃分和分配可以通過云平臺集中管理,實現了基礎設施的“云化”。
2.生產運維“云化”。交行數據中心根據系統日常運維管理的需要,從服務自動化的角度梳理運維云服務目錄,將新系統安裝配置、災備切換(SANBOOT)、基礎架構資源劃分、健康檢查、版本升級、系統備份、資源調整等日常運維工作“云化”為可以隨時獲取的服務。將各類運維工具提供的功能看成運維服務的“資源池”,標準化并全面整合現有的各類系統運維流程,將手工或已利用各類運維工具的自動化操作進行全面整合,實現全面的系統運維流程服務自動化。集中管理、按需提供,實現運維服務自動化;提供統一視圖,服務過程可視、可控、可計量;側重運維流程服務自動化,確保生產環境相關管理及規范,以滿足生產中心在安全、ISO20000 流程、高可用等各方面要求。
生產運維云的實施取得了明顯的效果,改變了傳統的IT 系統安裝和交付方式。以新系統環境交付為例,一套新的應用環境的安裝配置包括操作系統安裝、HA 高可用軟件安裝配置、中間件和數據庫系統安裝配置、工具軟件安裝配置、監控部署、應用版本發布和配置等,并需按照安全管理要求進行安全加固、賬號移交、配置信息錄入CMDB等步驟。按傳統方式,一套新系統的安裝配置需要一周時間,且存在執行過程難跟蹤、人為因素大、規范難落實等問題。
在經過運維服務“云化”后,系統管理員在受到新的需求后,通過云服務平臺提交以應用系統(可跨平臺、多分區)為單位的服務請求,在服務請求中包括了該應用的系統架構中各類服務器的安裝需求(及服務器的配置參數),集群配置、軟件配置等相關信息,由平臺的服務流程調度各類腳本、工具進行全自動化安裝配置,安裝完成后,平臺直接將配置信息自動化上送數據中心CMDB,并通過郵件通知系統管理員將賬號移交安全賬號管理平臺,整個新系統環境即交付使用,效率大大提高。
運維云服務在生產運行中的作用
交行的生產運維云服務提供的“一站式”端到端的運維流程服務,日常運維流程效率明顯提升;同時提供快速、大規模的系統測試環境、生產環境搭建及交付,可有效保障整體工程建設進度;運維云化過程中明確了運維管理策略及技術標準,是保持系統可用率的重要基礎保障;運維服務流程與運維管理需求充分結合,可保障投產上線后,大規模系統環境維護管理的有序和有效。具體影響體現在以下幾個方面。
1.有效提升交付能力,落實管理及技術規范。平臺投產后,一個新應用的安裝周期由原來的1 周(多分區)縮短至數小時,大規模并行搭建效率提升更加顯著。同時新系統交付云服務流程中的技術標準是根據系統架構技術規范定制,可保障管理策略及技術規范的落地,確保各類環境及運維符合監管、安全及生產運行要求,為保障生產系統的高可用性提供了有效支持。
2.提高日常運維管理效率。例如,原來生產環境數千個分區進行一次健康檢查及報告整理需要投入大量的人力工作數周時間,現在通過云服務平臺只需要幾個小時就可將檢查報告自動發送到維護人員的郵箱,與手工運維流程相比效率提升幾十倍。
3.提高資源利用率,降低硬件成本。通過對硬件資源的虛擬化整合及根據需要調整資源的分配,有效提升了資源利用率。按300 個應用分區(1CPU) + 100 個DB 分區(2CPU) 估算,原來約需500CPU 及配套的內存、板卡、存儲等資源,納入平臺虛擬化資源池進行管理后,在分配時按需動態調配資源保障相關測試環境容量,資源利用率可提高近4 倍。
4.提升生產系統的可用性。首先,運維云服務平臺實現了生產運維的自動化,大幅提高了生產運維的效率,使得大量的人力從繁重的系統安裝、大規模的系統健康檢查等工作中解脫出來,可以將更多的精力投入到生產的預防性工作中,提前消除風險隱患。其次,健康檢查云服務使得檢查的頻率大大提高,許多潛在的問題可以通過健康檢查提前發現,提高了生產系統的可用性。第三,云服務平臺實現了系統安裝配置的規范化,減少了個人操作的失誤,也屏蔽了技術人員水平參差不齊導致的生產問題,使得專家的經驗可以通過規范得到推廣落地,提升了整理的生產運維水平,也提升了生產系統的可用性。
通過生產運維云服務平臺的規劃及建設,交通銀行把云計算技術的應用引入到了大型金融企業數據中心的生產環境中。將傳統IT 系統“煙囪”式的IT 部署改變為資源池的動態分配和管理,將生產運維變成云計算的服務,對外全面提升數據中心的交付能力和服務水平,對內有效提高IT 資源的利用率和技術人員工作效率,在交行的生產運維中發揮了重要作用。
目前,交行數據中心正進一步將云計算應用于大數據處理和分析,搭建了數據云服務平臺, 將云服務拓展到業務精準營銷、交叉銷售、互聯網產品創新、風險控制等領域,其實施將對業務的發展取到更大的促進作用。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:數據中心生產運維云建設與實踐
本文網址:http://www.guhuozai8.cn/html/consultation/10839718975.html