1 概述
中國科學院資源規劃項目(Academia Resource Planning,ARP),是實現中國科學院資源規劃管理的信息系統工程,目前采用分布式部署方式,每個研究院所單獨部署一套ARP 系統,各節點間通過VPN 設備建立虛擬專網進行連接,與公網進行邏輯隔離。這種部署方式一方面造成本地系統高可靠性配置的硬件成本增加,而另一方面各節點間硬件資源不能有效地共享利用,且分布式運運營維護導致效率低下、監控管理復雜、系統升級維護困難,每新增一個節點需要重新購置服務器、安全設備和存儲等相關硬件資源。隨著應用系統規模的增大,為了降低硬件成本、系統管理以及運維成本,減少系統維護與備份宕機時間,提高系統的安全性和系統運行穩定性,實現對分布系統的集中運維管理和快速升級部署等,本文提出了一種基于虛擬化技術的ARP 私有云服務解決方案,通過虛擬化技術對底層硬件平臺進行整合利用。
2 虛擬化與云服務
2.1 服務器虛擬化
服務器虛擬化是指在一個硬件平臺上模擬多個獨立的、和真實硬件指令集結構相同的虛擬硬件系統,每個虛擬硬件系統上可以運行不同的操作系統。主要通過虛擬監視器(Virtual Machine Monitor, VMM)實現。VMM 是計算機硬件和操作系統之間的軟件層,它運行在特權模式,負責管理和隔離上層運行的多個虛擬機(VM),為這些虛擬機提供安全獨立的運行環境,同時也為每個虛擬機虛擬一套與真實硬件無關的虛擬硬件環境。虛擬機運行在非特權模式下,每個虛擬機上運行著獨立的操作系統。常見的虛擬化軟件有Vmware、Microsoft Virtual Server、Xen、KVM、OpenVZ等。
2.2 云服務
NIST 指出云計算是一種能夠方便、按需從網絡訪問共享的可配置計算資源(如網絡、服務器、存儲、應用程序和服務)池的模型,且只需最少的管理或服務提供方交互即可快速供應和發布該模型。虛擬化技術為云計算模型中的資源管理提供了一種有效的解決辦法,而云服務即是基于云計算模式對外提供按需個性化的服務方式。
2.3 APCS 私有云
借助于虛擬化技術和云服務模式,建設ARP 內部業務管理系統的私有云服務(ARP Private Cloud Services, APCS)平臺。首先通過虛擬化技術對目前的分布式硬件資源進行整合,建設區域分中心,每個區域分中心支持本區域內應用系統運行環境,分中心間通過高速專用網絡建立連接,形成私有云基礎架構平臺。通過集中式私有云管理平臺建設,實現對區域分中心內部資源的分配管理和運維監控,并實現跨分中心
間的資源調度,真正達到系統資源跨地域的按需分配,而作為業務終端用戶不必關心訪問應用的物理位置、資源使用情況等,達到透明化的按需使用服務。
3 APCS 方案設計
3.1 系統現狀
目前ARP 系統采用分布式方式部署在全院100 多個科研院所中,遍布20 多個城市,每個部署節點運行的應用系統包括2 個數據庫服務和3 個業務應用服務,硬件資源配置為HP380G6 服務器3 臺~4 臺(雙路四核Intel CPU 2.26 GHz,16 GB 內存),經監測每臺物理主機系統日常資源消耗CPU為10%,內存為2 GB。監測結果表明,目前硬件配置資源還有很大利用空間,將硬件資源進行虛擬化整合可以提高系統硬件資源利用率,同時解決了為提高業務系統的高可靠性,而在不增加服務器數量的情況下,使用虛擬機化技術進行系統運行環境的冗余配置。
3.2 技術平臺架構
ARP 私有云服務APCS 主要由ARP 私有云服務基礎架構平臺(ARP Cloud Services Infrastructure Platform, ACSIP)和ARP 私有云服務管理平臺(ARP Cloud Services ManagementPlatform, ACSMP)兩部分構成,如圖1 所示。
圖1 私有云服務APCS 管理架構
ACSIP 由若干個區域節點(Area Node, AN)組成,主要實現對系統硬件資源的虛擬化整合,提高系統資源利用率,并對ARP 系統業務應用進行組件化模板分類,支持應用的快速部署功能,為業務用戶提供應用服務。ACSMP 即是對ARP云服務環境進行管理配置,為資源申請者提供虛擬資源的分配和管理,為系統維護人員提供系統的日常運行維護和監控,為決策人員定期生成系統運行健康報告和資源需求報告,并進行私有云安全管理等。
3.3 區域中心節點
為更好整合系統硬件資源,提高資源利用率,將目前分布式系統進行區域集中,建立APCS 區域節點AN,每個AN搭建基于FC-SAN 的存儲網絡結構。對于前端主機服務器進行硬件資源虛擬化設置,虛擬多個主機系統,所有虛擬機文件存放在共享存儲上,每個分布式業務系統分配虛擬服務器資源(虛擬網絡、虛擬CPU、虛擬內存、虛擬存儲)。各虛擬主機可以在物理服務器之間進行高可靠性、動態遷移、容錯等功能設置實現業務系統連續性。各AN 間高速互聯形成內部私有云基礎資源池平臺。
4 APCS 技術實現
4.1 ACSIP
ARP 私有云服務基礎架構平臺ACSIP 主要包括硬件資源基礎架構層IaaS(Infrastructure as a Service)、ARP 系統平臺服務層APaaS(ARP Platform as a Service)和ARP 系統應用服務層ASaaS(ARP Software as a Service),如圖2 所示。
圖2 APCS 實現技術架構
IaaS 層主要實現對網絡、存儲和服務器等物理資源的虛擬化,形成虛擬資源池。用戶資源的獲取可以從虛擬資源池中進行分配,并能夠對分配的資源在使用過程中根據需求進行動態調整,為上層應用服務提供資源保障。
APaaS 層即根據ARP 業務系統需求,對所需Linux 操作系統、Oracle 數據庫系統、JBoss 應用服務系統和消息中間件等平臺層進行組件化模板配置,便于業務快速擴展部署。ASaaS 層即將目前ARP 系統中業務管理系統、公共事務系統和信息管理與服務平臺等業務應用進行封裝部署,直接提供給終端業務用戶,終端用戶只需申請符合自己權限的用戶賬號,即可直接登錄系統進行業務系統使用。
4.2 ACSMP
ARP 私有云服務管理平臺ACSMP 實現對ARP 云服務環境的管理,主要包括用戶管理、資源管理、運維管理、監控管理和安全管理等。用戶管理實現用戶的創建、修改和注銷,以及用戶的角色授權管理等。資源管理實現對系統資源申請、分配、調整、回收管理。運維管理實現模板配置、動態遷移、負載均衡、高可靠性管理。監控管理實現網絡監控、虛擬機監控、主機監控管理。安全管理實現網絡安全管理、數據安全管理、服務器安全管理。
云管理平臺是非侵入式高度模塊化、采用公開的標準協議的管理平臺,系統采用組件化設置,由云控制器、集群控制器、節點控制器、存儲控制器等核心組件組成。各個控制器分別完成不同的功能,相對獨立,從而保證系統的可擴展性。平臺實現為資源申請者進行物理資源的分配和管理,對于申請者不必關心具體物理存放位置,為系統維護人員提供系統的日常運行維護和監控,為決策人員定期生成系統運行健康報告和資源需求報告。
5 APCS 關鍵技術實現
5.1 資源動態分配算法
對于各物理主機上虛擬資源池中資源分配可以使用改進的線性銀行家分配算法、循環銀行家分配算法或最大可用資源銀行家分配算法。
銀行家算法[4]是一種最有代表性的避免死鎖的資源分配算法。當進程首次申請資源時,要測試該進程對資源的最大需求量,如果系統現存的資源可以滿足它的最大需求量則按當前的申請量分配資源,否則就推遲分配。當進程在執行中繼續申請資源時,先測試該進程已占用的資源數與本次申請的資源數之和是否超過了該進程對資源的最大需求量。若超過則拒絕分配資源,若沒有超過則再測試系統現存的資源能否滿足該進程尚需的最大資源量,若能滿足則按當前的申請量分配資源,否則也要推遲分配。線性銀行家分配算法是指當有虛擬機資源申請時,優先在一個主機內進行資源分配,當第一臺主機的資源分配完畢后再進行下一臺主機資源分配。此種分配算法的主要優點為最大化利用啟動主機資源,沒有分配到資源使用的主機可以在待機狀態下,節省了能源消耗,主要缺點為主機間沒有實現負載均衡。
循環銀行家分配算法是當有虛擬機申請資源時,按照主機順次進行資源分配,即第1 個虛擬機分配主機1 資源,第2 個虛擬機分配主機2 資源等。此種分配算法優點為實現了各主機間的負載均衡,缺點為各主機資源利用率未必飽滿。
最大可用資源銀行家分配算法為當有虛擬機資源申請時,按照可利用資源最多的主機優先進行分配,此種分配方法最大可能性地保障了每次分配的成功,減少了資源在同一主機上競爭的可能性。
3 種分配算法如圖3 所示。圖3(a)為線性銀行家分配算法;圖3(b)為循環銀行家分配算法;圖3(c)為最大可用資源銀行家分配算法。
圖3 APCS 資源分配算法
5.2 業務連續性保障
ARP 系統為內部業務管理信息處理系統,隨著業務功能擴展和終端業務用戶數量的不斷增多,對系統的業務連續性提出了越來越高的要求。APCS 私有云平臺保障了系統的高可用、高可靠和系統的災難恢復。
通過虛擬化技術中的在線遷移功能,可以將在一臺物理主機上運行的虛擬機實時遷移至另一臺物理主機上運行。實現的技術原理為將虛擬機的文件系統放置在2 臺物理機都能訪問的共享存儲上,遷移時只是將物理機上的計算資源進行保護,瞬間遷移至另一臺物理機上,2 臺物理機的CPU 指令集需要一致。此技術保障了一臺物理機出現故障,或主機負載過大影響虛擬機正常運行時,將虛擬機遷移至另一臺負載較小的主機上運行,從而實現了業務系統高可用性。高可靠性是指應用系統的物理主機出現故障時,其應用可以遷移至另一臺物理主機上運行,不影響終端用戶的業務操作。以上技術保障了由于系統故障導致計劃外停機時,業務系統的連續性應用。同時在進行主機硬件設備的日常檢修等計劃內停機時,也可將檢修主機上應用手動先遷移至其他有空閑資源的主機運行,待檢修完畢后再遷回,從而減少對業務系統使用的影響。
災難恢復是指生產環境遭到災難破壞時,能夠進行數據恢復的能力,衡量指標主要有恢復點目標和恢復時間目標。APCS 私有云平臺下由于每個虛擬機系統全部以文件形式存在于共享存儲上,因此可以對虛擬機文件進行本地存儲的快照備份,然后利用存儲間數據同步機制將備份傳至異地災備中心,在保證數據備份安全的同時,降低系統恢復的RPO和RTO,從而減少系統恢復時間和業務數據丟失量,保障業務系統連續使用。
5.3 安全管理
APCS 平臺將原來分布式業務系統進行區域集中后,面臨的核心安全問題為遷移后系統的網絡安全、虛擬機安全、數據安全和訪問控制安全等。
網絡層安全通過虛擬交換機的VLAN 設置和虛擬機系統不同的IP 網段分配方式進行邏輯隔離,虛擬機間的訪問控制通過軟件防火墻進行設置。各區域中心節點AN 間通過SSLVPN 方式進行網絡連接,保護數據在網絡傳輸層的安全性。虛擬化技術平臺對虛擬機的內存管理、運行保護和I/O管理提供統一封裝性的運行安全管理,保障各虛擬資源間的申請、分配和使用安全以及對虛擬機內處理數據的讀取、運算和存儲安全。
數據安全主要包括虛擬機系統文件安全和虛擬機內應用系統數據安全。由于虛擬機將所有CPU、內存、存儲等虛擬資源以及虛擬機上運行的業務系統都統一封裝成固定文件格式以文件的形式存儲在共享存儲上,對這些文件的訪問需要做到嚴格的訪問控制管理和安全備份管理。對于虛擬機內應用系統數據安全管理方式和在系統在物理機上運行時相同,采用應用系統訪問控制管理和數據庫級安全備份管理。
APCS 訪問控制管理主要分為ACSMP 平臺管理員、虛擬機內應用系統運維管理員和應用系統業務用戶的訪問控制管理,其控制管理辦法主要包括用戶登錄安全認證、訪問權限控制管理、最小特權管理以及相應的安全審計機制等。
6 結束語
本文提出了一種對于分布式管理信息系統進行資源整合和為最終用戶提供應用訪問按需分配的APCS 私有云服務解決方案。通過ACSIP 建設,整合了目前分布式系統的硬件資源平臺,提高了硬件資源的使用效率,保護了硬件投資,降低了系統能耗。通過ACSMP 建設,實現了系統資源的統一調配管理,同時實現了系統的集中監控和運維管理,提高了系統運維效率,減少了各節點系統運維壓力,提升系統運行維護管理水平。同時對私有云平臺的資源池動態分配和分配算法、系統業務連續性保障、私有云安全管理等關鍵技術進行了分析和闡述。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:基于虛擬化技術的私有云APCS平臺設計