作為一種數據安全策略,備份是避免數據丟失的最基本方法,目前較常見的網絡數據備份系統按架構不同可分為基于網絡附加存儲結構、基于局域網結構、基于sAN結構的LAN—Free結構和server—Free結構4類。
云存儲技術的出現為數據備份提供了一種新方法,云存儲的特點如下:1)提供完整的數據存儲服務,用戶可得到智能的備份軟件及管理完善的存儲容量;2)云存儲僅對數據進行備份,用戶不必擔心失去對原始數據的控制;3)云存儲服務具有價格上的優勢,備份相同規模的數據,云存儲所需的費用比購置存儲設備建立數據中心成本低很多。
HadoopH是Apache下的一個開源
云計算基礎軟件項目,目前已得到廣泛應用.Hadoop的基礎組件HDFs(hadoop distributed file system),是模仿Google的GFS設計思路開發的專門針對廉價硬件設計的分布式文件系統,在軟件層內置數據容錯能力,可應用于云存儲系統的創建開發,與現有的分布式系統最大區別為高容錯性和低成本。
本文將HDFs技術運用于數據備份領域,設計并實現了基于HDFs的數據備份系統HB-CDBS(HDFS based cloud data backup system),該系統充分利用云存儲技術的優勢,應用已有的廉價計算機設備建立數據備份集群,滿足用戶數據備份/恢復業務的需要。
1 體系結構
HB-CDBS系統設計的前提是不增加任何硬件投資及不改變現有網絡,而HDFS具有良好的存儲可擴展性和計算可擴展性,恰好滿足上述要求.本文設計的基于HDFS的云數據備份系統HB—CDBS分為客戶端、備份眼務器和HDFS集群三部分,系統體系結構如圖1所示。
圖1 HB-CDBS體系結構
客戶端是眾多需要數據備份/恢復服務的計算機節點,按照地域、系統類別等分為若干個群,需要進行數據備份或恢復時,向負責本群的備份服務器提出請求,進行文件備份和恢復操作。
備份服務器是客戶端和HDFS集群間數據備份恢復的橋梁,每個服務器負責一個客戶端群。他們接受客戶端的數據備份恢復請求,緩存客戶端的備份數據,根據備份數據的不同情況,分別對其進行合并、壓縮后上傳到HDFS集群備份,同時保存客戶端備份文件的映像表,當客戶端提出恢復請求時,從HDFS集群中讀取備份文件,按文件映像表發送給客戶端。
HDFS集群由安裝了HDFS軟件的計算機組成,在HDFS軟件的架構下,通過配置向多個備份服務器提供上傳、下載服務,實現系統的核心功能。
HB-CDBS系統應用備份服務器作為客戶端與備份集群的橋梁具有如下優勢:
1)備份服務器可屏蔽客戶端對備份集群的直接訪問,從而提高備份集群的安全性,同時在備份服務器和客戶端間通過防火墻、安全信道等技術實現數據安全,進而保證整個系統的安全;
2)備份服務器可暫存數據,并根據備份集群的負載和網絡狀況決定在合適的時間上傳數據,從而保證備份集群的負載平衡;
3)雖然在特殊情況下,備份服務器由于大量客戶端的備份/恢復請求可能成為系統的瓶頸,但通過應用高性能的服務器作為備份服務器及客戶端的合理調度可最大限度地避免該情況發生;
4)向HD瑪集群上傳、下載文件需要在計算機上安裝Hadoop特定組件,這對數量眾多、水平參差不齊的客戶實現較難,通過在備份服務器上收集用戶需備份的數據,并在其上安裝Hadoop組件易于實現備份、恢復功能,可充分發揮HDFS的功能。
2 系統的設計與實現
2.1客戶端模塊的設計
客戶端模塊用于實現系統數據備份恢復,包括文件打包、壓縮策略、數據的備份和恢復。客戶端模塊備份數據前,應用tar,winrar等工具將所有數據文件打包成一個備份文件,按照“客戶Id-備份日期-bak”的規則命名;同時進行壓縮以節省存儲空間、減少備份恢復時間。客戶端節點中保存為本機提供服務的備份服務器信息,當需要備份或恢復時向備份服務器發出相應請求。客戶端文件的備份恢復過程如圖2和圖3所示。
圖2客戶端備份過程 圖3客戶端恢復過程
2.2備份服務器
2.2.1 文件備份備份服務器接收到客戶端的備份請求后,先對客戶端進行識別認證,再接收客戶端上傳的備份文件。上傳完備份文件,備份服務器將備份文件加上時間戳編號后暫存,并將備份文件的信息記入備份數據信息表,其字段內容列于表1,然后將文件名作為參數調用云數據上傳算法CDUA(cloud data upload algorithm)上傳數據。
表1備份數據信息表字段
HDFS是專為大文件設計的存儲系統,為保證備份效率,CADU算法采用閾值觸發上傳策略:首先設定上傳閾值thsize,只有當客戶端上傳的備份文件大于thsize時,才進行上傳;否則在本地暫存數據文件,等待其他客戶端上傳數據,當所有未上傳數據大小大于閾值時再上傳至HDFS集群。
確定,其中:hdfssize,為HDFS集群存儲空間大小;CCn為客戶端集群個數;rpn。為HDFS集群中數據備份副本的個數;Cn為默認集群中客戶節點個數;Cblock為可分配給客戶端的存儲塊數;λ為調節系數。
CADU算法先檢測用戶上傳文件大小是否大于等于thsize,如果大于等于thsize則上傳該文件到HDFS集群,上傳成功后將文件備份數據信息表中對應的上傳標志位置為真,填寫上傳文件名(此時文件名與客戶端上傳文件名稱相同),刪除備份服務器上的文件。如果文件大小小于thsize,則讀取備份文件信息表,得到所有未上傳備份文件的信息,計算全部未上傳文件的大小,如果大于等于thsize,則將所有未上傳文件打包成一個文件,按照“文件名1-文件2-文件名n”的方式對該文件命名,上傳成功后,將文件備份文件信息表中對應的上傳標志位置為真,填寫上傳文件名刪除文件;如果全部為上傳文件大小依然小于thsize,則退出。
2.2.2 文件恢復 備份服務器接收到客戶端的恢復請求后,先對客戶端進行識別認證,認證通過后,再檢查備份文件信息表,如果備份文件暫存在本地,則從備份服務器上發送文件給客戶端;如果備份文件存于HDFS集群中,則從HDFS備份集群中下載文件后,再發送給客戶端.如果備份文件是由多個文件打包而成,則還需對文件解包,再發送客戶數據.
2.2.3 備份服務器的上傳/下載策略 HDFS集群處于24 h工作狀態,因此備份服務器可隨時進行數據的備份/恢復操作,為保證系統備份的性能,系統設計時采用恢復優先、沖突檢測上傳的策略進行備份恢復,即備份服務器需要下載數據時,立即進行;而當需要上傳數據時,如果沒有其他備份服務器上傳數據,立即上傳,否則稱為產生沖突,等待一段時間再進行檢測以決定是否上傳,等待時間的長短由退避算法確定。
2.3 HDFS備份集群
HDFS備份集群采用Master/slave結構,由一個Namenode和一定數量的Datanodes組成。Namenode作為中心服務器負責管理文件系統的名字空間(namespace)及客戶對文件的訪問。Namenode由云中具有較高性能的服務器配置而成,以實現高效的元數據管理,避免性能瓶頸。DataNode用于存儲數據,由大量廉價計算機配置而成,并可根據備份數據的規模進行動態擴展.備份時文件被分成一個或多個數據塊,這些塊存儲在一組Datanode上。Datanode負責對文件系統客戶端的讀寫請求進行處理,并在Namenode統一調度下進行數據塊的創建、刪除和復制等操作。
3 性能評價
3.1 系統性能
為檢測本文所設計系統的性能,進行如下實驗.實驗中的云備份系統由7臺計算機構成,其中一臺Dell Optiplex380(配置為Intel雙核3.0 GHz CPU,2G內存)為NameNode,其他6臺Deu Optiplex360(配置為Intel雙核2.5 GHz CPU,1G內存,300 G硬盤)為DataNode.實驗從l 000個小文件(每個文件大小為5~7 M)中首次隨機選取50個,分別進行單獨上傳下載和打包上傳下載實驗;再從這些小文件中隨機選取100個重復上述實驗。每項實驗各進行3次,取平均值作為結果,所得數據列于表2。
表2 小文件分別上傳下載與打包上傳下載的比較
由表2可見,無論是上傳和下載,對小文件打包的策略都極大節約了相應操作的時間,充分應用了HDFS系統的特性.在安全方面,備份服務器通過認證、授權、安全信道傳輸等措施保證了客戶端與備份服務器間的安全;通過Hadoop的安全機制實現了備份服務器和HDFS集群的安全。在可擴展方面,本系統借助Hadoop軟件存儲的可擴展和計算的可擴展能力,可根據需要隨時擴展HDFS集群的規模,增加系統的備份能力。在經濟方面,HDFS是專門針對廉價硬件設計的分布式文件系統,具有良好的兼容性,可充分利用已有的大量閑置廉價計算機資源,節省設備采購的開銷。在可靠性方面,備份文件在HDFS集群中以多副本的形式進行保存,還可根據文件的重要程度,增加副本的份數,提高可靠性。
3.2與已有數據備份系統的比較
本文所設計的云數據備份系統與網絡附加存儲系統(DAS—Base)相比,克服了DAS—Base可管理的存儲設備少、不利于備份系統共享、不適于大型數據備份的缺點;與LAN—Based備份系統相比,由于采用多備份服務器對不同區域的客戶進行服務,既具備和LAN—Based備份結構類似的投資經濟、集中備份管理的優點,又克服了網絡傳輸壓力大,當備份數據量大或備份頻率高時,局域網的性能下降快的缺點。與基于SAN的兩種備份方案相比,本文所設計的系統應用已有的廉價設備進行構建,在保證數據高速高效備份的同時,無需采購昂貴的專用通訊與存儲設備,極大降低了數據備份的成本;同時由于采用軟件的方式構建備份集群,也降低了技術實施的復雜度,并且無需考慮不同廠商產品的兼容性。
綜上所述,本文將云存儲技術引入數據備份領域,設計并實現了基于HDFS的云數據備份系統。該系統在不增加設備投資的前提下,充分應用用戶已有的硬件基礎設施和閑置資源,依托HDFS組件的強大性能構建數據備份集群.通過用戶分群管理、小文件合并上傳、恢復優先等策略進一步提高了系統性能。本文設計的基于HDFS的云備份系統在安全性、可擴展性、經濟性及可靠性方面均具有一定的優勢。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:基于HDFS的云數據備份系統
本文網址:http://www.guhuozai8.cn/html/support/11121510274.html