1.工業數據災備
災難性事故所導致的信息系統崩潰的事件時有發生。在煙草工業,隨著煙草一體化建設的推進,數據中心的范疇已逐步形成,數據和系統也逐步集中。結合小型機的雙機容錯技術。數據中心順利降低了單點故障的風險,為業務提供持續和有效的服務能力。然而,隨著系統和數據的集中,所有數據存儲在一個機房,如果災難性事故導致機房受到破壞,其內的所有數據包括備份數據也會隨之破壞,其帶來的風險和損失是無法估量的。而數據異地備份能有效解決這個問題。隨之而來的問題是要降低數據的存儲容量和降低數據網絡傳輸的開銷以及加快備份速度。煙草工業數據主要存在以下兩個特點:
1)每天新增數據量大。比如:僅僅在銷售環節,全國零售戶有大概500萬家,平均每周進化一次,假設平均每家只銷售15個規格,那么平均每天產生銷售記錄數為:500x15+7=1070(萬)。
2)數據變動大、重復率高。比如,在筆者所參與的綜合營銷平臺中,僅辦公自動化子系統,每天文件流轉、版本修訂、郵件附件抄送都非常普遍。有時候一個文件要抄送給多人,有時候同一原始文件會產生多個修訂版本,使得文件系統中保存有大量的重復數據。
重復數據刪除技術是一種能夠大規模消除冗余數據,降低數據存儲成本的重要技術。它的工作方式是查找不同文件中不同位置的重復數據塊,重復的數據塊用指示符取代,使得在備份中重復數據塊只保留一份,從而可以在已有的磁盤上存儲更多的備份數據。重復數據刪除后,再通過WAN進行異地備份,則能減少備份數據量,節省網絡帶寬,加快數據備份和恢復速度。本文將圍繞企業數據災備,研究如何使用重復數據刪除技術,提高數據存取效率,降低數據保護成本。
2.重復數據刪除方法
2.1 基于哈希(Hash)算法的重復數據刪除
哈希算法主要用于文件級和數據塊級別的重復數據刪除。在重復數據刪除技術的實現中,通常采用SHA-1和MD5算法計算并檢查數據塊的“指紋”,判斷該數據塊是否與已經存在數據塊重復。如果該數據塊已經存在,則只需要保留指向該數據塊的指針,否則,則要保留該數據塊,并將該數據塊的“指紋”保存在索引表中,供以后使用。基于哈希算法的重復數據刪除的流程圖如圖1所示:
圖1 基于哈希算法的重復數據刪除流程
文件級的重復數據刪除主要是識別內容完相同的兩個文件,從而避免相同文件多個備份。用散列函數計算文件哈希值的方法來比較文件是否相同,可以快速的掃描整個目錄,查找速度非常快。文件級的重復數據刪除的缺點也很明顯,就是當文件稍稍修改了一點,都會變成不同的文件,重復數據刪除率會大打折扣。
數據塊級的重復數據肭除就是將文件分塊,然后進行重復刪除。分塊的方式有固定大小分塊和可變大小分塊。兩者相比,固定分塊可以更快的掃描新到數據流,獲取更高重復刪除速率;而可變分塊可以提供更大的重復數據刪除率。兩者之間根本差異即空間和時間的矛盾,實際應用中,還要根據應用環境和需求來選擇相應分塊方式。
通常,為了快速識別數據塊是否已經備份,會將哈希索引保留在內存中。當備份的數據塊數據增加時,索引也增加。因此,總有一天,索引會將內存填滿。現在大部分基于散列的系統的都是獨立的。
2.2 基于內容識別的重復數據刪除
從字節級別上分析數據流通常能夠“識別內容”。這種方法主要是對比記錄的數據格式。在備份數據時,首先從數據流中提取元數據,并將之與備份系統中已經存儲的元數據進行對比。當元數據匹配成功時,則將新的數據對象與備份系統中對應的數據對象進行逐字節比較,如果完全相同,則刪除新數據,用備份系統中的數據對象索引替換;如果不同,則找出發生變化的數據,將增量保存并計算并插入索引。該方法的流程如圖2所示:
圖2 基于內容識別的重復數據刪除流程圖
3.綜合營銷平臺備份策略分析設計
筆者參與開發的綜合營銷平臺主要功能有:OA辦公、業務處理、決策支持和會員俱樂部等。平臺數據存儲備份整體架構如圖3所示:
圖3 平臺數據存儲備份整體架構
由此平臺系統的功能決定,工作人員主要是在白天(上班時間)使用系統,系統產生大量企業內業務數據和辦公數據;而決策支持的所需大批量數據主要由國家局每天下行導入本系統。為了保證業務的正常進行,白天需要把計算機的CPU資源和內存資源盡量用給業務功能,因此,本系統對國家下行數據的抽取、整理和重復數據刪除只能在夜里進行。首先,由于決策分析的需要,需要在每天夜里把下行的數據(數據量非常大,大概有7G到10G)進行完全加工,而這需要較長的時間(通過升級硬件資源和優化算法可能將時間稍稍減少);其次本地存儲系統和異地存儲之間網絡帶寬的限制,在每天上班前要把每天的數據備份完畢也需要較長的時間。因此,重復數據刪除的策略如下:
1)首先對于本地存儲的數據,對每天新增的數據進行重復數據刪除,可以減少數據遠程備份的網絡流量,減少帶寬的占用。為能夠較快的完成重復數據刪除,采用基于哈希算法固定分塊的重復數據刪除策略,在分塊散列查找時采用一種滑動窗1:3的方式,期望盡可能的發現重復數據塊。
2)對于異地存儲,由于業務的需要對數據的真實性要求非常高,而現有的在線處理方式是在數據存入設備的同時時行重復數據刪除,并沒有進行嚴格的校驗和核對。萬一數據處理的環節發生一個小錯誤。可能導致整個備份變成無法使用的東西,給企業帶來損失。而且異地設備除了進行數據存儲,一般不需要進行其它工作。因此采用后處理重復數據刪除方式。并采用基于基于哈希算法變長分塊的重復刪除數據策略,盡可能的發現重復數據,提高存儲的使用率,在不增加存儲的情況下備份更多的數據。
3)因為哈希算法存在哈希沖突的問題,此系統采用一種優化了的方法,對哈希匹配的數據對象,進行二進制的比對,若完全一致,才能進行重復數據刪除。
4)為了能以較快、較高效率的進行重復數據刪除,在本地和異地執行重復數據刪除前,先利用系統的智能引擎模塊探測新增數據的文件名、文件各類和日期/時間戳等信息,然后進行有規律的分塊,再通過數據壓縮技術進行壓縮。這之后再進行重復數據刪除。采用這種策略可以極大的提高執行重復數據刪除的效率。
5)對于非常重要的業務數據和要求能夠迅速恢復的數據(比如職員信息,最近的業務訂單等),則不進行重復數據刪除,以便在發生故障時能夠迅速恢復,不影響工作的開展。
4.結束語
配置管理自產生至今經過幾十年的發展,理論體系日臻成熟,是一種系統、高效的質量管理體系。在技術上。配置管理能夠建立對于核電數字化儀控系統原始設計和中間變更的控制和審查、批準流程,為核電項目的安全性和可靠性奠定基礎。在經濟上,配置管理保證配置項描述文檔及時的反應已經實施的變更,從而有效的控制變更,控制項目成本。在管理上,它為項目管理提供了各種監控項目進展的視角,為項目經理確切掌握項目進程提供了保證。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:煙草工業數據災備中重復數據刪除技術研究
本文網址:http://www.guhuozai8.cn/html/consultation/10839312820.html