什么是大數據?IDC的權威定義為:滿足4V(Variety,Velocity,Volume,Value,即種類多、流量大、容量大、價值高)指標的數據稱為大數據。IDC對大數據技術的定位為:通過高速捕捉、發現和/或分析,從大容量數據中獲取價值的一種新的技術架構。大數據主要涉及兩個不同的技術領域:一項致力于研發可以擴展至PB甚至EB級別的大數據存儲平臺;另一項則是大數據分析,關注在最短時間內處理大量不同類型的數據集。這兩個論題已經被充分討論,這里不準備再作討論,而是換個角度思考一下大數據,事實上可能與大數據存儲平臺更相關一點。這些需求或者思考,或源自用戶模糊的需求,或源自存儲同行的交流討論,還有一些源自存儲實踐中的感悟。
1、數據備份
信息作為現代企業的核心資產,一旦發生數據損壞或丟失,小則帶來不同程度的經濟損失,大則關系企業生存。因此,現在企業對重要數據備份都不得不高度重視。在大數據之前,企業需要備份的數據量通常在GB級-數十TB級之間,上百TB的數據量的企業非常之少。這些數據往往都是Oracle/DB2/SQLServer等數據庫的結構化數據,以及FTP/CIFS/NFS等文件共享服務的非結構化數據,目前諸如Symantec/Falcon/CommVault/EMC/Eisoo等公司的備份系統都可以很好地滿足普通的備份需求。然而當遇上大數據,它們是否仍然可以滿足備份需求呢?大數據容量很容易達到數十TB級以上,數百TB甚至PB級的案例也不再鮮見,而且這些數據種類多、流量大,都是新增數據。從備份技術角度看,全備份/增量備份/差異備份的備份窗口會很大,CDP的并發I/O捕獲和處理能力要超強,否則大量數據都來不及備份。從備份數據量看,備份所需要的存儲空間至少生產數據量的一倍以上,這個成本是巨大的。還有重點的一點是,大數據通常都是分布式采集、存儲和處理的,實現統一的數據備份對備份系統是個技術挑戰。或許,大數據天然不合適采用備份技術,而需要由存儲系統本身的機制來解決,諸如多版本(multi-vesion)、寫新地址(WriteAnyWhere,可實現自然的快照)等。
2、長期存儲
信息有生命周期,金融/商業/財務/通信/法律等很多數據都需要遵從法規保存相應年限,一些重要的科學實驗數據和歷史資料甚至要永久保存。大數據作為現代企業有重要價的資產,長期保存基本都是必要的,比如10-20年甚至永久。長期存儲,看似很簡單的事情,實際上有很多問題需要解決。幾百個TB或者PB級的大數據,假設是非活動的歷史數據,采用什么介質進行存儲?磁盤,磁帶,還是光盤?采用離線還是近線方式?如何監控巨大數量存儲硬件設備的狀態?采用什么方法來保證海量數據的完整性?如何發現長期存儲中的問題并修復?需要的時候如何簡便快速地查詢和獲取數據?另外,還需要考慮存儲所占用空間和能耗問題。面對這些問題,我們就會發現大數據長期存儲也是一個很大的挑戰,一方面需要提高存儲介質的持久性、智能性、可靠性等,另一方面需要信息生命周期管理系統進行完善的管理和監控。
3、數據查詢
數據訪問是存儲系統最基本的功能之一。傳統的數據訪問方式,都是根據文件名來定位和訪問數據。文件名標識具有一定的表意性,但非常不足,很難通過文件名對數據本身的內容和特征進行理解。這種查詢訪問語義非常差,需要用戶給出準確的文件名,否則就無法進行定位和訪問。隨著文件數量的不斷增加,它將給用戶對數據的訪問帶來很大的困難。現實世界中,人們主要根據事物的特征記憶和區分不同的事物,而非簡單的名字。在實際應用中,如果能夠提供基于文件屬性和內容的數據訪問方式,豐富的語義將會極大地增加數據的表意性,從而大大方便用戶的使用,提高數據訪問效率。Internet中,用戶在Web搜索引擎(如Google,Baidu)中輸入內容關鍵字就可以查詢到自己想要的數據。數據庫系統中,使用SQL語言查詢記錄,可以指定相關條件對查詢記錄進行篩選。由此可見,與傳統的數據訪問方式相比,基于數據內容和屬性的數據訪問方式具有很強的語義,能有效提高數據定位和訪問效率,可以很大程度上降低用戶的使用復雜性,適合于各種數據存儲系統,尤其是分布式存儲系統。目前,自然語言處理和WEB語義網絡都有了長足的發展,大數據管理中如何能實現基于語義的數據訪問方式,不僅可以提高了查詢效率,而且符合人們的思維模式,能夠提供更加友好的數據訪問界面。
4、綠色歸檔
由于法規遵從或長期存儲的需要,數據根據生命周期管理需要進行歸檔處理,采用方法有磁帶歸檔、磁盤歸檔、光盤歸檔、CAS系統歸檔等。大數據數據量大,如果采用磁盤介質進行歸檔,磁盤數量會很多,正常工作下能耗也是相當可觀。為了降低能耗實現綠色歸檔,同時有效延長磁盤使用壽命,需要考慮相關高效存儲技術,包括MAID、SemiRAID、數據壓縮、重復數據刪除、自動精簡配置等。這些技術主要從兩個方面著手,一是精減數據量以減少磁盤介質達到降低能耗的目標,如數據壓縮、重復數據刪除、自動精簡配置,二是控制磁盤介質狀態(高速、低速、停止)或減少活動磁盤數量來實現降低能耗和延長壽命,如MAID和SemiRAID。SNIA相關組織專門研究綠色存儲技術,包括提到的上述各種技術。
5、統一存儲
大數據種類多,涵蓋了結構化數據、非結構化數據以及對象數據,分別采用數據塊接口、文件接口和對象接口進行訪問。目前的大多數企業還沒有將三者統一起來,采用不同的存儲系統來管理這三類數據,在大數據快速增長的壓力下,帶來存儲利用效率低、管理復雜性高、成本不斷提升、資源整合程度低等一系列問題。在這些因素驅動下,統一存儲概念得到復興,SAN/NAS統一存儲得到各大存儲廠商推崇并相繼推出產品,對象存儲也有望被一同整合到統一存儲中。如此一來,就可以使用統一的存儲來管理大數據,統一規劃和整合資源,提高存儲資源利用率,簡化管理和降低總體成本。
6、存儲介質壽命管理
大數據存儲系統具有成千上萬塊磁盤很常見,可能包括FC、SAS、SATA磁盤,還有可能包括SSD固態硬盤和磁帶等存儲介質。這么大數量的存儲介質,每天壞上一兩塊盤的概率是非常的,不可控制的故障發生會影響前端大數據應用。存儲介質的使用年限都有標準,可以基于此進行存儲介質壽命管理,結合實際環境進行適當調整,并根據存儲介質運行狀態進行分析和故障預測。當存儲介質使用壽命即將到達,或者預測到故障即將發生,則主動通知管理員對存儲介質進行更換,之后有系統自動進行數據重建。如此,可以有效降低存儲介質發生故障的隨機性,增強故障的可管理性,再結合人為的調度,就可降低或者避免故障發生對大數據應用的影響。
7、磁帶存儲
一直都有人在預測磁帶已死,不過可惜的是,直到目前這個預測還沒有成真。
相比磁盤,磁帶具有成本、壽命、能耗等特性和優勢,另外磁帶技術本身也在不斷發展,比如新一代LTO5的磁帶寫入速度達到180Mb/s,未壓縮容量提升至1.6TB,保證磁帶仍然是最適合做為長期的數據歸檔保存之用,這些特性是磁盤所無法取代的。關于磁帶在大數據中的使用,最為典型是做數據歸檔,比如上面談到的長期存儲和綠色歸檔,這里面的數據基本不會被訪問。另外還有一種形式是分級存儲HSM,磁帶、磁盤、SSD固態硬盤、內存形成四級存儲,數據按照活躍程度在不同級別存儲介質之間流動,以實現較高的性價比。HSM中位于磁帶的數據會被訪問,只是頻率和概率非常低。由于磁帶自身的優勢以及不斷發展,它可能不但不會消亡,反而會在大數據時代重獲新生。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:換個角度思考大數據存儲問題