一 引言
由于數字設備的產生及快速發展(例如個人電腦、筆記本電腦、平板電腦、及智能電話等),因此新的數據不斷產生,其規模越來越龐大。
根據市場研究公司IDC的一項調查顯示,全球數字數據量每2年便翻一番。2011年的數據量將達到里程碑式的1.8澤字節(ZB),也就是1.8萬億G字節。IDC調查了一年中世界范圍內原創或復制的數據發現:全球IT從業人數的增長并沒有與服務器、數據管理及非結構化數據的大量增加成正比。到2020年,服務器數量將是現在的10倍,信息量將是現在的50倍。根據該調查得出的結論,到2020年,全球對從事管理數據工作的IT專業人員的需求量將是現在的1.5倍。
如何有效地管理和存儲這些海量的數據,這一難題成為業界所關注的焦點。而分布式存儲系統被認為是針對該問題的最佳解決方案,也越來越受到大家的關注。
二 傳統的存儲系統
2.1 直連式存儲(DAS)
開放系統的直連式存儲(Direct-Attached Storage,DAS),已經有近40年的發展歷史,它的特點是:存儲設備是通過電纜(通常是SCSI接口電纜)直接連接服務器。I/O(輸入,輸出)請求直接發送到存儲設備,它基于服務器,其本身是硬件的堆疊,不帶有任何存儲操作系統。它的缺點是:
�、俟芾韽碗s;
②主服務器容易成為訪問的瓶頸;
�、廴狈祿蚕砟芰�;
④擴展能力有限;
⑤不能在線擴展和維護。
2.2 網絡附屬存儲(NAS)
網絡附屬存儲(Network Attached Storage,NAS)是一種將分布、獨立的數據整合為大型、集中化管理的數據中心,以便對不同主機和應用服務器進行訪問的技術。
NAS被定義為一種特殊的專用數據存儲服務器,包括存儲器件(例如磁盤陣列、CD/DVD驅動器、磁帶驅動器或可移動的存儲介質)和內嵌系統軟件,可提供跨平臺文件共享功能。但是文件服務器容易成為整個系統的瓶頸,例如在大規模數據訪問時會出現性能方面的問題。
2.3 存儲區域網絡(SAN)
存儲區域網絡(Storage Area Network)的支撐技術是光線通道(Fiber Channel)技術,這是ANSI為網絡和通道I/O接口建立的—個標準集成。支持HIPPI、IPI、SCSI、IP、ATM等多種高級協議。它的最大特性是將網絡和設備的通信協議與傳輸物理介質隔離。這樣,多種協議可在同一個物理連接上同時傳送,高性能存儲體和寬帶網絡使用單I/O接口使得系統的成本和復雜程度大大降低。
SAN的主要特點是:
�、倬哂休^高的擴展能力和高存儲能力;
②數據分享能力有限;
③安全性較差。
三 分布式存儲系統分類
分布式存儲系統從數據存儲模型上來看,可以分為以下幾類。
3.1 存儲虛擬化
全球網絡存儲工業協會(Storage Networking Industry Association,SNIA)對存儲虛擬化做了如下定義:從應用、計算機服務器或者一般的網絡資源中抽象、隱藏或隔離存儲系統,使應用和網絡可以獨立地管理、存儲及獲得數據。使用存儲虛擬化的應用服務或者設備可以集成不同的存儲設備,還能添加底層存儲資源來擴展存儲能力。
對存儲虛擬化(Storage Virtualization)最通俗的理解就是對存儲硬件資源進行抽象化表現。通過將一個或多個目標(Target)服務或功能與其他附加的功能集成,統一提供有用的全面功能服務。典型的虛擬化情況有:屏蔽系統的復雜性,增加或集成新的功能,仿真、整合或分解現有的服務功能等。虛擬化是作用在一個或者多個實體上的,而這些實體則是用來提供存儲資源或服務的。
存儲虛擬化的主要特點是:
①通過虛擬化集中管理現有的存儲資源以提高資產利用率;
�、诓粫黾庸芾砗团渲玫膹碗s程度;
�、劭梢酝ㄟ^增加新的存儲資源(通常是硬件設備),提高線性的擴展存儲能力,但不會產生數據搜索方面的問題;
④提供安全性更高的租戶管理機制,因此用戶和數據可以共享虛擬化的資源,而不受其他用戶的影響;
�、菘梢詿o縫集成多個存儲廠家的存儲設備,避免了廠家鎖定的問題。
存儲虛擬化技術在實現層面上劃分,有以下幾種類別:
�、倩谥鳈C的虛擬化,這是存儲虛擬化最早期的實現形式,它在主機的操作系統上基于存儲虛擬化軟件實現其功能;
�、诨诖鎯W絡的虛擬化是指在存儲的網絡層中嵌入智能存儲資源管理軟件的技術;
③基于存儲控制器的虛擬化,該架構在陣列的存儲控制器上執行虛擬化。一個第三方廠家的陣列可以簡單地通過插到FC端口上的方式被虛擬化,解決了一般基于陣列虛擬化的廠家鎖定的問題。
3.2 分布式對象存儲系統
SNIA的對象存儲設備是這樣定義的:
�、僖环N新的SCSI存儲設備;
�、趯ο罂梢灶惐葹閭鹘y的文件;
�、蹖ο笫亲酝陚涞模獢祿�、數據和屬性;
�、艽鎯υO備可以自行決定對象的具體存儲位置和數據的分布;
�、荽鎯υO備可以對不同的對象提供不同的Qos;
⑥對象存儲設備相對于塊設備具有更高的智能性,上層通過對象ID訪問對象,而不需要了解對象的具體空間分布情況。
與傳統存儲模型相比,對象存儲模型有了如下改變:
①基于對象的存儲,將存儲模塊轉移到存儲設備中;
�、诨趯ο蟮拇鎯�,將設備的訪問接口轉變為對象訪問接口。傳統存儲模型與對象存儲模型對比情況如圖l所示。
對象是平等的,分布在一個平面中,而非文件系統那樣的樹狀邏輯結構中,這也就給了用戶很大的操作空間:可以利用對象構建文件系統.也可以直接使用這個平面空間。用對象替代傳統的模塊的好處在于:對象的內容本身來自應用,具有“原子性”,因此可以做到:
�、僭诖鎯舆M行更智能的空間管理;
�、趦热菹嚓P的數據預取和緩存;
③可靠的多用戶共享訪問;
�、軐ο蠹墑e的安全性。
同時,對象存儲架構還具有更好的可伸縮性。對象存儲模型如圖2所示。
一個對象除了包含ID和用戶數據外,還包含了屬主、時間、尺寸、位置等源數據信息,以及權限等預定義屬性,乃至很多自定義屬性。對象存儲設備中的對象分成4類:
�、儆脩魧ο�,應用創建的普通對象;
②集合對象,一組具有共同點的用戶對象的集合;
③分區對象,容納用戶對象和集合對象的容器,包含了有某些空間管理、安全等方面(比如quota)的共性的對象;
�、芨鶎ο螅瑢ο蟠鎯υO備自己。
3.3 分布式文件系統
分布式文件系統或網絡文件系統是指那些可以通過計算機網絡訪問存儲在多個主機中的數據的文件系統。這使得在多用戶之間和多應用之間共享數據和存儲資源成為可能。
分布式文件系統最初產生于1980年代,其代表是NFS(Network File System)和AFS(Andrew File System)。2000年以后,分布式文件系統得到了更多的關注和長足的發展,其中以GFS(googh File system)和Lustre最為著名。
現在的分布式文件系統更加專注于高性能、高擴展能力、高可靠性、系統的高可用性和容錯能力。以GPS為例,它構建在相對便宜的計算機節點上,通過以下手段達到了以上提出的需要付出高昂成本才能實現的存儲能力:
①通過將控制流與數據流分離的方式來提高系統的吞吐率,用戶可以并行在多個節點上提取數據;
②將數據分成同等大小的數據塊,以方便數據的遷移和復制;
�、勖總數據塊都有多個(通常是3個)存儲副本,以提高數據的可靠性和讀取速度;
④一個數據塊可以被分布到不同的機器上,以提高系統的容錯能力。GFS系統架構如圖3所示
四 結語
分布式存儲系統可以存儲海量數據,它具有性價比高及靈活的可擴展性等特點,在工業界和學術研究領域得到廣泛關注。本文從傳統的存儲系統出發,比較了傳統的存儲系統和目前流行的分布式存儲系統的區別與聯系。同時,對分布式存儲系統的分類及特點進行了初步分析。分布式存儲系統有多種不同的實現原理和方法,適用于不同的應用領域,我們需要根據應用特點來選擇合適的存儲方式。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:分布式存儲系統調查