| 當前位置：拓步ERP資訊網 >>服務支持 >>ERP技術支持 >>技術支持知識庫

數據密集型系統架構設計

發布日期：2016-5-23 14:48:31 來源：www.guhuozai8.cn 編輯：拓步ERP資訊網瀏覽：評論

摘要：按照使用的資源類型劃分，我們可以把系統分為三大類型：IO密集型、計算密集型，數據密集型。系統的類型反映了系統的主要瓶頸。 原標題：數據密集型系統架構設計 原作者：2016/5/23 來源：TigerMee的專欄作者：tigermee
關鍵字：數據庫系統架構設計

按照使用的資源類型劃分，我們可以把系統分為三大類型：IO密集型、計算密集型，數據密集型。系統的類型反映了系統的主要瓶頸。現實情況中，大部分系統在由小變大的過程中，最先出現瓶頸的是IO。IO問題體現在兩個方面：高并發，存儲介質的讀寫（例如數據庫，磁盤等）。隨著業務邏輯的復雜化，接下來出現瓶頸的是計算，也就是常說的CPU idle不足。出現計算瓶頸的時候，一般會使用水平擴展（加機器）和垂直擴張（服務拆分）兩個方法。隨著數據量（用戶數量，客戶數量）的增長，再接下來出現瓶頸的是內存。

如今，內存的合理使用比以往更加重要。一方面，大數據理論已經非常普及，用數據驅動產品也已經被普遍接受并落地，同時數據分析也促使產品設計的更加精細，因此系統承載的數量比以前有了很大的變化，系統遇到內存瓶頸的時間也比以前大大縮短了。另一方面，內存依然是相對昂貴的硬件，不能無限制的使用。即使在Amazon等云服務上，大內存的實例也是很昂貴的，并且大內存的實例往往伴隨著高性能型CPU，這對一些數據密集型系統是一個浪費。因此，本文重點探討數據密集系統如何應對出現的瓶頸。

1. 拆庫

任何工程上的問題最基本的思路都是“分而治之”。因此，當內存不夠時，很自然的想法是將數據拆分到多臺機器中，俗稱拆庫。沿用數據庫拆分的術語，拆庫又分為“水平拆分”和“垂直拆分”兩個派別。

1.1 水平拆分

水平拆分是指將同一種數據的不同記錄進行拆分。

例如我們有一億條商品數據供查詢。如果單機無法存儲，可以使用四臺機器，每臺機器存儲2500萬條商品數據。其中，每臺機器稱為一個“分片”，同一個分片的多臺機器組成一個“分組”，從四個分組各選出一臺機器組成一個完整的服務。當上游服務進行查詢時，同時查詢四臺機器，并對返回結果做合并。

在使用水平拆分的方案時，需要重點考慮以下問題：

索引服務

如前幾篇文章所述，任何大數據量系統中，在啟動之前都需要加載索引數據。索引數據一般是預先計算好的，并且以二進制格式持久化的文件。因為服務進行了拆分，每一臺機器只需要加載一部分數據，因此需要為每個分組的機器單獨計算索引數據，這樣減少了系統啟動時處理的數據量，加快啟動速度。

數據更新

同樣，由于每臺機器只需要加載一部分數據，那么也只需要處理這部分數據的更新。目前主流的更新數據流都是使用 Mesage Queue 作為傳輸和持久化系統個，在服務端接收 Message Queue 的數據并持久化到本地，供在線服務定期讀取。一般同一類的數據使用一個 Topic 傳輸，同時 Message Queue 一般都支持 Partition 的機制。即在向 MQ 中發送一條數據時，可以指定將該條數據發送到哪個 Partition；在從 MQ 中讀取數據時，可以指定只讀取哪些 Partition 的數據。例如上文的例子，存儲商品數據的服務器分了四個組，因此可以將傳輸商品更新數據的 Topic 劃分為四個 Partition，每個分組的機器只需要訂閱其需要的 Partition 即可。在實際操作中，為了保持未來的擴展性，一般 Partition 的數量都會設置為分組數量的若干倍，例如八個或者十六個，這樣在未來數據量進一步增長導致分組個數進一步增加時，不需要修改 MQ 的 Partition 配置。

利用 MQ 這個機制，可以使每臺機器只訂閱自己需要處理的數據，減少帶寬，也減少更新時處理的數據量，避免浪費資源。

服務管理的復雜性

在我們管理上下游機器時，一般會使用以 ZooKeeper 為核心的服務管理系統。即每個服務都注冊在 ZooKeeper 中，當上游服務需要訪問下游服務時，去 ZooKeeper 中查詢可用的下游服務列表，并同時考慮負載均衡等因素，選擇最合適的一個下游服務實例。

當一個服務出現分組時，管理的難度會增大。服務管理系統需要確保一個服務的每個分組的實例同樣多，并且負載基本保持平衡。另外，當任何一臺機器出現故障導致的宕時，需要啟動備用機器。這時，需要判斷是哪個分組的機器發生了故障，并啟動相關分組的機器實例，重新注冊到 ZK 中。

無法拆分的數據

有很多數據是無法拆分的。一方面有些數據是天然不可拆分的，例如各種策略使用的詞典；另一方面，有些數據即使可以拆分，但和系統中其他數據的拆分規則不同，那么系統也無法保證所有數據都能被拆分，只能優先拆分主要數據。

1.2 垂直拆分

在傳統關系型數據庫的設計上，垂直拆分是指將一種數據的不同列進行拆分；在對系統架構的設計上，垂直拆分是只將一個服務的不同計算邏輯拆分為多個服務。在使用垂直拆分的方案時，需要重點考慮以下問題：

增加網絡請求次數，增加系統響應時間

如果是對響應時間要求很高的系統，一定會盡可能地避免垂直拆分，例如搜索。而有一些對邏輯確實很復雜，對時間又不太敏感的系統，一般都會優先選擇垂直拆分，例如支付。

增加系統復雜度

將服務進行了分層，更加了開發成本，對運維的要求也更高。

數據冗余

有一些數據會被拆分過的多個服務使用，會出現在上下游多個服務中，那么數據的分發、更新都會更加復雜，即浪費資源，又進一步增加了系統的復雜度。因此，在垂直拆分的過程中，一定要盡可能將服務的功能做良好的劃分，避免一種數據被多個服務使用的情況。

垂直拆分的方案中，有一種情況可以大幅減少機器數量，即：一部分數據的存在并不是在處理請求的時候被直接使用，其存在是為了維護被處理請求的邏輯直接使用的數據。

一個典型的例子是檢索服務中的正排索引。檢索服務在查詢時，直接使用的是倒排索引，而倒排索引是根據正排索引生成的。正排索引往往有多種數據，當一條數據發生更新時，會影響其他類別的數據。因此，一條數據的更新信息無法被單獨處理，在系統的內存中往往同時維護正排索引和倒排索引，導致內存翻倍。這種情況下，如果我們把正排索引獨立到一臺離線機器中，這臺機器維護正排索引的全部數據，當正排索引發生更新時，倒排索引的更新信息，并分發給所有在線機器。那么，在線服務就不需要維護正排索引，能夠大幅度減少內存的使用。

1.3 綜述

實際情況中，大型系統往往同時使用水平拆分和垂直拆分兩種方案。一方面，水平拆分雖然服務內部進行了分組，但對外仍然是單一的服務，因此從業務邏輯上來講更加簡單。另一方面，垂直拆分可以將非常復雜、計算資源有不同需求的業務邏輯進行很好的隔離，方便系統中各業務邏輯可以針對自己的特點進行開發和部署。因此，在選擇拆分方案時，要結合系統的主要矛盾以及目前團隊成員的技術特點，綜合考慮做出選擇。

2. 多級存儲

俗話說，當上帝為你關上了一扇門，必（可）定（能）為你打開了一扇窗。如果說大數據是上帝為架構師關上的一扇門，那么熱點數據就是打開的那扇窗。雖然在現實世界中的數據是海量難以估算的，但幸運的是，有價值或者說值得關注的數據總是少數的。在大型系統中，請永遠把二八法則的重要性放在第一位。

一般來說，計算機的存儲系統分為三級：CPU Cache，內存，磁盤。這三者的訪問速度依次降低（并且是數量級的降低），單位存儲的成本也依次降低（也是數量級的降低）。多級存儲的基本思想是，按照被訪問頻率的不同給數據分類，訪問頻率越高的數據應當放在訪問速度越快的存儲介質中。

三種系統都使用頁式存儲的結構，頁也是其處理數據的最小單位。由于這個特性，我們一般在編寫程序時，盡可能地將連續訪問的數據放在內存的相鄰位置，以提高CPU Cache的命中率，也就是常說的 locality principle。

隨著SSD的出現，對磁盤的使用已經出現了新的方法論。機械磁盤的隨機讀寫速度在10ms左右，不太可能供實時系統使用。而SSD磁盤的隨機讀寫速度在100us左右，對于有些秒級響應的系統來說，已經可以作為實時系統的存儲介質。一種典型的情況是系統存在相當數量的冷門數據。系統對于熱點數據可以快速地反饋，對于很少被訪問的冷門數據可以存儲在SSD磁盤中。當冷門數據被訪問時，只要latency仍然可以控制在秒級，就可以在保證用戶體驗只有很少的損害的情況下，大幅減少系統成本。

一種典型的場景是電商的商品信息。經常被訪問的商品可能不到商品總量的1%。像淘寶這樣規模的電商系統，實際可能比1%還低。

另一種典型的場景是用戶評論。無論按評論發表的先后順序，還是按某種規則計算出的評論的質量度排序，總是前100個左右的評論被經常訪問，后面的評論幾乎不會被訪問到。

另外，回想上文提到的檢索服務的案例。正排索引除了可以拆分為單獨的服務之外，還可以存儲在磁盤中。更新正排索引的時候直接從磁盤讀取數據，修改后寫會磁盤，同時更新內存的倒排索引。如果使用SSD磁盤，雖然更新的延遲會增長，但也會控制在毫秒級，對于系統完全是可以接受的。要知道，在一條數據到達檢索服務之前，都會經過若干次網絡傳輸，由磁盤引起的延遲并不是主要因素。

在使用磁盤作為可以提供實時查詢功能的存儲介質時，很常見的方案是將磁盤作為二級緩存，將最近訪問的數據保存在內存中，當訪問的數據不在內存中時，從磁盤讀取，并放入內存中。這個方案的假設是，最近被訪問的數據很可能在接下來仍然被訪問。采用這種方案需要重點注意，防止爬蟲或者外部的惡意請求短期內訪問大量冷門數據，造成實際的熱點數據被換出緩存，導致處理真實請求時有大量的緩存失效。

大數據技術對商業效果的提升已經在越來越多的行業中被證明，未來的服務，無論是在線還是離線，處理的數據都會有數量級甚至幾個數量級的增長。同時，我們看到內存除了訪問速度越來越快，在存儲的數據量和成本上并沒有太大的變化。因此，未來越來越多的系統的主要瓶頸會從計算、IO轉移到數據量上，內存密集型系統會變得越來越重要，相信其架構在未來幾年也會有很多新的方式出現。

核心關注：拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業務管理理念，功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理，全面涵蓋了企業關注ERP管理系統的核心領域，是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。

轉載請注明出處：拓步ERP資訊網 http://www.guhuozai8.cn/

本文標題：數據密集型系統架構設計

本文網址：http://www.guhuozai8.cn/html/support/11121519332.html

關鍵詞標簽： 數據密集型系統架構設計,數據庫系統架構設計,ERP,ERP系統,ERP軟件,ERP系統軟件,ERP管理系統,ERP管理軟件,進銷存軟件,財務軟件,倉庫管理軟件,生產管理軟件,企業管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統,ERP軟件免費下載,ERP系統免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務軟件,免費倉庫管理軟件,免費下載,

本文轉自：e-works制造業信息化門戶網

本文來源于互聯網，拓步ERP資訊網本著傳播知識、有益學習和研究的目的進行的轉載，為網友免費提供，并盡力標明作者與出處，如有著作權人或出版方提出異議，本站將立即刪除。如果您對文章轉載有任何疑問請告之我們，以便我們及時糾正。聯系方式：QQ：10877846 Tel：0755-26405298。

上一篇：除Hadoop大數據技術外，還需了解的九大技術

下一篇：算法分析的正確姿勢

相關文章

服務支持

拓步ERP系統軟件平臺11.5專業版v10.1.2...

拓步ERP系統平臺庫存管理系統培訓視頻教材


	ERP新聞動態拓步新聞行業新聞關注產品觀點縱橫企業管理企業應用

	ERP解決方案按ERP應用行業分類按ERP企業規模分類按ERP管理領域分類按ERP軟件功能分類按ERP系統特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰略診斷 ERP流程分析 ERP流程優化 ERP風險分析 ERP可行性研究 ERP整體規劃 ERP選型招標 ERP實施監理 ERP評審驗收 ERP績效評價 ERP基礎知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術專欄 CIO企業應用 CIO網絡通信 CIO信息安全 CIO基礎設施 CIO云計算

	ERP技術支持技術支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業管理知識庫

	ERP系統價格拓步ERP系統價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術支持服務價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數碼Digital 速達SuperData 拓步ERP系統成功案例

	代理加盟合作聯盟策略代理合作指南代理聯盟前景聯盟技術支持快速搜索ERP軟件資訊

	關于拓步公司介紹公司愿景企業文化誠聘英才聯系我們在線留言在線訂購意向下載體驗登記

日本高清色本免费现在观看-日本高清色图-日本高清色视频在线观看免费-日本高清免费一本视频在线观看-国产精品电影久久-国产精品对白刺激久久久

ERP技術支持

技術支持知識庫

常見問題資料庫

在線學習資料庫

日常辦公資料庫

企業管理知識庫

ERP系統教程

ERP免費下載

ERP在線咨詢

即時聯系

服務熱線

快捷互動

猜您喜歡