我是從2000年開始接觸
數據倉庫,大約08年開始進入互聯網行業,那時在互聯網接觸到數據平臺與傳統第三代數據架構還是有很大的類似之處,隨著互聯網的突飛猛進,每一次的技術變革都帶來一場從技術、架構、業務的漸進式變革,到今天互聯網、非互聯網的數據平臺架構已經差異非常大。
回顧早期的企業環境,企業的生產與服務是一個很長周期,導致業務數據呈現一種粗粒度模式。隨著互聯網的快速滲透從早期的PC終端到“襠下“的 移動終端,對用戶的需求與服務周期將逐漸的縮短,業務量級、數據類型多樣化與存儲的暴增,對應著技術、架構、業務呈現出迅猛發展,相應的數據沉淀與積累也成指數暴漲。
從”數據倉庫“ 詞開始到現在的“大數據”,中間經歷了太多的知識、架構模式的演進與變革,比如說“數據倉庫、海量數據、大數據”等。(備注:數據倉庫一般指的是:在相當長的時間內堆積數據,僅僅需要處理大量數據請求中的少部分的系統。數據倉庫不等同于“海量數據” 。恰恰相反,而是其子集。海量數據也包含:通過大量的連接提供每秒百萬次服務請求的系統。大數據是海量數據+復雜類型數據基礎上的大分析、高寬帶、大內容)。
數據倉庫在國外的發展史多年,大約在98-99年左右進入中國,到現在歷了大約十多年發展。到了今天尤其是在非互聯網、互聯網企業兩個領域數據平臺有顯著的區別。本文將以非互聯網時代、互聯網時代數據平臺發展角度來講述。
很多從傳統企業數據平臺轉到互聯網同學是否有感覺,非互聯網企業、互聯網企業的數據平臺所面向用戶群體是不同的?這兩類的數據平臺的建設、使用用戶又有變化?數據模型設計又有什么不同呢?
我們先來看用戶群體的區別,下邊整理了2個圖來講述用戶群體相關區別。
一、用戶群體
非互聯網數據平臺用戶:
企業的boss、運營的需求主要是依賴于報表、商業智能團隊的數據分析師去各種分析與挖掘探索;
支撐這些人是ETL開發工程師、數據模型建模、數據架構師、報表設計人員,同時這些角色又是數據平臺數據建設與使用方。
數據平臺的技術框架與工具實現主要有技術架構師、JAVA開發等。
用戶面對是結構化生產系統數據源。
互聯網數據平臺用戶:
1.互聯網企業中員工年齡比非互聯網企業的要年輕、受教育程度、對計算機的焦慮程度明顯比傳統企業要低、還偶遇其它各方面的緣故,導致了數據平臺所面對用戶群體與非互聯網數據平臺有所差異化;
2.互聯網數據平臺的使用與建設方是來自各方面的人,數據平臺又是技術、數據產品推進建設的。
3.分析師參與數據平臺直接建設比重增加。
4.原有的數據倉庫開發與模型架構師的職能也從建設平臺轉為服務與咨詢.
5.用戶面對是數據源多樣化,比如日志、生產數據庫的數據、視頻、音頻等非結構化數據 。
從這用戶群體角度來說這非互聯網、互聯網的數據平臺用戶差異性是非常明顯,互聯網數據平臺中很多理論與名詞都是從傳統數據平臺傳遞過來的,本文將會分別闡述非互聯網、互聯網數據平臺區別。
非互聯網時代
自從數據倉庫發展起來到現在,基本上可以分為五個時代、四種架構(大家可以詳細翻一下數據倉庫的發展歷史,在這里僅作科普性介紹)。
1.約在1991年前的全企業集成
2.1991年后的企業數據集成EDW時代
3.1994年-1996年的數據集市
4.1996-1997年左右的兩個架構吵架
5.1998年-2001年左右的合并年代
五個時代劃分是以重要事件或代表人物為標志,比如說在企業數據集成EDW時代其重要代表人物是Bill Inmon 代表作數據倉庫一書,更重要是他提出了如何建設數據倉庫的指導性意見與原則。他遵循的是自上而下的建設原則,這個導致后來數據倉庫在千禧年傳到中國后的幾年內,幾個大實施廠商都是遵守該原則的實施方法,后來的數據倉庫之路等各種專業論壇上針對數據倉庫ODS-EDW的結構討論(備注:壇子里有個叫吳君,他發表了不少這方面的文章)。
在國內項目實施中IBM、Terdata、埃森哲、菲奈特(被東南收購,東南后來某些原因而倒閉)等很多專業廠商在實施中對ODS層、EDW層都賦予了各種不同的功能與含義。
在數據集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在數據倉庫的建設上Ralph kilmball 提出的是自下而上的建設方法,剛好與Bill Innmon的建設方法相反,這兩種架構方式各有千秋,所以就進入了爭吵時代。
我整理了一個表格是這兩位大師的優缺點:
隨著數據倉庫的不斷實踐與迭代發展,從爭吵期進入到了合并的時代,其實爭吵的結果要麼一方妥協,要麼新的結論出現,果然Bill inmon與 Ralph kilmball的爭吵沒有結論,干脆提出一種新的架構包含對方,也就是后來Bill Inmon 提出的CIF(corporation information factory) 架構模式、這也算是數據倉庫的第三代架構,其架構特點是把整個架構劃分為不同層次,把每一層次的定義與功能都詳細的描述下來,從04年后國內的很多數據倉庫架構、甚至互聯網剛開始搞數據平臺數據倉庫架構模式也是這一種。
數據倉庫第一代架構
(開發時間2001-2002年)
海爾集團的一個BI項目,架構的ETL 使用的是微軟的數據抽取加工工具 DTS,老人使用過微軟的DTS 知道有哪些弊端,后便給出了幾個DTS的截圖。
硬件環境:
業務系統數據庫:DB2 for Windows,SQL SERVER2000,ORACLE8I
中央數據庫服務器:4*EXON,2G,4*80GSCSI
OLAP 服務器:2*PIV1GHZ,2G,2*40GSCSI
數據倉庫第二代架構
這是上海通用汽車的一個數據平臺,別看復雜,嚴格意義上來講這是一套EDW的架構、在EDS數據倉庫中采用的是準三范式的建模方式去構建的、大約涉及到十幾種數據源,建模中按照某一條主線把數據都集成起來。
這個數據倉庫平臺計劃三年的時間構建完畢,第一階段計劃構建統統一生性周期視圖、客戶統一視圖的數據,完成對數據質量的摸底與部分實施為業務分析與信息共享提供基礎平臺。第二階段是完成主要業務數據集成與視圖統一,初步實現企業績效管理。第三階段全面完善企業級數據倉庫,實現核心業務的數據統一。
在第一階段數據倉庫中的數據再次通過階梯型高度聚合進入到數據集市DM(非挖掘集市)中,完成對業務的支撐。
數據的ETL 采用datastage 工具開發(備注 大約06年我寫了國內最早的版本datastage 指南 大約190頁叫“datastage 學習版文檔”。后來沒再堅持下來)。
數據集市架構
這個是國內某銀行的一套數據集市,這是一個典型數據集市的架構模式、面向客戶經理部門的考慮分析。
數據倉庫混合性架構(Cif)
這是太平洋保險的數據平臺,目前為止我認識的很多人都在該項目中呆過,當然是保險類的項目。
回過頭來看該平臺架構顯然是一個混合型的數據倉庫架構。它有混合數據倉庫的經典結構,每一個層次功能定義的非常明確。
ODS層支撐單一的客戶視圖,是一個偏操作行的做唯一客戶識別的,同時提供高可用戶性客戶主信息查詢。
EDW層基于IIW(IBM的通用模型去整理與實施)最細粒度、原子、含歷史的數據,也支持查詢。
各業務數據集市(DM) 面向詳細業務,采用雪花/星型模型去做設計的支撐OLAP、Report、儀表盤等數據展現方式。
新一代架構OPDM 操作型數據集市(倉庫)
OPDM大約是在2011年提出來的,嚴格上來說,OPDM 操作型數據集市(倉庫)是實時數據倉庫的一種,他更多的是面向操作型數據而非歷史數據查詢與分析。
在這里很多人會問到什么是操作型數據?首先來看操作型數據支持的企業日常運作的比如財務系統、Crm系統、營銷系統生產系統,通過某一種機制實時的把這些數據在各孤島數據按照業務的某個層次有機的自動化整合在一起,提供業務監控與指導。在2016年的今天看來OPDM在互聯網很多企業已經實現了,但是在當時的技術上還是稍微困難點的。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:我所經歷的大數據平臺發展史(上)
本文網址:http://www.guhuozai8.cn/html/support/11121519146.html