引言
BI(Business Inteligent,商業智能)是隨著Internet的高速發展和企業信息化的不斷深入而產生的。BI使得企業的決策者能夠對企業信息進行有效、合理地分析和處理,為生產決策提供可靠的依據。學術界對BI有不同的定義:Data Wareho MseInstitute組織認為“BI是將數據轉換成知識并將知識應用到商業行為上的一個過程列”;Gartner Group則認為“BI是將數據轉換成信息的過程,然后通過發現將信息轉化為知識”。圖1展示了BI在商業中的應用。確切地講,BI并不是一項新技術,它將數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)等技術與客戶關系管理(CRM)結合起來應用于商業活動實際過程當中,實現了技術服務于決策的目的。
圖1 BI在商業中的應用
1 數據倉庫、OLAP技術及行業應用分析
1.1 數據倉庫與OLAP技術
數據倉庫是實現商業智能的數據基礎,是企業長期事務數據的準確匯總。W.H.Inmon是這樣對數據倉庫定義的“數據倉庫是面向主題的、集成的、時變的、非易失的數據集合,用于管理決策指定過程”。其中面向主題指DW集中在高級的商業實體,如:產品,客戶,銷售,財政收入等;集成指數據倉庫中的數據以一致的格式存儲;時變指數據項與時間點有關;非易失指數據存入數據倉庫后不再變化。數據倉庫的產生是信息化建設的結果,主要是由于歷史數據的不斷積累,而且決策者需要的信息往往保存在多個不同的數據庫系統中;就糧食行業來說,從90年代初就開始進行行業的信息化建設,尤其是近兩年,信息管理系統大范圍地得到應用,使得糧食行業的基礎數據迅速遞增,但是由于管理不規范、數據不一致、網絡不健全等因素使得糧食行業的決策管理部門無法從大量的數據中發現和提取隱含的、重要的、用于決策的信息;這主要是由于用戶的決策分析常常需要對多個相關系統數據進行匯總、比較、分析等操作,而在用于事務處理的關系數據庫中需要進行許多連接和計算才有可能得到結果,尤其是對于異構的數據常常需要花費大量的時間進行處理;并且查詢的結果并不總能滿足決策者的時間要求。因此,傳統的聯機事務處理系統已經不能滿足決策考查詢分析的響應時間要求。而且,目前的聯機事務處理系統中使用的數據庫管理系統主要是針對事務處理而設計的,它們主要關心的是如何處理并發、事務管理等方面;而沒有過多地去考慮分析查詢的特殊需要,由此產生了面向分析的數據倉庫和OLAP技術。
數據倉庫可以看作是一種結構,它包含多種技術和產品,如:商業數據多維模型、實體關系(RR)模型、數據庫管理系統(DBMS)、并行計算技術和OLAP工具等。數據倉庫通過提取、轉換、加載(ETL)工具來實現數據的導入,ETL工具主要完成的功能包括有:異構數據的讀取功能、數據的預處理功能、數據加載功能及元數據的管理等功能。
數據倉庫中的數據包括當前數據、歷史數據、匯總數據、元數據等多種形式。正是這些數據為決策支持系統(DSS)提供了有效的數據平臺。
數據倉庫是通過OLAP技術進行數據建模的,數據倉庫中的數據主要是以多維模型進行存儲和展現的,OLAP技術為準確定義多維模型、操縱多維立方體提供了有效的實現基礎。在數據倉庫中一個多維模型主要由一個包含大量事實數據并且沒有冗余的事實表和一些表示匯總方式的維表組成。這些多維數據模型可以以星形模式、雪花模式、或事實星座(fact constellation)模式等形式存在。與星型模式相比,雪花型模式中數據表易于維護,節省空間;但是在執行查詢時需要更多的關聯操作,降低了數據倉庫的響應性能。因此,在數據倉庫設計中,星型模式更流行。在星型模式中,每個維用一個表表示,每個表中包含一組屬性,維表中的數據會有一些冗余,并且維表中的屬性可能以全序或偏序關系存在。圖2顯示了基于星型模式的多維模型。
圖2 星型模式多維模型
數據倉庫中,各種模型將數據看作數據立方體(Cube),數據立方體是n維的(n≥2)。它允許以多維形式對數據進行建模查看,將多維模型中的維表和事實表中的度量,以維和事實的形式進行展現。
概念分層用于對數據進行聚合;一個概念分層定義;一個映射序列,它將低層概念映射到上一層概念,是數據庫模式中屬性(域)的全序或偏序排列。
在OLAP中,一個維中根據不同的用戶視圖,可能有多個概念分層。概念分層可以由系統專家、領域專家結出,也可以根據數據分布使統計分折算法給出如:ID3決策樹算法。一個維表可以有多個不同的概念分層,每個概念分層稱為一個層次(hierarchy),每個層次中的不同分層稱為一個級別(1evel)。如圖2中的虛擬維(基于成員屬性的維)“生產時間”可以按照年-月-日來分,也可以按照年-季-月-日來分;這就是兩個不同的時間層次,年、季、月、日就是不同的級別。
概念分層被用于對OLAP進行數據建模,多維數據模型中,數據組織成多維,每維包含由概念分層定義的多個抽象層。這樣,使用戶可以從不同角度觀察數據,同時也有利于OLAP對各種視圖進行極化。OLAP定義了一些操,作用于概化、查詢、分析基于概念分層的數據立方體,包括上卷(roll up)、下鉆(drill down)、切片(Slice)等,這些OLAP操作是抽象的,具體的實現過程與OLAP數據模型有關。
1.2 行業應用分析
數據倉庫的設計和實現是本項目的最終目標,但是數據倉庫的構造是一個艱巨而長期的任務。鍵的問題是清楚定義數據倉庫的結構,一般地,數據倉庫采用如圖3所示的3層結構。
圖3 數據倉庫3層結構
在設計過程中,采用企業級數據集市結構(EDMA)基于星型模式進行糧食行業數據倉庫的構建,在統一的全局元數據中心庫的基礎上實現由數據集市到數據倉庫的開發。
由于數據倉庫的建設是一個基于原型的迭代過程,因此,經過論證首先確立了企業急需的面向3個主題的數據集市:倉儲、業務、財務;然后圍繞倉儲主題構建3個多維模型:入庫模型、出庫模型(見圖2)和庫存模型。
在數據倉庫的3層結構中,OLAP服務器有3種類型:ROLAP(關系OLAP)、MOLAP(多維OLAP)和HOLAP(混合OLAP)。ROLAP是中間服務器,它介于關系DBMS和客戶前端應用程序之間。它使用關系DBMS或擴充關系DBMS來存放井管理數據倉庫,OLAP中間件實現其余的服務,這種技術有很大的可伸縮性,但是關聯操作使得響應效率降低。MOLAP通過基于數組的多維存儲引擎,將數據映射到數據立方體數組結構中,實現數據的多維視圖。這種技術的優點是數據的快速索引,缺點是數據集是稀疏的,存儲利用率低。HOLAP(混合OLAP)結合ROLAP和MOLAP技術,將ROLAP的較大可伸縮性和MOLAP的快速計算緊密結合,實現數據的有效存儲和快速檢索。對于糧食行業,基于糧庫的事務數據,在糧庫的上級管理部門建立了基于上述3層結構的數據倉庫,由后臺進程定時完成數據的上傳、轉換和加載,對于數據立方體的更新由后臺進程配合管理員來完成。
在數據倉庫實現過程中,立方體數據的極化(materilization)是非常重要的,被極化的數據稱為概化視圖(matellized viewser)。立方體數據的概化方式有不概化、全部極化、部分概化3種�?紤]到響應效率和存儲空間的限制,許多OLAP產品使用啟發式方法實現數據立方體的部分極化,一種方法就是概化那些經常被訪問的基礎立方體集,這也是學術界目前研究的熱門,提出了一種半貪心(semigrecdy)啟發式算法PSUM,此算法的目的就是給出部分極化視圖(或稱部分聚集)的一個下界,使得其他的任何一個數據視圖可以由這些概化視圖一步計算出來,從而提高OLAP響應效率。。由于作者涉及的糧食企業用于分析和決策的數據量相對來講不是特別大(約300 Mbit/年),因此,在設計的糧食決策支持系統中采用公式T(T-1)/2+T=2n-1(T:最小界,n所有的維屬性值)來確定極化視圖的最小下界,然后使用/數據視圖模式的表示方法結合業務限制(如:大米和大豆的庫存量不做對比等)確定出需要計算的最少數據視圖進行概化(約占空間為1Gbit/年)�;頂祿兓瘯r可以對立方體和極化視圖進行增量更新,在維表變化是可以對立方體進行完全更新,同時重新計算并更新極化視圖,從而實現新生數據從數據源——數據倉庫——數據立方體——極化視圖全過程的傳送和更新,實現事務數據到決策服務數據的轉變過程。
構建行業數據倉庫是一個長期的、反復的過程,操作系統和數據倉庫平臺的選取也很重要,主要考慮的因素除資金外應當是企業數據的增長速度、規模和平臺使用的各種技術的技術指標。如果企業的歷史數據(如5年)達到TB(1000 Gbit)級以上,那么就要考慮使用Unix上的數據倉庫平臺;如果僅僅在10 Gbit左右就可以考慮Windows上的數據倉庫平臺。數據倉庫建設的主要部分ETL工具和OLAP服務器的設計,目前的ETL工具和OLAP服務器產品也相對較多,大多數的數據庫廠商都提供ETL工具和OLAP服務器。當然可以通過技術儲備如上面講到的存儲技術、極化技術等自行開發ETL工具和OLAP服務器;但是開發成本和開發周期會相應增加。可以結合實際的需要進行取舍。無論采取那種方式,在數據倉庫的構建過程中,關鍵是業務建模;只有對企業的業務需求進行深入的了解,才能提出真正適合企業需要的數據模型,這樣數據倉庫及各種相關技術才能真正地與實際相結合,為企業管理和決策提供強有力的保障。
2 數據挖掘技術
數據挖掘是一項新技術,它被用于從大規模數據庫中發現新的、有用的知識。數據的不斷增長產生了對知識發現的需求;數據挖掘技術正是為適應這一需求而出現的,因此數據挖掘又被成為知識發現(KDD);數據挖掘使用一些有效的分析算法從平凡數據中發現有用的模式,可以說數據挖掘是將海量數據庫和有用的知識緊密相連的橋梁。
企業級數據挖掘是將數據挖掘技術應用于挖掘企業數據,如:客戶數據,來挖掘新的客戶知識,具有很高的商用價值,并且能夠應用到商業實際。企業運用數據挖掘進行知識發現的過程一般包括7個步驟。
1)識別商業問題。
2)識別和研究數據來源,
3)提取和處理數據。
4)對數據進行挖掘(如:發現關聯規則或者產生預測模型)。
6)在商業實際中應用挖掘模型。
7)ROI(投入產出)計算。
數據挖掘的數據源并不局限于某一種數據,可以在多種異構源商進行數據挖掘,如:數據倉庫、OLTP系統、Excel/Access數據、文本文件等。但是普通的數據并不都能不加處理地直接用于數據挖掘,這主要是因為普通的業務數據中往往存在很多問題如:數據表示不一致、空缺值、數據類型不統一等。這時就需要在數據挖掘之前進行對各種數據源的數據進行預處理,這些操作有如下幾個方面:數據清理、數據集成、數據選擇、數據變摻和數據修正等。數據的預處理完成后,就可以按照企業的需要進行數據挖掘。數據挖掘的任務一般分為描述和預測;描述型數據挖掘用于刻畫數據庫中數據的一般特性,預測型數據挖掘在當前的數據上建模并進行預測。數據挖掘是一項新技術,但是數據挖掘并不是獨立的一門學科,它與數據庫技術、統計學、機器學習、模式識別等技術緊密相關。近幾年,許多學者都已經在這些方面做了大量的工作,這里作者就不再贅述。
在糧食企業建立數據倉庫后,就可以對其數據進行分析,聯機分析處理(OLAP)側重于以多維的方式展現數據。而數據挖掘則側重于對數據進行深層次的挖掘,為企業提供有價值信息。數據挖掘在糧食管理決策支持系統中的應用主要有如下幾個方面。
·倉容分析 針對各地的糧庫倉容建設數據,運用聚類算法進行孤立點檢測,進而判定出是否存在實際倉容建設和支出不相符的單位,從而加強企業的管理,減少企業的損失。
·收購預測 商務流通領域回歸分析預測系統的回歸模型對收購數量與外界因素如;年平均氣溫、年平均降雨、市場價格、病蟲害情況等相關性進行分析,進而能夠根據已有數據對未來的收購數量進行預測,以便企業可以提前做好各項計劃和準備工作,避免了人、才、物的浪費。
·聯機分析處理(OLAP)概化視圖(MV)的優化 使用決策樹算法對OLAP用戶的使用日志進行模式發現,然后利用基于距離的聚類算法對所有數據視圖和模式進行相關性分析,計算出用戶最可能訪問的數據視圖進行概化,提高OLAP的響應速度;這部分相對較難,目前作者正在進行這方面的研究。
3 其他BI相關技術
3.1 客戶關系管理
CRM指企業為改善和提高吸引新客戶、留住老客戶、保持客戶忠誠度、客戶盈利等能力而采取的手段,通過有意義的交流來理解和影響客戶行為。是通過圍繞客戶細分來組織企業,鼓勵滿足客戶需要的行為,并通過加強各企業與客戶、分銷商及供應商等之間的聯系,來提高客戶滿意度和客戶盈利能力的商業策略。
CRM的核心就是客戶價值管理,CRM價值鏈的基本流程(見圖4):
圖4 CRM價值鏈
第1步,客戶終生價值分析 就是通過分析客戶數據,識別具有不同終生價值的客戶或客戶群;
第2步,客戶親近 就是了解、跟蹤精選的客戶,為其提供個性化服務
第3步,網絡發展 就是同客戶、供應商、分銷商及合作伙伴等建立起一個強有力的關系網;
第4步,價值主張 就是同關系網一起發展客戶和公司雙贏的價值觀;
第5步,關系管理 就是在價值觀的基礎上加強對客戶關系的管理。
客戶終生價值分析是CRM價值鏈的第1階段,也是最重要的階段�?蛻艚K生價值(Customer Lifetime Value,LTV)是指對一個新客戶在未來所能給公司帶來的直接成本和利潤的期望凈現值,就是考慮未來客戶產生的利潤,現在客戶對你的價值。一個客戶的價值由3部分構成:歷史價值 到目前為止已經實現了的客戶價值;當前價值 如果客戶當前行為模式不發生改變的話,在將來會給公司帶來的客戶價值;潛在價值 如果公司通過有效的交叉銷售、調動客戶購買積極性或客戶向別人推薦產品和服務等,從而可能增加的客戶價值。
3.2 數據庫直銷(Database Marketing)
首先引入直銷的概念,直銷指為識別和滿足用戶在交易過程中需求而采取的所有活動。數據庫直銷:以客戶為基礎的,信息集中的,面向長期的直銷手段。數據庫直銷的功能包括:能夠將直銷努力集中到感興趣的顧客、能夠與顧客建立長期的聯系、對于不同的客戶可以提供不同產品目錄、在產品的陪送中具有優勢、增加對客戶的了解。
數據庫直銷實際上是一個交流的過程,可以識別客戶和需求,通過交流捕獲結果信息。企業的直銷數據庫中的數據包括:顧客和可能的顧客個人信息,顧客訂購事務信息,訂購的產品信息,促銷信息,顧客地域分布信息,顧客生命周期信息,財務信息等數據。直銷數據庫設計有兩種方式:1)關系數據庫,用于捕獲實時數據;2)多維數據庫,用于分析和市場決策制定。數據庫直銷適用的領域:客戶保持、CRM、市場研究、銷售渠道建設、擴大銷售等。數據庫直銷中使用一種基于單元格的方法RFM技術(Recency,Freqtlency,Monetary)進行顧客數據的分析。通過分析,對顧客進行分組,從而捕獲有價值的信息。
就糧食行業來講,糧食企業與農民和銷售客戶的關系對企業來講并沒有上升到主要地位,現存的主要問題集中在監督管理上,因此CRM和數據庫直銷在糧食行業的應用相對來講并不重要。但是對于其他行業,如:電信、銀行、金融等,客戶就是企業利潤的來源,因此,結合數據倉庫、數據挖掘、CRM、數據庫直銷等技術對客戶、市場的分析對這些企業的發展來講至關重要。
4 結論與展望
商業智能在行業中的應用是一個長期而復雜的過程。BI作為信息技術發展的產物,是企業分析海量數據的必要途徑,隨著信息技術和企業的緊密結合,商業智能及其相關技術必將為企業帶來更大的效益。尤其對于一些國內企業來說,充分利用BI技術還將改善企業管理、大大提高企業的競爭力。隨著網絡和無線通訊的發展,電子商務已經進入無線領域,無線電子商務和商務智能的結合將是未來發展一個重要的領域,可以說,商業智能技術伴隨著電子商務的發展必將在更多的行業中得到更廣泛的研究與應用,從而提高企業的核心競爭力和效益。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:商業智能(BI)技術及行業應用分析