在大型企業中.數據資產是最具價值的無形資產.按類型可以分為結構化數據和非結構化數據。其中,非結構化數據是指無法用二維表結構表示的一種數據類型,主要包括辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻,視頻等。在企業信息化建設過程中產生的數據中,能夠采用關系型數據庫處理的結構化數據約占企業數據總量的20%。而其他80%的非結構化數據無法完全采用關系型數據庫來處理�?茖W管理和合理應用這些非結構化數據已經成為企業正確決策、增強核心競爭力的關鍵。Gartner在2006年6月的專項分析報告指出:“未來的十幾年,有效的信息管理非常重要,它將把那些不堪信息爆炸之重負的企業與那些主導全球經濟的企業區分開來”。Gartner、AIIM(美國圖形與信息協會)、維基百科等權威機構將企業非結構化數據管理定義為一套運用于獲取、管理、存儲、保管和發布內容以及文檔與組織、流程結合的戰略、方法和工具,它管理著企業全局范圍內各種形式的非結構化信息。
中國建設銀行、中國移動、英國BP石油公司、韓國伍里銀行、美國好事達保險公司對非結構化數據集中管理開展了相關工作,取得良好成效。同時,中央政府高度重視央企對非結構化數據的管理規范T作。2010年,由中央辦公廳、同務院辦公廳聯合下發《電子文件暫行管理辦法》(2009年39號文),明確要求大型企業電子文件管理需要滿足統一管理、全程管理、規范標準、便于利用、安全保密五大要求。
因此,為了能夠更大地獲取企業信息化建設投資收益.增強企業自身核心競爭力,必須強化對非結構化數據的管理和應用.研究企業級的非結構化數據管理平臺。
1、需求分析
根據對國內大型企業非結構化數據應用現狀的調研結果,結合AIIM、Garnter等權威機構對內容管理業務領域的研究,綜合分析出企業級非結構化數據管理平臺需要重點滿足非結構化數據集中存儲、統一管理、對外提供非結構化數據公共服務、業務應用系統統一接人這4個關鍵需求,全面覆蓋了內容獲取、內容存儲、內容管理、內容應用等4個業務領域。
1.1數據統一存儲需求
針對大型企業內各業務應用系統基本采用分散存儲各自非結構化數據的應用現狀,需要通過建設非結構化數據管理平臺,建立企業內部大數據量的非結構化數據存儲中心,同時需要通過制訂存儲優化策略達到優化存儲結構.提高存儲資源利用率,從而達到將企業內的非結構化數據進行集中存儲,簡化企業內部的IT架構、減少數據安全控制點,提升企業核心業務系統總體性能.為企業內部非結構化數據高效利用奠定基礎的目標。
1.2數據集中管理需求
非結構化數據管理平臺不僅是企業內非結構化數據的存儲中心.同時也是各項非結構化數據管理標準的制訂者與實踐者。通過制訂各種非結構化數據管理標準,解決目前在非結構化數據管理上所存在的主要問題,滿足企業內非結構化數據集中管理的需求。如通過建立內容元數據管理標準,統一企業內部內容元數據管理;通過建立數據全局訪問標準,統一各業務應用系統間數據的共享與交換;通過建立數據歸集標準.滿足業務應用系統存儲的數據實現歸集的要求。
總之.通過“標準制訂一產品開發一成果實施”的方式提高企業信息化建設中所產生的大量文件檔案.如規章制度、工程圖紙、合同票據、統計報表等各類非結構化數據的集約化管理水平,實現非結構化數據管理規范化、流程化、自動化。
1.3全生命周期管理需求
全生命周期管理是指內容的創建、申請、審核、生效、分發、退休到銷毀的全生命周期過程.全生命周期管理的最大價值是使內容的創建者和使用者能夠在全生命周期中協同參與、共同維護,創建者可以完整地控制和管理內容生命周期過程。
全生命周期管理的基礎是統一的版本管理、統一的存儲管理和統一的權限控制.實現方式一種是根據內容的狀態來控制全生命周期過程,另外一種是結合工作流.通過工作流和版本管理、存儲管理和權限管理的結合.實現更豐富多樣的全生命周期管理過程。
結合工作流技術.根據業務的需求.實現內容的全生命周期管理.實現數據在部門間的電子化無縫傳輸,實現數據在從創建、申請、審核、牛效、下發、退休和銷毀的自動化過程控制,實現使用者的自動化推送.提高工作效率和部門間溝通效率。
1.4統一對外服務需求
目前企業內各業務應用系統針對非結構化數據管理都具有不少重復的功能.如內容存儲、內容訪問、內容檢索等,造成“煙囪”現象嚴蕈.這不僅加大了企業的信息化建設費用,而且還使信息系統建設周期延長。作為專注服務于大型食業單位非結構化數據管理的基礎信息平臺.應能夠對外提供基本公共服務(包括內容存儲服務、內容訪問服務、內容管理服務以及運行監控服務等)及各類工具(數據分析及挖掘工具等),能夠對企業內部相關業務應用系統提供統一的非結構化數據利用服務,進一步提升非結構化數據管理平臺的應用價值。
1.5多類型應用系統接入需求
目前,在大型企業內的業務系統存在業務邏輯多樣性、所采用的開發技術多樣性的特點.如基于SAP開發、基于J2EE開發等。為了能夠提升業務價值,平臺須具備對企業內多樣化的業務系統有序、規范接人的能力。為此,平臺需要為不同類型的業務應用系統提供整體接入解決方案以及與之配套的相關接人規范等。
1.6數據加工和決策支持需求
非結構數據的集中存儲,為數據深加工提供了基礎.需要平臺根據決策需要.對數據進行文本分析、加工挖掘和信息抽取等技術手段.分析數據間的關聯性等,最終提供全文檢索和決策支持服務。非結構化平臺與結構化數據中心的數據倉庫產生的決策數據進行結合.并根據決策和日常辦公需要。生成各種輔助性的文檔(數據源來自于各個數據中心),最終提高公司的工作效率。非結構化數據管理平臺在滿足以上關鍵性需求后,平臺將真正成為企業的非結構化數據存儲的數據中心,真正成為企業相關聯業務系統共享非結構化數據的通道.真正成為企業引入國際先進內容管理技術.提供創新性文檔增值服務(如各種文檔挖掘與決策支持工具)的容器。
2、建設目標
2.1總體目標
企業級非結構化數據管理平臺作為是企業信息化基礎設施的重要組成部分。其建設總體目標如下。
1)非結構化數據管理平臺是將大型企業所有包含非結構化數據的業務應用系統進行統一集成整合的數據中心.對各業務應用系統上傳的所有非結構化數據進行集中存儲、流轉、管理以及綜合應用。
2)為大型企業其他業務應用系統提供公共服務及工具,實現非結構化數據全生命周期管理和綜合利用,保證非結構化數據全方位安全。
3)實現非結構化數據的規范化、流程化、自動化,提供業務深度融合、智能決策支持、離線數據安全等服務,充分實現企業信息價值.全面服務企業發展戰略.為智能分析與決策支持提供支撐。
2.2演進路線
根據總體建設目標.以非結構化數據在企業效用提升為主線,企業級非結構化數據管理平臺按照3個階段建設、分步完成進行演進。
1)第1階段(集中化管理階段):實現企業內非結構化數據集中化管理。制定統一標準、完成平臺部署、初步數據利用、提供基本的非結構化數據服務。
2)第2階段(業務融合階段):實現各業務應用非結構化數據融合,全面集中管理、初步業務融合、提供初步的內容加工挖掘和深化高級服務。
3)第3階段(決策支持階段):提供非結構化數據高級應用服務.業務深度融合、智能決策支持、離線數據安全等服務.使非結構化數據管理平臺真正成為公司信息化基礎設施的重要組成部分。
3、平臺架構設計
3.1設計原則
企業級非結構化數據管理平臺是信息化基礎設施.作為非結構化數據集中存儲、管理和應用的中心.在企業信息化建設過程中將起著至關重要的作用,平臺設計應充分考慮并結合企業非結構化數據管理現狀和未來發展趨勢。
1)可擴展性:優良的體系結構設計對于系統是否能夠適應將來新業務的發展至關重要。在滿足現有非結構化數據管理需求的基礎上.系統應當有充分的可擴展性,以滿足未來的業務發展。因此在方案設計中.必須考慮到應用逐步豐富、系統不斷擴展的要求.以形成一個易于管理、可持續發展的體系結構。同時將應用系統進行完全模塊化的設計,使系統具有良好的擴展性和高效性。
2)先進性:設計方案中采用市場領先并且成熟的技術.使非結構化數據管理平臺具備國內同業領先的地位。
3)安全性:設計方案充分考慮到網絡環境的安全性需求.防范國際互連網上的非法用戶的侵入,防止合法用戶對重要的不宜公開的數據的侵入。
4)標準性和開放性:設計方案充分考慮系統的標準性和開放性.盡可能地遵循開放的標準。開放的系統平臺便于將來擴展新的功能及與第三方的接口。
5)系統集成性:預留與其他系統間的接口.增加適配層隔離不同系統,降低系統集成的風險。
3.2業務架構
業務架構描述平臺的業務目標。根據中央辦公廳2009發布的《電子文件暫行管理辦法》(2009年39號文)以及非結構化數據管理平臺的關鍵業務需求.設計如圖1所示的非結構化數據管理平臺業務架構。
非結構化數據管理平臺對企業非結構化數據管理的業務能力至下而上劃分為:統一存儲、統一標準、統一管理、統一利用、統一運維。
1)統一存儲:是指平臺具有能將非結構化數據進行集中存儲的能力。該業務能力使平臺能夠對企業內大數據量的非結構化數據進行集中存儲及存儲優化能力,這是非結構化數據管理平臺的基本業務能力。
2)統一標準:是指平臺作為企業信息基礎設施的重要組成部分.必須擔負企業內各項非結構化數據管理及應用標準的制訂者與實踐者的角色.通過制訂各類且具可行性的非結構化數據的管理和利用標準。如平臺管理辦法、元數據標準、數據歸集標準、業務應用接入標準等,指導平臺各項建設工作開展。
3)統一管理:是指平臺提供對企業內非結構化數據統一管理的能力.如非結構化數據的全生命周期管理、數字資產管理、數據歸集管理以及文檔管理等。
4)統一利用:是指平臺提供內容訪問服務、內容處理服務、安全管控服務、高級應用服務.在實現非結構化數據統一存儲與統一管理的基礎上,實現非結構化數據安全、高效、增值利用.這是平臺建設的最主要目的.這部分業務能力可細分如下。①提供對各個接人平臺的業務應用對存儲在平臺的非結構化數據統一訪問的能力,如基于平臺實現跨庫查詢、在線瀏覽、在線編輯等方式。②提供一系列具有全局性的非結構化數據應用工具.如支持跨業務應用系統全文檢索、數據全局訪問等.從而打破業務系統間的系統界限與地域界限.使各類用戶能夠完備、實時地獲取到相關數據.提高工作效率。③提供數據梳理及元數據管理工具,抽取、分析、展現公司非結構化數據的全局視圖.提高企業領導對非結構化數據的全局駕馭能力。(薊提供數據分析及挖掘工具,如文檔聚類分析、文檔專題分析等.實現非結構化數據增值應用,促進業務運行質量的提升。
5)統一運維:是指平臺提供各種能夠支撐平臺運維的工具(如健康度分析工具、集成管理工具等)來實現統一運維。
3.3應用槳構
應用架構描述非結構化數據管理平臺的功能邏輯,描述平臺各項功能間的層級關系.是業務架構的技術表現。非結構化數據管理平臺的應用架構如圖2所示。
非結構化數據管理平臺應用架構劃分為4個組成部分,分別是非結構化數據管理平臺服務器(UDS-server)、非結構化數據管理系統(UDS-Administrator)、非結構化數據管理平臺配套工具(UDS-Tools)、非結構化數據管理平臺開發工具包(UDS-SDK)。
1)UDS-Server:是非結構化數據管理服務器。為UDS-Administrator、UDS-SDK、UDS-Tools提供系統級服務.包括提供內容訪問服務、內容傳輸服務、內容處理服務以及內容存儲服務等功能。
2)UDS-Admini3trator:是非結構化數據管理系統,是平臺的后臺管理模塊.主要包括平臺管理、應用管理、運行監控、集成管理與統計報表。
3)UDS-Tools:是非結構化數據管理平臺配套工具,提供數據服務工具.如歷史數據遷移工具。
4)UDS-SDK:是非結構化數據服務開發工具包,提供非結構化數據服務開發工具,目前主要是面向業務系統接入提供開發工具包。主要包括HTTP接口、Web Services接口、嵌入式控件接口、文件異步上傳接口4種方式。
平臺的應用架構設計體現了平臺以提供非結構化數據服務為中心.將人、信息、應用和流程端到端動態整合的一體化基礎信息平臺特征.平臺的四大組件之間是松散耦合的.一個模塊的變化(功能、數據、過程、技術環境等)不會影響到其他模塊變化.確保了系統具有良好的可擴展性。
3.4集成架構
非結構化數據管理平臺的集成對象包括公司內的其他一體化信息平臺以及業務應用系統2個部分.架構設計如圖3所示。
1)與現有一體化平臺的集成,
如可以統一消息平臺、統一權限平臺以及企業門戶。
統一消息平臺集成:在非結構化數據管理平臺中有運行監控模塊.可以捕獲平臺運行的狀態及業務系統接人的信息,通過集成統一消息組件,將信息推送到統一消息平臺進行展示。
統一權限平臺:通過集成統一權限.實現對資源的統一權限的認證。
企業門戶:通過企業門戶可以將平臺特有的信息進行展現。
2)為業務系統接入提供集成。業務系統和平臺的集成包括非結構化數據、結構化數據(公共元數據、業務元數據),業務系統通過請求接口服務實現非結構化數據的統一存儲、統一訪問、數據共享、數據交互等需求。平臺為業務系統接人提供多樣的接入方式.有數據流集成方式(包含HTTP/HTTPS、Web Service、JavaAPI、C#API等)和頁面集成方式(包含嵌入式組件、JS包)。業務系統可根據不同的業務需求,選擇對應的接口方式.調用平臺提供的服務.以滿足業務需求。
3.5技術架構
技術架構是基于功能和技術的需求.描述系統內模塊間的關系以及與其他系統間的相互關系,同時描述平臺開發、部署、運行所需的技術組件.非結構化數據管理平臺技術架構設計如圖4所示。
非結構化數據管理平臺技術架構分層及各層功能說明如下。
1)數據存儲層:對外提供數據存儲服務,實現業務架構設計中統一存儲的目標.該層主要由內容管理組件、分布式文件系統、存儲設備(SAN、NAS等)組成,該層對外提供對外存儲接口,支撐大數據量非結構化數據在平臺的物理存儲。
2)邏輯資源層:用于各業務應用系統在非結構化數據平臺的存儲映射.支撐大數據量非結構化數據在平臺上的邏輯存儲。
3)集成服務層:對外提供非結構化數據全生命周期管理服務.實現業務架構設計中統一標準、統一管理和統一運維的目標.該層主要由統一數據目錄(業務元數據).用戶與權限管理、運行監控、運行策略配置、服務集成框架與服務插件組成。該層還能和企業內的業務流程管理、業務流程監控、企業服務注冊中心、企業服務總線等一體化平臺集成服務層進行整合,對外提供統一服務。
4)業務系統層:業務應用系統既是非結構化數據資源的生產者,又是數據資源和數據服務的消費者。平臺對業務系統提供各種非結構化數據訪問和利用服務集中在該層.該層集中體現平臺對業務應用系統提供的對非結構化數據統一訪問和利用的業務能力。
5)信息展現層:即用戶界面層.主要是用于非結構化數據管理平臺與用戶的交互.并根據用戶發出的平臺請求,展現交互結果。平臺基于B/S多層分布式技術架構開發。在內容管理組件采用Documetum,它是國際領先的內容管理軟件提供商EMC公司的核心產品,性能高,穩定性好。由于整個平臺基于SOA技術開發,提供的多樣化的內容服務接口,可使業務系統通過企業服務總線來使用平臺提供的非結構化數據服務,具有很強的靈活性。
3.6部署架構
為了使非結構化數據管理平臺能夠在大型企業業得以正確部署.能夠充分利用公司現有信息網絡資源.降低實施推廣和運行維護成本.特設計如圖5所示的平臺部署架構。
1)邏輯節點1:用于部署非結構化數據管理平臺的管理界面程序及目錄用戶同步程序,此節點以web應用的形式進行部署。
2)邏輯節點2:用于部署全文搜索服務.主要包含數據抓取、索引管理、數據查詢等服務,此節點以Web的形式進行部署。
3)邏輯節點3:用于部署文件轉換、信息抽取服務,主要是提供各種文檔格式轉換、圖片格式轉換及文件信息抽取等。
4)邏輯節點4:用于部署平臺非結構化數據縱向交換的服務.為業務應用提供網省與總部之間數據的縱向交換、分發、共享等功能,主要以web的形式進行部署。
5)邏輯節點5:用于部署內容管理服務。提供對虛擬對象管理、版本管理、元數據管理等內容管理。
6)邏輯節點6:用于存儲結構化數據的服務器。
7)邏輯節點7:用于部署平臺為業務應用系統提供接人接口的服務器,接口主要以Web Sevice、HTTP/HTTPS、組件等形式,以Web的形式進行部署。
8)邏輯節點8:用于部署實現系統安全控制的服務器。上述各個邏輯部署節點,在并發壓力小的情況下能將以Web服務形式存在的非結構化數據服務歸并到一臺Web應用服務器上。在并發壓力大時,各邏輯節點又可以獨立部署.從而最有效地提升部署平臺所需的各軟硬件資源的利用率。
平臺單點部署分為以下部分(見圖6)。
1)數據庫服務器集群:在Oracle 10g數據庫服務器的RAC平臺上新建非結構化的實例.主要是用于內容服務器的元數據管理及結構化數據管理,數據庫存儲采用SAN存儲。
2)內容管理服務器集群:在Linux平臺上安裝Documentum6.5,主要是內容管理服務及分布式緩存管理,并實現集群,可配置為積極主動(Active-Active)的高可用性模式,內容服務器存儲采用SAN存儲。
3)擴展服務器單機:在Windows2008企業版(32位)上安裝UDS擴展服務所需要的軟件及組件.主要是為應用提供文件轉換、文件信息抽取等服務。
4)應用服務器I/O服務器集群:在Linux平臺上安裝WebLogic9.2,并實現集群,通過硬件負載均衡設備實現負載分擔。在Linux平臺上安裝分布式文件系統服務端,主要用于實現分布式共享SAN存儲,避免存儲的單點故障及提高存儲性能,為保證穩定性,需要進行集群部署。
5)存儲區:采用SAN的存儲結構,既滿足了數據庫存儲的高效性,叉滿足了文件存儲的共享性和擴展性;備份設備使用虛擬磁帶庫和物理磁帶庫結合的方式,實現“磁盤到磁盤到磁帶”方式的二級備份。
4、結語
根據國家電網公司信息化SG—ERP建設規劃.非結構化數據管理平臺與結構化數據中心、海量歷史/準實時數據管理平臺、地理空間數據管理平臺組成國家電網公司企業級數據中心平臺。
圖7~圖9是非結構化數據管理平臺的用戶界面。根據演進路線,2011年國家電網公司建成了企業級非結構化數據管理平臺,制訂了《非結構化數據平臺管理辦法》、《非結構化數據管理平臺業務應用接人規范》等與平臺相配套的管理和規范.設計、驗證了基于各類不同開發平臺(包括SAP、Ariba等)的業務應用系統接入非結構化數據管理平臺技術,完成了試點建設,實現了檔案管理、知識管理、綜合管理等10多個業務系統接人,初步達到集中化管理階段階段建設目標。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:企業級非結構化數據管理平臺研究及實踐