引文分析是中文社會科學引文索引(CSSCI)的重要組成部分。與數據錄入這種事務型處理系統不同,引文分析系統是一個典型的分析型處理系統。傳統的關系數據庫系統理論和方法在處理這一類型的應用時,顯得并不適宜。必須把分析數據從錄入系統中提取出來,按照分析處理的需要進行重新組織,建立單獨的分析處理環境。數據倉庫正是為了構建這種新的分析處理環境而出現的一種數據存儲和組織技術。為此,作者在進行CSSCI分析系統設計時,引入了數據倉庫和聯機分析處理的概念和技術。實踐表明,這一新技術應用在引文分析系統當中是十分適合和高效的。
1 系統體系框架
CSSCI通過人工標引、錄入的方式每年采集500余種中國人文、社科學術期刊所發表論文的發文和引文信息,建設引文索引數據庫,提供引文文獻檢索和分析評價服務。根據系統功能,可以劃分三個子系統:數據錄入系統、引文檢索系統和引文分析系統(限于主題,本文不討論引文檢索系統)。
數據錄入系統和引文分析系統的構造必須分離開來,不能混在同一個數據環境中。這是因為:首先,數據錄入系統和引文分析系統的性質和特點有很大不同:數據錄入系統是一個典型的事務型處理系統,要求進行頻繁的增刪改等數據存取操作,每次操作的數據量小、處理時間短,數據完整性和參照完整性約束要求高,可以按照傳統數據庫系統理論和方法進行構造;引文分析系統與數據錄入系統不同,它的數據很少或者不會更新,每次檢索涉及到大量的數據訪問,對于響應時間要求不高。其次,許多綜合度較高的分析無法從數據錄入系統的數據模式中直接得到相關的數據,必須進行專門的數據抽取,計算出大量的中間數據。如果沒有經過系統的規劃,大量雜亂無章的抽取數據勢必形成“蜘蛛網”型結構,造成數據可信度差、系統效率降低以及數據實際無法轉換為信息等種種問題。再次,錄入系統和分析系統兩者的系統性能優化目標存在著矛盾。例如,分析型處理基于性能的考慮需要建立大量的索引,而這對于錄入系統來說卻會降低系統的效率。最后,分析型需求是無法事先確定的,如果沒有針對性的系統的數據組織,則最壞情況下每一種分析都必須編寫專門的程序,獲取分析數據的工作將變得復雜化,這使得分析工作實際掌握在程序員而非分析人員的手中。
數據倉庫理論的出發點就在于認識到存在著兩種不同的信息處理系統:事務型處理系統和分析型處理系統,兩者之間存在著巨大的差異使得事務型處理和分析型處理的分離成為必然,從而提出一整套關于建設體系化的數據環境的理論和方法。數據倉庫的提出,原意是針對企業決策支持系統(DSS),然而這并不妨礙它在引文分析系統建設中的應用。首先,引文分析是一種典型的分析型處理,數據倉庫中的多維分析模式在這里也很適用。其次,引文分析所處理的數據特點與數據倉庫的數據特點一致,都是歷史積累性的、綜合的和非更新性的。最后,數據倉庫理論的引入,使得CSSCI引文分析系統的框架變得明朗,更具有系統性。當然,數據倉庫在引文分析中的應用與一般企業DSS應用也存在著不同點。比如,由于源數據構成比較單一,引文分析數據倉庫的數據集成任務就顯得不是很重要。
按照數據倉庫理論將事務型環境與分析型環境分開構造的思路,設計CSSCI引文分析系統體系框架如下:在錄入系統和分析系統之間,通過數據轉換程序將源數據取出并轉換為目標模式,然后裝入數據倉庫;通過OLAP服務從多維數據庫析取多維分析數據;分析人員使用OLAP工具透過OLAP服務訪問多維數據庫進行引文分析(見圖1)。
圖1 CSSCI系統體系框架
作者將在下文中分別討論體系中的各重要環節。
2 源數據:面向應用的數據組織
CSSCI系統的源數據來源比較單一,絕大部分來自于數據錄入系統的手工錄入,也有一小部分來自外部數據,如計算期刊影響因子時,需要采集非收錄刊的發文數據。數據錄入系統面臨頻繁的增刪改等數據操作,同時要滿足數據完整性和商業規則等約束條件,是一個典型的事務型處理系統。我們將數據組織為五個主要的表:收錄期刊、期刊載文、來源文獻、來源作者和被引文獻。收錄期刊表記錄CSSCI收錄的500種左右期刊的代碼和名稱;期刊載文表記錄每本期刊的記錄、標示號、期刊代碼、卷期和載文量等信息;來源文獻表記錄每本期刊所發表論文的信息,包括記錄標示號、篇名和關鍵詞等標引信息;來源作者表記錄來源文獻的作者信息,包括姓名和機構等;被引文獻表則記錄了來源文獻所引用的參考文獻的信息(具體結構請參見圖2)。這五個表分別與實際錄入工作流程中的每種期刊、每本期刊、論文、作者和參考文獻一一對應,整個數據模式是高度規范化的,既便于數據的增刪改操作,又有利于整個工作流程的管理。
圖2 CSSCI錄入系統數據模型的實體-關系圖
3 面向主題的數據組織
錄入系統的數據是面向應用(具體來說就是數據錄入工作)進行組織的,其抽象程度還不夠高。而分析型系統的數據應該是面向主題進行組織的。所謂主題,就是分析領域中所涉及的分析對象的邏輯抽象。面向主題的數據組織,“就是在較高層次上對分析對象的數據的一個完整、一致的描述、能完整、統一地刻畫各個分析對象所設計的各項數據,以及數據之間的聯系”,根據這一原則,確定每個主題所應包含的數據內容。主題的確定,與分析人員所關心的問題密切相關,而分析人員的興趣無法完全預測,只能通過反復的主題抽取過程逐步求精。每個主題由一組關系表實現,所有這些表通過一個公共碼鍵關聯起來。
引文分析領域的分析對象大致有以下幾種:期刊、論文、作者、機構、地區等。所有關于期刊的信息組織在一起,形成了完備的主題域。其具有獨立性和完備性,是在較高層次上對數據的抽象,因而適合于在此數據環境上方便地開發分析型應用。
4 數據轉換
數據轉換是數據倉庫實施中重要的一環,目的是將數據從操作型環境傳遞到數據倉庫中。在傳統的DSS應用中,數據轉換工作相當復雜。第一,由于數據倉庫的建設是在企業已有的各類MIS之上進行,而這些MIS往往是獨立開發的,各系統之間存在著數據缺乏集成、運行平臺不統一等問題,所以在數據從操作型環境向數據倉庫中轉移的過程中要經過大量的數據清洗、選擇、匯總、集成、轉換等處理。第二,企業決策分析的及時性要求,使得數據轉換工作相當頻繁,轉換的效率問題成為難點。
本引文分析系統與企業DSS不同,它的源數據環境相對簡單,主要是數據錄入系統和少量的外部數據。并且由于在數據錄入系統的開發中就考慮到了后期數據倉庫建設的需要,使得數據集成的任務大大減少。引文分析的及時性要求相對不高,數據轉換效率問題的重要性并不突出。
本系統的數據轉換問題主要集中在數據的清洗和元數據的管理。引文數據的錯誤主要集中在:一、錄入錯誤,二、源刊的印刷錯誤;三、作者原文的錯誤。第一類錯誤可通過人工校對工作加以排除,后兩類錯誤則必須在大量的數據積累后,進行自動和人工的比對加以排除,有些可能永遠無法得到糾正。元數據在數據轉換中的作用非常重要,它描述了操作型環境中的數據、數據倉庫中的數據以及數據轉換過程中的處理,是數據轉換處理的依據。我們在數據轉換程序的開發中,采用了面向元數據的方式,使程序更加靈活和易于管理。
5 OLAP服務與工具
聯機分析處理(OLAP)是一門與數據倉庫密切相關的新興的軟件技術,它專門設計用于支持復雜的分析操作。它的多維數據分析模式“是針對特定問題的聯機數據訪問和分析,通過對信息(這些信息已經從原始的數據進行了轉換,以反映用戶所能理解的企業的真實的‘維’)的很多種可能的觀察形式進行快速、穩定一致和交互性的存取”,允許分析人員對數據進行深入的觀察。多維數據分析模式把數據分析工作看作是對一個數據立方體的旋轉、切片、切塊等一系列操作過程。數據立方體由變量和維組成。變量是數據的實際意義,也就是人們所關心的數值度量指標;維是人們觀察數據的某個特定角度。多個維與變量組成一個多維的數據結構,就是數據立方體,而立方體的設計則成為多維數據分析的關鍵問題。OLAP技術的性質和特點使得它可以成為引文分析的有力工具。在本系統中引入OLAP技術和工具后,減少了分析程序的數量,統一了應用邏輯,改善了用戶界面。
OLAP產品是建立在客戶/服務器體系結構上的。OLAP服務器完成數據倉庫數據到多維數據庫的轉換、多維數據的存貯和數據計算引擎等功能。OLAP工具則具有多維數據存取和多維視圖表現的能力。分析人員通過OLAP工具與OLAP服務器進行交互,進行多維數據分析。在#$%&服務器端的數據組織方法有兩種方式:一種是建立專用的多維數據庫系統(MOLAP);另一種是仍然利用現有的關系數據庫技術來模擬多維數據(ROLAP)。MOLAP使用二維矩陣的形式組織數據,而OLAP使用星型模式(Star Schema)或雪花模式(SnowFlake Schema)來組織數據。星型模式將多維數據結構劃分為兩類表,一類是事實表,用來存儲事實的度量值以及各個維的碼值;另一類是維表,對每一個維來說,至少有一個表用來保存該維的元數據,即維的描述信息,包括維的層次及成員類別等。事實表通過每一個維的值和維表聯系在一起,構成星型模式。圖3所示的是本系統中機構發文貢獻數據立方體所對應的星型存儲模式。
圖3 發文貢獻星型模式
現在市場中有許多OLAP服務和工具軟件,INFORMIX、Oracle、Svbase、Microsoft以及IBM等數據庫管理系統供應商都有自己的OLAP解決方案。產品的選擇主要應該考慮性能價格比、二次開發能力以及與現有系統的配合度。由于本系統使用了SQL Server作為數據庫管理系統,基于易用性和經濟性的考慮,我們采用了微軟公司的SQL Server 7.0 OLAP解決方案。它主要包括以下組成部分:OLAP服務器、數據透視表服務、數據轉換服務、多維數據庫、Excei 2000等。它的一大優點就是與操作系統以及其他的工具結合較好,很多部件直接集成在Windows系統中,節省了用戶的投資。同時還提供了多維擴展(MDX)語言作為SQL語言的擴展,用于分析工具的二次開發。
6 引文聯機分析實例
為了具體說明本引文分析系統的實施和效果,現以1998年度CSSCI系統數據為基礎,介紹本系統中OLAP的應用(文中的數據表均來自于系統自動生成的Excel表格)。以分析機構對發表論文的貢獻系數為例:一篇論文可能有多個作者,每個作者的所在機構由于作者排名不同對這篇論文做出了大小不一的貢獻。按照論文中作者排名順序,給機構賦予一定的貢獻系數,這個系數就反映了此機構對該論文的貢獻程度。把貢獻系數當作變量,機構、機構類別、論文學科、論文類型和發表期刊當作維,就構成了一個分析機構發文貢獻的數據立方體。通過對這個立方體的旋轉、切片、切塊等操作,我們可以得到各種有意義的分析數據。
7 結 語
中文社會科學引文索引系統的建設,其核心就是引文數據倉庫的建設。在引文分析系統的設計和實施過程中,我們借鑒了數據倉庫和聯機分析處理的理論和技術,取得了很好的效果。一方面,數據倉庫關于構建體系化數據環境的理論對于CSSCI系統歷史積累數據的有效組織存儲提供了指導,另一方面,多維數據分析模型技術減輕了開發人員的編程工作量,同時也使得人機界面更加友好,能夠滿足不同用戶的各種分析需求。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.guhuozai8.cn/
本文標題:基于數據倉庫的引文分析系統研究
本文網址:http://www.guhuozai8.cn/html/consultation/1082055250.html