引文分析是中文社會科學引文索引(CSSCI)的重要組成部分。與數(shù)據(jù)錄入這種事務型處理系統(tǒng)不同,引文分析系統(tǒng)是一個典型的分析型處理系統(tǒng)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)理論和方法在處理這一類型的應用時,顯得并不適宜。必須把分析數(shù)據(jù)從錄入系統(tǒng)中提取出來,按照分析處理的需要進行重新組織,建立單獨的分析處理環(huán)境。數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。為此,作者在進行CSSCI分析系統(tǒng)設(shè)計時,引入了數(shù)據(jù)倉庫和聯(lián)機分析處理的概念和技術(shù)。實踐表明,這一新技術(shù)應用在引文分析系統(tǒng)當中是十分適合和高效的。
1 系統(tǒng)體系框架
CSSCI通過人工標引、錄入的方式每年采集500余種中國人文、社科學術(shù)期刊所發(fā)表論文的發(fā)文和引文信息,建設(shè)引文索引數(shù)據(jù)庫,提供引文文獻檢索和分析評價服務。根據(jù)系統(tǒng)功能,可以劃分三個子系統(tǒng):數(shù)據(jù)錄入系統(tǒng)、引文檢索系統(tǒng)和引文分析系統(tǒng)(限于主題,本文不討論引文檢索系統(tǒng))。
數(shù)據(jù)錄入系統(tǒng)和引文分析系統(tǒng)的構(gòu)造必須分離開來,不能混在同一個數(shù)據(jù)環(huán)境中。這是因為:首先,數(shù)據(jù)錄入系統(tǒng)和引文分析系統(tǒng)的性質(zhì)和特點有很大不同:數(shù)據(jù)錄入系統(tǒng)是一個典型的事務型處理系統(tǒng),要求進行頻繁的增刪改等數(shù)據(jù)存取操作,每次操作的數(shù)據(jù)量小、處理時間短,數(shù)據(jù)完整性和參照完整性約束要求高,可以按照傳統(tǒng)數(shù)據(jù)庫系統(tǒng)理論和方法進行構(gòu)造;引文分析系統(tǒng)與數(shù)據(jù)錄入系統(tǒng)不同,它的數(shù)據(jù)很少或者不會更新,每次檢索涉及到大量的數(shù)據(jù)訪問,對于響應時間要求不高。其次,許多綜合度較高的分析無法從數(shù)據(jù)錄入系統(tǒng)的數(shù)據(jù)模式中直接得到相關(guān)的數(shù)據(jù),必須進行專門的數(shù)據(jù)抽取,計算出大量的中間數(shù)據(jù)。如果沒有經(jīng)過系統(tǒng)的規(guī)劃,大量雜亂無章的抽取數(shù)據(jù)勢必形成“蜘蛛網(wǎng)”型結(jié)構(gòu),造成數(shù)據(jù)可信度差、系統(tǒng)效率降低以及數(shù)據(jù)實際無法轉(zhuǎn)換為信息等種種問題。再次,錄入系統(tǒng)和分析系統(tǒng)兩者的系統(tǒng)性能優(yōu)化目標存在著矛盾。例如,分析型處理基于性能的考慮需要建立大量的索引,而這對于錄入系統(tǒng)來說卻會降低系統(tǒng)的效率。最后,分析型需求是無法事先確定的,如果沒有針對性的系統(tǒng)的數(shù)據(jù)組織,則最壞情況下每一種分析都必須編寫專門的程序,獲取分析數(shù)據(jù)的工作將變得復雜化,這使得分析工作實際掌握在程序員而非分析人員的手中。
數(shù)據(jù)倉庫理論的出發(fā)點就在于認識到存在著兩種不同的信息處理系統(tǒng):事務型處理系統(tǒng)和分析型處理系統(tǒng),兩者之間存在著巨大的差異使得事務型處理和分析型處理的分離成為必然,從而提出一整套關(guān)于建設(shè)體系化的數(shù)據(jù)環(huán)境的理論和方法。數(shù)據(jù)倉庫的提出,原意是針對企業(yè)決策支持系統(tǒng)(DSS),然而這并不妨礙它在引文分析系統(tǒng)建設(shè)中的應用。首先,引文分析是一種典型的分析型處理,數(shù)據(jù)倉庫中的多維分析模式在這里也很適用。其次,引文分析所處理的數(shù)據(jù)特點與數(shù)據(jù)倉庫的數(shù)據(jù)特點一致,都是歷史積累性的、綜合的和非更新性的。最后,數(shù)據(jù)倉庫理論的引入,使得CSSCI引文分析系統(tǒng)的框架變得明朗,更具有系統(tǒng)性。當然,數(shù)據(jù)倉庫在引文分析中的應用與一般企業(yè)DSS應用也存在著不同點。比如,由于源數(shù)據(jù)構(gòu)成比較單一,引文分析數(shù)據(jù)倉庫的數(shù)據(jù)集成任務就顯得不是很重要。
按照數(shù)據(jù)倉庫理論將事務型環(huán)境與分析型環(huán)境分開構(gòu)造的思路,設(shè)計CSSCI引文分析系統(tǒng)體系框架如下:在錄入系統(tǒng)和分析系統(tǒng)之間,通過數(shù)據(jù)轉(zhuǎn)換程序?qū)⒃磾?shù)據(jù)取出并轉(zhuǎn)換為目標模式,然后裝入數(shù)據(jù)倉庫;通過OLAP服務從多維數(shù)據(jù)庫析取多維分析數(shù)據(jù);分析人員使用OLAP工具透過OLAP服務訪問多維數(shù)據(jù)庫進行引文分析(見圖1)。
圖1 CSSCI系統(tǒng)體系框架
作者將在下文中分別討論體系中的各重要環(huán)節(jié)。
2 源數(shù)據(jù):面向應用的數(shù)據(jù)組織
CSSCI系統(tǒng)的源數(shù)據(jù)來源比較單一,絕大部分來自于數(shù)據(jù)錄入系統(tǒng)的手工錄入,也有一小部分來自外部數(shù)據(jù),如計算期刊影響因子時,需要采集非收錄刊的發(fā)文數(shù)據(jù)。數(shù)據(jù)錄入系統(tǒng)面臨頻繁的增刪改等數(shù)據(jù)操作,同時要滿足數(shù)據(jù)完整性和商業(yè)規(guī)則等約束條件,是一個典型的事務型處理系統(tǒng)。我們將數(shù)據(jù)組織為五個主要的表:收錄期刊、期刊載文、來源文獻、來源作者和被引文獻。收錄期刊表記錄CSSCI收錄的500種左右期刊的代碼和名稱;期刊載文表記錄每本期刊的記錄、標示號、期刊代碼、卷期和載文量等信息;來源文獻表記錄每本期刊所發(fā)表論文的信息,包括記錄標示號、篇名和關(guān)鍵詞等標引信息;來源作者表記錄來源文獻的作者信息,包括姓名和機構(gòu)等;被引文獻表則記錄了來源文獻所引用的參考文獻的信息(具體結(jié)構(gòu)請參見圖2)。這五個表分別與實際錄入工作流程中的每種期刊、每本期刊、論文、作者和參考文獻一一對應,整個數(shù)據(jù)模式是高度規(guī)范化的,既便于數(shù)據(jù)的增刪改操作,又有利于整個工作流程的管理。
圖2 CSSCI錄入系統(tǒng)數(shù)據(jù)模型的實體-關(guān)系圖
3 面向主題的數(shù)據(jù)組織
錄入系統(tǒng)的數(shù)據(jù)是面向應用(具體來說就是數(shù)據(jù)錄入工作)進行組織的,其抽象程度還不夠高。而分析型系統(tǒng)的數(shù)據(jù)應該是面向主題進行組織的。所謂主題,就是分析領(lǐng)域中所涉及的分析對象的邏輯抽象。面向主題的數(shù)據(jù)組織,“就是在較高層次上對分析對象的數(shù)據(jù)的一個完整、一致的描述、能完整、統(tǒng)一地刻畫各個分析對象所設(shè)計的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系”,根據(jù)這一原則,確定每個主題所應包含的數(shù)據(jù)內(nèi)容。主題的確定,與分析人員所關(guān)心的問題密切相關(guān),而分析人員的興趣無法完全預測,只能通過反復的主題抽取過程逐步求精。每個主題由一組關(guān)系表實現(xiàn),所有這些表通過一個公共碼鍵關(guān)聯(lián)起來。
引文分析領(lǐng)域的分析對象大致有以下幾種:期刊、論文、作者、機構(gòu)、地區(qū)等。所有關(guān)于期刊的信息組織在一起,形成了完備的主題域。其具有獨立性和完備性,是在較高層次上對數(shù)據(jù)的抽象,因而適合于在此數(shù)據(jù)環(huán)境上方便地開發(fā)分析型應用。
4 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)倉庫實施中重要的一環(huán),目的是將數(shù)據(jù)從操作型環(huán)境傳遞到數(shù)據(jù)倉庫中。在傳統(tǒng)的DSS應用中,數(shù)據(jù)轉(zhuǎn)換工作相當復雜。第一,由于數(shù)據(jù)倉庫的建設(shè)是在企業(yè)已有的各類MIS之上進行,而這些MIS往往是獨立開發(fā)的,各系統(tǒng)之間存在著數(shù)據(jù)缺乏集成、運行平臺不統(tǒng)一等問題,所以在數(shù)據(jù)從操作型環(huán)境向數(shù)據(jù)倉庫中轉(zhuǎn)移的過程中要經(jīng)過大量的數(shù)據(jù)清洗、選擇、匯總、集成、轉(zhuǎn)換等處理。第二,企業(yè)決策分析的及時性要求,使得數(shù)據(jù)轉(zhuǎn)換工作相當頻繁,轉(zhuǎn)換的效率問題成為難點。
本引文分析系統(tǒng)與企業(yè)DSS不同,它的源數(shù)據(jù)環(huán)境相對簡單,主要是數(shù)據(jù)錄入系統(tǒng)和少量的外部數(shù)據(jù)。并且由于在數(shù)據(jù)錄入系統(tǒng)的開發(fā)中就考慮到了后期數(shù)據(jù)倉庫建設(shè)的需要,使得數(shù)據(jù)集成的任務大大減少。引文分析的及時性要求相對不高,數(shù)據(jù)轉(zhuǎn)換效率問題的重要性并不突出。
本系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換問題主要集中在數(shù)據(jù)的清洗和元數(shù)據(jù)的管理。引文數(shù)據(jù)的錯誤主要集中在:一、錄入錯誤,二、源刊的印刷錯誤;三、作者原文的錯誤。第一類錯誤可通過人工校對工作加以排除,后兩類錯誤則必須在大量的數(shù)據(jù)積累后,進行自動和人工的比對加以排除,有些可能永遠無法得到糾正。元數(shù)據(jù)在數(shù)據(jù)轉(zhuǎn)換中的作用非常重要,它描述了操作型環(huán)境中的數(shù)據(jù)、數(shù)據(jù)倉庫中的數(shù)據(jù)以及數(shù)據(jù)轉(zhuǎn)換過程中的處理,是數(shù)據(jù)轉(zhuǎn)換處理的依據(jù)。我們在數(shù)據(jù)轉(zhuǎn)換程序的開發(fā)中,采用了面向元數(shù)據(jù)的方式,使程序更加靈活和易于管理。
5 OLAP服務與工具
聯(lián)機分析處理(OLAP)是一門與數(shù)據(jù)倉庫密切相關(guān)的新興的軟件技術(shù),它專門設(shè)計用于支持復雜的分析操作。它的多維數(shù)據(jù)分析模式“是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析,通過對信息(這些信息已經(jīng)從原始的數(shù)據(jù)進行了轉(zhuǎn)換,以反映用戶所能理解的企業(yè)的真實的‘維’)的很多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取”,允許分析人員對數(shù)據(jù)進行深入的觀察。多維數(shù)據(jù)分析模式把數(shù)據(jù)分析工作看作是對一個數(shù)據(jù)立方體的旋轉(zhuǎn)、切片、切塊等一系列操作過程。數(shù)據(jù)立方體由變量和維組成。變量是數(shù)據(jù)的實際意義,也就是人們所關(guān)心的數(shù)值度量指標;維是人們觀察數(shù)據(jù)的某個特定角度。多個維與變量組成一個多維的數(shù)據(jù)結(jié)構(gòu),就是數(shù)據(jù)立方體,而立方體的設(shè)計則成為多維數(shù)據(jù)分析的關(guān)鍵問題。OLAP技術(shù)的性質(zhì)和特點使得它可以成為引文分析的有力工具。在本系統(tǒng)中引入OLAP技術(shù)和工具后,減少了分析程序的數(shù)量,統(tǒng)一了應用邏輯,改善了用戶界面。
OLAP產(chǎn)品是建立在客戶/服務器體系結(jié)構(gòu)上的。OLAP服務器完成數(shù)據(jù)倉庫數(shù)據(jù)到多維數(shù)據(jù)庫的轉(zhuǎn)換、多維數(shù)據(jù)的存貯和數(shù)據(jù)計算引擎等功能。OLAP工具則具有多維數(shù)據(jù)存取和多維視圖表現(xiàn)的能力。分析人員通過OLAP工具與OLAP服務器進行交互,進行多維數(shù)據(jù)分析。在#$%&服務器端的數(shù)據(jù)組織方法有兩種方式:一種是建立專用的多維數(shù)據(jù)庫系統(tǒng)(MOLAP);另一種是仍然利用現(xiàn)有的關(guān)系數(shù)據(jù)庫技術(shù)來模擬多維數(shù)據(jù)(ROLAP)。MOLAP使用二維矩陣的形式組織數(shù)據(jù),而OLAP使用星型模式(Star Schema)或雪花模式(SnowFlake Schema)來組織數(shù)據(jù)。星型模式將多維數(shù)據(jù)結(jié)構(gòu)劃分為兩類表,一類是事實表,用來存儲事實的度量值以及各個維的碼值;另一類是維表,對每一個維來說,至少有一個表用來保存該維的元數(shù)據(jù),即維的描述信息,包括維的層次及成員類別等。事實表通過每一個維的值和維表聯(lián)系在一起,構(gòu)成星型模式。圖3所示的是本系統(tǒng)中機構(gòu)發(fā)文貢獻數(shù)據(jù)立方體所對應的星型存儲模式。
圖3 發(fā)文貢獻星型模式
現(xiàn)在市場中有許多OLAP服務和工具軟件,INFORMIX、Oracle、Svbase、Microsoft以及IBM等數(shù)據(jù)庫管理系統(tǒng)供應商都有自己的OLAP解決方案。產(chǎn)品的選擇主要應該考慮性能價格比、二次開發(fā)能力以及與現(xiàn)有系統(tǒng)的配合度。由于本系統(tǒng)使用了SQL Server作為數(shù)據(jù)庫管理系統(tǒng),基于易用性和經(jīng)濟性的考慮,我們采用了微軟公司的SQL Server 7.0 OLAP解決方案。它主要包括以下組成部分:OLAP服務器、數(shù)據(jù)透視表服務、數(shù)據(jù)轉(zhuǎn)換服務、多維數(shù)據(jù)庫、Excei 2000等。它的一大優(yōu)點就是與操作系統(tǒng)以及其他的工具結(jié)合較好,很多部件直接集成在Windows系統(tǒng)中,節(jié)省了用戶的投資。同時還提供了多維擴展(MDX)語言作為SQL語言的擴展,用于分析工具的二次開發(fā)。
6 引文聯(lián)機分析實例
為了具體說明本引文分析系統(tǒng)的實施和效果,現(xiàn)以1998年度CSSCI系統(tǒng)數(shù)據(jù)為基礎(chǔ),介紹本系統(tǒng)中OLAP的應用(文中的數(shù)據(jù)表均來自于系統(tǒng)自動生成的Excel表格)。以分析機構(gòu)對發(fā)表論文的貢獻系數(shù)為例:一篇論文可能有多個作者,每個作者的所在機構(gòu)由于作者排名不同對這篇論文做出了大小不一的貢獻。按照論文中作者排名順序,給機構(gòu)賦予一定的貢獻系數(shù),這個系數(shù)就反映了此機構(gòu)對該論文的貢獻程度。把貢獻系數(shù)當作變量,機構(gòu)、機構(gòu)類別、論文學科、論文類型和發(fā)表期刊當作維,就構(gòu)成了一個分析機構(gòu)發(fā)文貢獻的數(shù)據(jù)立方體。通過對這個立方體的旋轉(zhuǎn)、切片、切塊等操作,我們可以得到各種有意義的分析數(shù)據(jù)。
7 結(jié) 語
中文社會科學引文索引系統(tǒng)的建設(shè),其核心就是引文數(shù)據(jù)倉庫的建設(shè)。在引文分析系統(tǒng)的設(shè)計和實施過程中,我們借鑒了數(shù)據(jù)倉庫和聯(lián)機分析處理的理論和技術(shù),取得了很好的效果。一方面,數(shù)據(jù)倉庫關(guān)于構(gòu)建體系化數(shù)據(jù)環(huán)境的理論對于CSSCI系統(tǒng)歷史積累數(shù)據(jù)的有效組織存儲提供了指導,另一方面,多維數(shù)據(jù)分析模型技術(shù)減輕了開發(fā)人員的編程工作量,同時也使得人機界面更加友好,能夠滿足不同用戶的各種分析需求。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領(lǐng)域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.guhuozai8.cn/
本文標題:基于數(shù)據(jù)倉庫的引文分析系統(tǒng)研究
本文網(wǎng)址:http://m.guhuozai8.cn/html/consultation/1082055250.html