數據倉庫技術是近年來出現的、發展迅速的一種技術, 它通過把企業大量的歷史數據整理集中到一個中央倉庫中, 將數據加以分析并呈現給用戶來支持管理者的決策。數據倉庫是一個整合式的、面向主題的、歷史性的以及只讀性的數據集合,其主要目的是提供給企業管理者作為管理決策的參考依據。數據挖掘技術作為基于機器學習、模式識別、統計學等領域而發展起來的從數據中獲取知識的技術也越來越得到人們的青睞。數據倉庫使得人們只花很短的時間就能夠從大量的歷史數據中查詢出所需的數據, 而數據挖掘則可以從這些數據中發現和預測出有價值的信息, 數據倉庫技術使我們從全新的視角認識了數據的價值。然而, 從目前的情況看, 在中國數據倉庫推廣還處于起步階段, 其應用所取得的成績遠不如商家們“炒作”得那么輝煌, 仍然存在許多不成熟因素, 如計算機應用水平較低、數據保存和管理不完善、人才缺乏、沒有真正適合行業特點的應用技術等 。但不管怎么說, 數據倉庫的應用對于中國企業未來加入國際競爭有著不可替代的作用。
1 數據倉庫與數據挖掘
數據倉庫是一個面向主題的( Sub ject O riented)、集成的( In teg ra te)、相對穩定的( Non-Vo latile) 、反映歷史變化( Time Variant) 的數據集合, 用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解: ①數據倉庫用于支持決策,面向分析型數據處理, 它不同于企業現有的操作型數據庫; ②數據倉庫是對多個異構數據源的有效集成, 集成后按照主題進行了重組, 并包含歷史數據, 而且存放在數據倉庫中的數據一般不再修改。企業數據倉庫的建設是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念, 只有把信息及時交給需要這些信息的使用者, 供他們作出改善其業務經營的決策, 信息才能發揮作用, 信息才有意義。而把信息加以整理、歸納和重組, 并及時提供給相應的管理決策人員是數據倉庫的根本任務。
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。原始數據可以是結構化的, 如關系型數據庫中的數據, 也可以是半結構化的, 如文本、圖形、圖像數據, 甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的, 也可以是非數學的; 可以是演繹的, 也可以是歸納的。發現了的知識可以被用于信息管理、查詢優化、決策支持、過程控制等, 還可以用于數據自身的維護。因此, 數據挖掘是一門廣義的交叉學科, 它匯聚了不同領域的研究者, 尤其是數據庫、人工智能、數理統計、可視化、并行計算等方面的學者和工程技術人員。
特別要指出的是, 數據挖掘技術從一開始就是面向應用的。例如加拿大BC 省電話公司要求加拿大Sim on Fraser大學KDD研究組, 根據其擁有十多年的客戶數據, 總結、分析并提出新的電話收費和管理辦法, 制定既有利于公司又有利于客戶的優惠政策。這樣一來, 就把人們對數據的應用從低層次的末端查詢操作提高到為各級經營決策者提供決策支持。
2 構建數據倉庫的基本方法
2.1 數據倉庫的體系結構
數據倉庫從多個信息源中獲取原始數據, 經過整理加工后存儲在數據倉庫的內部數據庫。通過數據倉庫訪問工具, 向數據倉庫的用戶提供統一、協調和集成的信息環境, 支持企業全局決策過程和對企業經營管理的深入綜合分析。整個數據倉庫系統是一個包含四個層次的體系結構, 如圖1所示。
(1)數據源是數據倉庫系統的基礎, 是整個系統的數據源泉, 通常包括企業內部信息和外部信息。
(2)數據的存儲與管理是整個數據倉庫系統的核心。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
(3) OLAP( On-L ine Analytical Process ing )服務器對分析需要的數據進行有效集成, 按多維模型予以組織, 以便進行多角度、多層次的分析, 并發現趨勢。
(4)前端工具主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及各種基于數據倉庫或數據集市的應用開發工具。
2.2 構建數據倉庫的方法
目前有兩種構建數據倉庫的方法: 自頂向下和自底向上。自頂向下開發企業數據倉庫是從總體上把握整個數據倉庫的規模、粒度的級別和元數據管理, 是一種系統的解決方法, 并能
夠最大限度地減少集成問題。然而, 它費用高, 需要長時間開發, 并且缺乏靈活性, 因為整個組織的共同數據模型達到一致是很困難的。自底向上設計、開發、部署獨立的數據集市提供了靈活性, 花費低, 并能夠得到快速的投資回報。但存在的問題是將分散的數據集市集成, 形成一個一致的企業數據倉庫并不容易。構建數據倉庫的流程如下:
(1)啟動工程。建立開發數據倉庫工程的目標及制定工程計劃, 建立技術環境, 選擇實現數據倉庫的軟硬件資源, 包括開發平臺、DBMS、開發工具、終端訪問工具。
(2)設計主題進行數據建模。根據決策需要確定主題, 選擇數據源, 對數據倉庫的數據進行邏輯結構設計。
(3)設計數據倉庫中的數據庫。基于用戶的需求, 著重于某個主題, 開發數據倉庫中的數據的物理存儲結構, 即設計多維數據結構的事實表和維表。
(4)轉換程序。實現從源系統中抽取數據、清理數據、一致性格式化數據、綜合數據、裝載數據等過程的設計和編碼。
(5)管理元數據。定義元數據, 即表示、定義數據的意義及系統各組成部分之間的關系。元數據包括關鍵字、屬性、數據描述、物理數據結構、源數據結構、映射及轉換機制、綜合算法、代碼、安全要求等。
(6)開發用戶決策的數據分析工具。建立結構化的決策支持查詢, 實現和使用數據倉庫的數據分析工具, 包括優化查詢工具、C /S工具、OLAP工具及數據挖掘工具等, 通過分析工具實現決策支持要求。
(7)管理數據倉庫環境。數據倉庫必須像其他系統一樣進行管理, 包括質量檢測, 管理決策支持工具及應用程序, 定期進行數據更新, 使數據倉庫能正常運行。
2.3 數據模式
最流行的數據倉庫數據模型是多維數據模型, 這種模型可以以星型模式( Star Schema)、雪花模式( Snow flake Schema)或事實星座模式形式存在。
星型模式是目前普遍使用的實現數據倉庫的設計結構。它通過使用一個包含主題的事實表和多個包含事實的非正規化描述的維度表來執行典型的決策支持查詢。星型模式是一種關系型數據庫結構, 模式的中間是事實表, 周圍是維度表, 數據在事實表中維護, 維度數據在維度表中維護。每個維度表通過一個關鍵字(在某些情況下是主鍵)與事實表關聯。
圖2.星型模式與雪花模式
雪花模式是星型模式的一種擴展模式。從圖2可以看出,它與星型模式的不同在于維度表。在雪花模式中, 維度表被分解成與事實表直接關聯的主維度表和與主維度表關聯的次維度表, 次維度表與事實表間接關聯。這種模式用大量的冗余維度數據進行設計, 通過減少讀磁盤的數量來提高查詢性能。
3 數據挖掘實例
數據挖掘客戶端工具采用Visual Basic 6. 0, 后臺數據庫是MS SQL Server, 利用SQL Server中的Analysis Services進行數據挖掘。本實例根據電信手機銷售記錄中的顧客信息, 利用決策樹算法建立模型對顧客的信譽度進行分類, 這樣可以對新顧客的信譽度進行預測, 在以后的繳費等服務中就可以根據顧客的信譽度提供相關的支持。實例使用了銷售表、顧客表、手機信息表、時間表、員工信息表、服務信息表等, 數據模式為星型模式。建立多維數據集Sales, 選擇銷售表為事實表, 建立時間、產品、顧客維度, 并為顧客維度設置成員屬性, 如圖3所示。
系統實現過程如下:
首先從包含數據源的業務數據中進行數據抽取, 對數據進行數據一致性的協調、格式化處理及必要的轉換, 然后將數據加載進數據倉庫。在ODBC 數據源管理器中設置和源數據的連接, 連接數據源命名為phone。在Ana lysisM anage r中新建數據庫, 取名為手機, 右擊“手機數據庫”選擇新數據源為其建立連接, 選擇“phone”。
在OLAP挖掘模型編輯器中, 可以使用編輯器編輯模型屬性或者瀏覽其結果。決策樹顯示于右窗格中, 其中包括四個窗格。中間的“ 內容詳情”窗格顯示焦點所在的)決策樹部分;“內容選擇區”窗格顯示樹的完整視圖, 該窗格可以將焦點設置到樹的其他部分; 其他的兩個窗格分別是“特性”窗格(特性信息可以用“合計”選項卡以數值方式查看或者用“直方圖”選項卡以圖形方式查看) 和與焦點所在節點相關聯的“節點路徑”區域。
樹的級別由顧客的收入決定, 根據決策樹算法的特點可知, 顧客收入是決定其信譽度的最重要屬性。顏色代表“事例”的密度, 顏色越深的節點中包含的事例就越多。由特性窗體的記錄可以看出信譽度“一般”與“好”的事例數及其可能性。在右下角的“ 樹顏色基于”字段中選擇“ 好”, 該樹將顯示另一種顏色模式。可以看出顧客收入大于1 500 元的節點的密度遠遠高于0 ~ 1 500 元的節點。可見在信譽度好的事例中, 收入大于1 500元的顧客遠多于0~ 1 500元的。
4 結束語
目前, 數據倉庫和數據挖掘已成為一個炙手可熱的行業。僅在美國就有數百家公司從事數據挖掘相關產品的研發; 在歐美數據挖掘技術已廣泛用在銀行、金融服務、電信和零售批發部門; 但從目前國內情況看, 數據倉庫推廣還處于起步階段, 其應用仍然存在許多不成熟因素。由于數據挖掘是一種具有廣泛應用的多學科交叉技術, 數據挖掘的一般性原理與針對特定領域需要的有效數據挖掘工具之間還存在不小的距離, 給數據挖掘提出了許多挑戰性的課題, 如生物、醫學等特定應用領域的探索;W eb挖掘將成為數據挖掘中一個最為重要和繁榮的子領域; 可伸縮的數據挖掘方法; 數據倉庫系統和W eb 數據庫系統的集成; 數據挖掘語言的標準化; 可視化數據挖掘; 數據挖掘中的隱私保護與信息安全等, 都是值得我們進一步研究的課題。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:數據倉庫與數據挖掘技術的研究與應用
本文網址:http://m.guhuozai8.cn/html/consultation/10819916312.html