1、數據挖掘的定義及研究內容
數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘知識的過程。對數據挖掘與知識發現的一個比較公認的定義是:從數據庫、數據倉庫或其他信息庫中的大量數據中識別和提取出潛在的、可信的、新穎的、有效的并能被人理解的關系、規則、特征的非平凡的過程。數據挖掘技術是數據庫技術和人工智能技術相結合的產物,解決了在信息技術發展中存在擁有大量數據但缺乏有用信息的問題,完成從業務數據到決策信息的轉換。數據的多樣化要求數據挖掘也應能對各種各樣的數據進行挖掘。數據挖掘中的原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形、圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。
2、數據挖掘的過程
數據挖掘是一個處于發展中的技術框架,已部分投入實際生產實踐。隨著信息化應用的普及,市局信通存儲的信息量會愈發龐大。當前社會,如何有效進行信息搜索,獲取需要信息,已經成為越來越多行業和從業人員謀求發展的重要途徑。數據挖掘的核心在于從數據庫中搜索那些未知的、價值量大、結構復雜的信息。在此過程中,數據的整理就顯得尤為重要,如何進行數據挖掘,搜索有效信息,主要包括以下幾個步驟。
2.1 數據準備
一般地,在數據挖掘的過程中,首先要做的就是數據的整合,因為在現實生活中,完整無誤的數據極其少見,必須進行相應處理,去偽存真,提高信息的準確度。通常情況下,數據準備一般包括以下幾點:(1)數據清理:現實中的數據一般是不完整、不一致的,數據清理就是要消除那些錯誤數據,進行數據的識別。(2)數據集成:將多數據源中的數據進行合并處理,解決語義模糊性并整合成一致的數據,然后存放在一個統一的數據存儲中。(3)數據選擇及變換:數據選擇是在對發現任務各數據本身內容理解的基礎上,盡可能保持數據原貌,最大限度地精簡數據量。同時縮小處理范圍,進一步約簡數據。
2.2 構建模型
模型構建是數據挖掘的核心,在構建之前必須理解數據挖掘項目的目的和數據挖掘任務的類型。確定任務之后,再決定使用什么樣的挖掘算法。
2.3 模式評估
數據挖掘得到的模式有可能是沒有實際意義的,因此要對數據挖掘結果進行評估,確定挖掘結果是否正確。
2.4 知識表達
使用可視化和知識表示技術,對提取的信息進行分析,把最有價值的信息區分出來,提交給決策者,向用戶提供挖掘的知識。
3、數據挖掘方法
3.1 關聯規則
關聯規則是由R.Agrawal等人在1993年提出的概念,旨在尋找在同一事物中出現的不同項的相關性。在數據挖掘研究領域,對關聯規則的研究開展得比較深入,它是數據挖掘研究中的一個重要分支,也是最活躍的一個分支之一。從大型數據庫中挖掘出關聯規則問題己成為數據挖掘中最成熟、最重要、最活躍的研究內容之一。關聯規則形如這樣的規則:“在購買計算機的顧客中,有30%同時購買了打印機”。簡潔、易于理解的形式和有效捕捉數據間的重要關系,是使得關聯規則成為眾多數據挖掘方法中的經典的一個重要因素。
3.2 決策樹
決策樹是數據挖掘分類算法的一個重要方法,用二叉樹形圖來表示處理邏輯,以直觀、清晰地表達加工的邏輯要求,別適合于判斷因素比較少、邏輯組合關系不復雜的情況。決策樹,在發生概率的基礎上,評價項目風險,判斷其可行性。決策樹是一個預測模型;它代表的是對象屬性與對象值之間的一種映射關系。決策樹是一個類似于流程圖的樹結構,其中每個內部節點表示一個在屬性上的測試,決策樹中最上面的節點稱為根節點,是整個決策樹的開始。決策樹的每個節點子節點的個數與決策樹的算法有關。在沿著決策樹從上到下遍歷的過程中,每個節點都會遇到一個問題,對每個節點上問題的不同回答導致不同的分支,最后會到達一個葉子節點。
3.3 聚類分析
聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為,它在數據相似的基礎上統一進行數據整理匯總,然后分類。聚類分析的應用十分廣泛,不僅在數學和計算機領域使用,還在統計學和經濟學等學科上發揮著巨大作用。將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程稱為聚。聚類與分類的不同之處在于:聚類是根據一定的聚類規則,將具有某種相同特征的數據聚在一起,也稱之為無監督學習,聚類分析時數據集合的特征是未知的;而分類是有監督的學習,在分類之前,用戶就知道數據可分為幾類,將要處理的數據按照分類標準分入不同的類別。
4、數據挖掘的應用
4.1 在科學研究中應用
隨著先進的科學數據收集工具的使用,數據挖掘在觀測衛星、遙感器、DNA分析等方面發揮了更要的作用。如在生物學方面,數據挖掘中的數據清理和數據集成方法有助于基因數據集成和用于基因數據分析的數據倉庫的構造;數據挖掘中的關聯分析方法可用于幫助確定在目標樣本中同時出現的基因種類,有助于發現基因組和對基因間的交叉于聯系的研究;基因數據庫搜索技術己在基因研究上取得了很多重大發現。
4.2 在商業上的應用
在商業領域,零售業是數據挖掘的主要應用領域。零售業每天的銷售積累了大量的銷售數據,特別是現在,許多商店都有自己的Web站點,顧客可以方便地在線購買商品,零售數據不斷激增,為數據挖掘提供了豐富的資源。零售數據挖掘可有助于識別顧客的購買行為,發現顧客購買模式和趨勢,改變服務質量,從而取得更好的顧客保持力,提高銷售競爭力。
4.3 在金融上的應用
一般地,在銀行和一些金融機構中,數據保密是其工作的重點環節,然而在實際生活中,由于金融行業的職業特點,他們在進行金融活動時產生的一些相關數據大都完整準確,可信度高。這一方面為金融工作的順利進行創造了良好條件,另一方面,這些數據分析和挖掘難度低,可操作性強也容易給不法分子以可乘之機,產生金融風險。在這種情況下,數據挖掘可以預測金融風險、了解客戶狀況、防止黑客攻擊等。
5、結束語
數據挖掘是搜索隱藏信息,獲取情報的過程,它的應用性強、涉及面廣、科學要求程度高。在現階段,數據挖掘主要運用在計算機數據處理上,依靠數據挖掘可實現信息采集處理和分析,具有極強的時代意義。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:數據挖掘應用性的研究
本文網址:http://m.guhuozai8.cn/html/consultation/10839314459.html