1.問題的提出
每種設備在試驗過程都會產生并積累大量的原始數據、過程數據、結果數據、分析數據、報告數據等。另外對于復雜的設備試驗通常具有結構復雜、測量參數多、測量設備種類繁雜、試驗資源分散、試驗流程復雜、時間跨度大及試驗數據共享困難等特點,因此其數據管理、分析與利用就較困難。根據試驗設備的類型不同,其試驗數據的文件類型和數據格式也不盡相同,例如數據格式有數字、模擬、音頻和視頻等,文件類型包括文本文件、格式文件、壓縮文件、非壓縮文件等,試驗人員往往以手動的形式對數據進行分類、篩選和整理,由于這種手工操作可能引起數據的丟失或對進行數據篩選過程中出現錯誤,造成了寶貴的試驗數據的丟失。試驗數據的存儲目前多數采用磁盤存儲,或建立數據管理系統將數據存儲到數據庫中,如何有效的利用這些數據,從紛雜的數據中提取出有用的信息,數據挖掘技術能解決這些問題。
2 數據挖掘技術
數據挖掘技術是多學科交叉的新興技術,隨著數據的大量積累以及市場競爭對信息與知識的迫切需求,數據挖掘技術迅速發展,逐漸成為人們關注的焦點。目前主流的數據挖掘方法有CRISPDM、SEMMA和IBM等,常用的數據挖掘工具有SQL Server 2005 Data Mining、SPSS/Clementine等。
數據挖掘技術實現數據采集、數據清洗、規則歸納、模式識別、數據/結果分析及評估、可視化輸出全過程,可分成業務理解、數據理解、數據準備、建模和模型評估幾個步驟。數據挖掘流程如圖1所示。整個數據挖掘過程可形成閉環結構,在數據挖掘過程也是一個不斷迭代的過程,直至滿足業務需求為止。
圖1.數據挖掘流程
業務理解是初始階段,主要集中在對任務目標的理解,以及從、業務角度對客戶需求的理解,并將這些理解轉化為一種數據挖掘的定義和為了達到目標的初步方案。
數據理解階段包括收集數據,熟悉數據和檢測數據的質量,對數據有初步的理解,探測數據中比較有用的數據子集,形成對潛在信息的各種假設。
數據準備階段包括從原始復雜粗糙的數據中構建最終數據集的所有工作,包括數據制表、記錄、數據變量的選擇和轉換,以及為適應建模工具而進行的數據清理等,該階段可能進行多次。建模是指通過建模校準參數,建模方法有多種且建模方法對數據格式有具體的要求。
模型評估是對構建的多個模型進行評估,確定是否達到了任務的目標,建模過程中是否充分的注意和考慮了重要的問題。這一階段結束后,數據挖掘結果基本滿足任務要求。
模型發布是將數據信息以一種用戶能夠使用的方式組織和呈現。根據需求的不同,模型發布可以為一份報告或復雜的統計分析數據等。數據挖掘過程中一個重要的組成部分是算法,目前數據挖掘的算法相對比較成熟,所不同的是算法的實現和對性能的優化,根據實際問題選擇優化的算法是非常重要的。常用的算法有:決策樹算法、神經網絡算法、基因算法、貝葉斯網絡方法、支持向量機等。
3 試驗數據挖掘分析
試驗數據挖掘包括數據準備、數據知識和信息挖掘兩個階段。
3.1 數據準備
首先選擇數據。收集原始的試驗數據,將大量的試驗數據按照類型分類、匯總,并將數據存儲在數據庫或數據倉庫中,并從中選擇出適用于數據挖掘應用的數據。
其次預處理數據。研究試驗原始數據的質量,去掉不合適的數據或數據類型,為進一步進行的數據分析、數據挖掘作準備。最后數據的轉換。將準備好的試驗數據按照數據挖掘模型進行轉換,使其轉換成一個數據分析模型。
3.2 試驗數據的知識和信息的挖掘
作為數據挖掘技術的核心,知識與信息的挖掘是非常重要的,主要由以下幾部分構成:
(1)確定試驗數據挖掘的任務類型,確定系統要實現的功能及任務。
(2)選擇合適的數據挖掘工具、數據挖掘算法及技術。建立一個適合挖掘算法的分析模型,選擇數據挖掘工具和數據挖掘算法,搭建數據挖掘平臺,本系統使用SPSS工具。
(3)挖掘數據,用選定的算法或算法組合在平臺中進行反復的迭代和搜索,從數據集合中抽取出隱藏的、有用的信息,并以圖、表等方式進行表示出來,本系統使用決策樹算法實現數據的挖掘。
3.3 采用決策樹算法對試驗數據挖掘
決策樹算法是一種常用的數據挖掘算法,該方法是從機器學習領域中逐漸發展起來的一種分類函數逼近方法。一個決策樹由一個根結點、一系列內部結點及終結點所組成,每一結點只有一個父結點,但可有兩個或多個子結點,形成一個分類的樹形結構,在樹結構的每一分叉結點處,進行不同的選擇實現進一步的細分類。決策樹是僅以實例為基礎進行歸納和運算,不依賴經驗知識,也不用對數據分布進行假設,決策樹學習的基本算法是貪心算法,一般可采用自頂向下的遞歸方式構造決策樹,其結構簡單并可生成易于解譯的分類判別準則。使用決策樹進行試驗數據挖掘的步驟如下:首先選擇試驗數據樣本的一個子集以形成決策樹;之后以選定的試驗數據樣本為對象逐級推理出用樹型結構表示的分類決策集合,如果此樹沒有為所有的數據分析結構給出一個正確的有效的數據答案,將例外情況加入到樹中,不斷重復這一過程直到發現正確的決定集。最終形成一棵樹,每一片葉子代表一個類名,每個節點描述一個屬性,節點的每一個分支對應于該屬性的每一個數據值,最終得到試驗數據的分析結果。
4 結語
隨著試驗的種類的不斷增加,試驗數據成快速增長的趨勢,對數據的管理及有效利用問題是一個迫切需要解決的問題,采用數據挖掘算法和相應的工具能較好地解決數據有效利用問題,未來數據挖掘技術在數據管理和數據信息的利用方面會發揮越來越大的作用。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.guhuozai8.cn/
本文標題:基于數據挖掘的試驗數據利用研究
本文網址:http://m.guhuozai8.cn/html/consultation/10820616437.html