• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺談數(shù)據(jù)挖掘的統(tǒng)計過程控制應(yīng)用

      2009-04-29 07:17
      管理觀察 2009年10期
      關(guān)鍵詞:數(shù)據(jù)挖掘質(zhì)量管理

      譚 震

      摘要:在現(xiàn)代信息化社會中,計算機、信息、網(wǎng)絡(luò)技術(shù)飛速發(fā)展,由于基于數(shù)據(jù)挖掘技術(shù)的信息化技術(shù)應(yīng)用,能夠給企業(yè)帶來顯著的經(jīng)濟效益,因而越來越受到企業(yè)決策層的重視。本文在數(shù)據(jù)挖掘技術(shù)的方法和步驟上進行分析,以便開發(fā)出有效、實用的數(shù)據(jù)挖掘系統(tǒng)。

      關(guān)鍵詞:SPC 數(shù)據(jù)挖掘 質(zhì)量管理

      一、數(shù)據(jù)挖掘的基本概念

      數(shù)據(jù)挖掘是在數(shù)據(jù)中識別過程中,使用智能方法提取數(shù)據(jù)模式的一個步驟。數(shù)據(jù)挖掘在數(shù)據(jù)庫中提取正確的、前所未有的、可理解的并具有可操作性、能用來進行決策的信息的過程。統(tǒng)計過程控制(Statistical Process Control)是一種借助數(shù)理統(tǒng)計方法的先進質(zhì)量管理和控制技術(shù),以過程的穩(wěn)定性為主要目標,強調(diào)全過程的預(yù)防,能夠有效地降低產(chǎn)品的不合格率,從而降低生產(chǎn)成本。

      過去的數(shù)據(jù)挖掘技術(shù),主要面向的是以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫。隨著數(shù)據(jù)處理工具、先進數(shù)據(jù)庫技術(shù)以及技術(shù)的迅速發(fā)展,大量形式各異的復(fù)雜數(shù)據(jù)類型不斷涌現(xiàn),包括時間序列數(shù)據(jù)、文本數(shù)據(jù)、空間數(shù)據(jù)、多媒體數(shù)據(jù)、和Web數(shù)據(jù)等,其中:時間序列數(shù)據(jù)是指隨著時間順序取得的一系列觀察值;文本數(shù)據(jù)是指存在著大量以文本或文檔形式存儲著的信息;空間數(shù)據(jù),是指具有空間特征的數(shù)據(jù);多媒體數(shù)據(jù),是指包括音頻數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)、超文本數(shù)據(jù)等在內(nèi)的多媒體數(shù)據(jù);Web數(shù)據(jù),包含著豐富和動態(tài)的超鏈接信息和訪問及使用信息,其規(guī)模隨著網(wǎng)絡(luò)不斷發(fā)展而呈指數(shù)級增長。

      二、數(shù)據(jù)挖掘SPC系統(tǒng)設(shè)計原則

      1.集中性原則。一個企業(yè)的質(zhì)量信息之間具有相關(guān)性,因此應(yīng)實現(xiàn)集中管理。一般僅在企業(yè)設(shè)立一個質(zhì)量信息中心,以免造成管理上的混亂。

      2.系統(tǒng)性原則。數(shù)據(jù)挖掘SPC是整個企業(yè)管理系統(tǒng)的一個組成部分。因此,在建立數(shù)據(jù)挖掘SPC質(zhì)量管理系統(tǒng)時,必須與其它職能管理部門相協(xié)調(diào),充分體現(xiàn)質(zhì)量管理的廣泛性、服務(wù)性和依附性等特點。

      3.經(jīng)濟、可用性原則。數(shù)據(jù)挖掘SPC質(zhì)量管理系統(tǒng)的建立和運行需要一定的人力、財力和物力。因此在建立系統(tǒng)時,既要考慮到對質(zhì)量管理的要求,又要考慮到經(jīng)濟、技術(shù)上的可行性。

      4.逐步發(fā)展的原則。數(shù)據(jù)挖掘SPC質(zhì)量管理系統(tǒng)的建立和運行是一項十分復(fù)雜的系統(tǒng)工程,試圖一次建成并有效運行整個系統(tǒng)的想法往往是行不通的。因此,必須采取逐步發(fā)展,不斷完善的方針,以便更好地滿足企業(yè)發(fā)展的需要。

      5.適應(yīng)計算機管理的原則。在建立質(zhì)量管理系統(tǒng)時,必須考慮到與計算機輔助管理的特點相適應(yīng)。例如要盡量減少管理層次,優(yōu)化信息流程,避免信息的重復(fù)收集等,才能充分發(fā)揮質(zhì)量信息的作用。

      三、數(shù)據(jù)挖掘的一般步驟

      1.數(shù)據(jù)準備。選取數(shù)據(jù)挖掘過程所需要的數(shù)據(jù)可能從不同的異構(gòu)數(shù)據(jù)源獲取,因此,第一步就是從各種數(shù)據(jù)庫、文件和非電子數(shù)據(jù)源中獲取數(shù)據(jù)。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對象,即目標數(shù)據(jù),它是根據(jù)用戶需要從原始數(shù)據(jù)中抽取的一組數(shù)據(jù)。

      2.數(shù)據(jù)預(yù)處理。一般包括消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等。

      3.數(shù)據(jù)變換。數(shù)據(jù)變換的目的主要是消減數(shù)據(jù)維數(shù)或降維,即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。

      4.數(shù)據(jù)挖掘。首先要確定數(shù)據(jù)挖掘的目標和挖掘的知識類型;確定挖掘任務(wù)后,根據(jù)挖掘的知識類型選擇合適的挖掘算法;最后實施數(shù)據(jù)挖掘操作,運用選定的挖掘算法從數(shù)據(jù)庫中抽取所需的知識。

      5.結(jié)果的解釋和評價。數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識,經(jīng)過評估,可能存在冗余或無關(guān)的知識,這時需要將其剔除;也有可能知識不滿足用戶的要求,需要重復(fù)上述挖掘過程重新進行挖掘。另外,由于數(shù)據(jù)挖掘是最終要面臨用戶的,因此,還需要對所挖掘的知識進行解釋,以一種用戶易于理解的方式(如可視化方式)供用戶所用。

      數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測模型而不是回顧型的模型。利用功能強大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息,從而在市場競爭中獲得優(yōu)勢地位。

      四、數(shù)據(jù)挖掘的主要方法

      1.關(guān)聯(lián)規(guī)則方法:挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性。

      2.分類和聚類方法。分類就是假定數(shù)據(jù)庫中的每個對象(在關(guān)系數(shù)據(jù)庫中對象是元組)屬于一個預(yù)先給定的類,從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。而聚類是將地實體對象集合依照某種相似性度量原則劃分為若干個類似實體對象組成的多個類或簇的過程。

      3.數(shù)據(jù)統(tǒng)計方法。使用這些方法一般首先建立一個數(shù)據(jù)模型或統(tǒng)計模型,然后根據(jù)這種模型提取有關(guān)的知識。

      4.機器學(xué)習(xí)方法。大多數(shù)機器學(xué)習(xí)方法使用人類的認識模型模仿人類的學(xué)習(xí)方法從數(shù)據(jù)中提取知識,由于機器學(xué)習(xí)經(jīng)過多年的研究,已取得了一些較滿意的成果,因此,在數(shù)據(jù)挖掘中可以利用目前比較成熟的機器學(xué)習(xí)方法。

      5.多層次數(shù)據(jù)匯總歸納。數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細信息,將一個數(shù)據(jù)集和歸納成更高概念層次信息的數(shù)據(jù)挖掘技術(shù)被稱為數(shù)據(jù)匯總。

      6.神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲和高度容錯等特性非常適合解決數(shù)據(jù)挖掘的問題,因此近年來越來越受到人們的關(guān)注。

      7.決策樹方法。利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個結(jié)點,再根據(jù)字段的不同取值建立樹的分支;在每個分枝子集中,重復(fù)建立樹的下層結(jié)點和分支的過程,即可建立決策樹。

      8.序列模式分析方法。主要用于發(fā)現(xiàn)一定時間間隔內(nèi)接連發(fā)生的事件。

      9.可視化技術(shù)。數(shù)據(jù)與結(jié)果被轉(zhuǎn)化和表達成可視化形式,如圖形、圖像等,使用戶對數(shù)據(jù)的剖析更清楚。

      五、結(jié)束語

      數(shù)據(jù)挖掘,最關(guān)鍵的問題是如何結(jié)合業(yè)務(wù)數(shù)據(jù)特點,將挖掘出的知識表達出來,即時空知識表達和解釋機制問題;并根據(jù)具體問題的特點來決定采用數(shù)據(jù)挖掘方法,并選擇符合數(shù)據(jù)的模型的算法,確定合適的模型和參數(shù)。只有選擇好正確的數(shù)據(jù)挖掘工具,才能真正發(fā)揮數(shù)據(jù)挖掘的作用,使企業(yè)在激烈的市場競爭中做出正確的決策,保持有力的競爭優(yōu)勢。◆

      參考文獻:

      [1]〔美〕J.M.朱蘭,A.布蘭頓.戈弗雷著.焦樹斌等譯.朱蘭質(zhì)量手冊.中國人民大學(xué)出版社,2003

      [2]張公緒,孫靜.質(zhì)量工程師手冊.企業(yè)管理出版社,2002

      [3]文放懷.SPC實戰(zhàn).廣東經(jīng)濟出版社,2005

      猜你喜歡
      數(shù)據(jù)挖掘質(zhì)量管理
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      基于項目管理的企業(yè)年度重點工作管理
      淺談智能建筑電氣施工管理及質(zhì)量控制
      入廠抽樣檢驗規(guī)程的編制
      淺談在公路橋梁施工環(huán)節(jié)的質(zhì)量管理及控制
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      迭部县| 五寨县| 安福县| 祁门县| 镇平县| 迭部县| 新乡市| 石渠县| 胶州市| 临沭县| 大足县| 多伦县| 昌都县| 莒南县| 于田县| 翁牛特旗| 廊坊市| 西昌市| 汶川县| 岳池县| 雷山县| 武乡县| 黎城县| 山阴县| 自治县| 定州市| 定襄县| 民权县| 林甸县| 苏尼特左旗| 翼城县| 上蔡县| 西藏| 龙门县| 兰考县| 贞丰县| 龙州县| 罗源县| 河东区| 乡宁县| 永昌县|