妙曉敏
摘 要:數(shù)據(jù)挖掘作為一個新型的跨領(lǐng)域的綜合性學(xué)科,一經(jīng)出現(xiàn)便顯示出其強大的生命力。統(tǒng)計學(xué)、數(shù)據(jù)倉庫和機器學(xué)習(xí)技術(shù)共同構(gòu)成數(shù)據(jù)挖掘的三大核心技術(shù),統(tǒng)計方法也是最基本的數(shù)據(jù)挖掘方法之一,它滲透于數(shù)據(jù)挖掘領(lǐng)域的各個階段。本文是從統(tǒng)計學(xué)的角度對數(shù)據(jù)挖掘進行應(yīng)用性研究,使統(tǒng)計學(xué)方法適應(yīng)數(shù)據(jù)量的變化,繼續(xù)發(fā)揮其處理數(shù)據(jù)、分析數(shù)據(jù)的重要作用,并且對統(tǒng)計學(xué)理論在數(shù)據(jù)挖掘方向的發(fā)展做了一些探索。
關(guān)鍵詞:數(shù)據(jù)挖掘;統(tǒng)計學(xué);涵義
統(tǒng)計學(xué)如何為數(shù)據(jù)挖掘服務(wù),這是在“數(shù)據(jù)挖掘”飛速發(fā)展的今天,統(tǒng)計工作者必須回答的一個問題,我國廈門大學(xué)的朱建平教授提出:“統(tǒng)計學(xué)應(yīng)該隨時關(guān)注數(shù)據(jù)分析,哪里有數(shù)據(jù),哪里就應(yīng)該有統(tǒng)計分析。”統(tǒng)計學(xué)是搜集、展示、分析和解釋數(shù)據(jù)的學(xué)科,它擁有非常深厚的理論基礎(chǔ),并在社會生活的各個領(lǐng)域發(fā)揮著巨大的作用。近代統(tǒng)計學(xué)方法與信息處理的關(guān)系日益密切,作為信息處理的一個基本工具,統(tǒng)計學(xué)方法將發(fā)揮越來越重要的作用。
數(shù)據(jù)挖掘是近十幾年里發(fā)展起來的一門嶄新的學(xué)科,由于它與統(tǒng)計學(xué)都關(guān)心從數(shù)據(jù)中發(fā)現(xiàn)某種結(jié)構(gòu),因而從數(shù)據(jù)挖掘誕生之日起,就與統(tǒng)計學(xué)有了千絲萬縷的聯(lián)系。
一、統(tǒng)計學(xué)與數(shù)據(jù)挖掘的涵義
統(tǒng)計學(xué)是應(yīng)用數(shù)學(xué)的一個分支,主要通過利用概率論建立數(shù)學(xué)模型,收集所觀察的系統(tǒng)數(shù)據(jù),進行量化的分析、總結(jié),進行推斷和預(yù)測,為相關(guān)決策提供依據(jù)和參考;它分為描述統(tǒng)計和推斷統(tǒng)計。描述統(tǒng)計包括對客觀現(xiàn)象的度量、調(diào)查方案的設(shè)計,對所收集的數(shù)據(jù)資料進行加工整理、綜合概括,通過圖示、列表等方式進行分析和描述。推斷統(tǒng)計是在搜集、整理監(jiān)測樣本數(shù)據(jù)的基礎(chǔ)上,對有關(guān)總體做出推斷,其特點是根據(jù)隨機性的觀測樣本數(shù)據(jù)以及問題的條件和假定,對未知事務(wù)做出以概率形式表述的推斷。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又具有潛在價值的信息和知識(模型或規(guī)則)的過程。這個定義包括以下含義:數(shù)據(jù)源必然是真實的、大量的、含噪聲的;發(fā)現(xiàn)的知識可接受、可理解、可運用,并不要求發(fā)現(xiàn)放之四海皆準的知識,僅支持特定的發(fā)現(xiàn)問題。它能高度自動化的分析原有數(shù)據(jù),做出目的性推理,從中挖掘出潛在的模式,從而幫助決策者調(diào)整策略,做出正確的決策。它融數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計技術(shù)和可視化技術(shù)為一體,是一個多學(xué)科相互交叉又融合所形成的一個新興的具有廣泛應(yīng)用前景的研究領(lǐng)域。
二、統(tǒng)計學(xué)與數(shù)據(jù)挖掘的聯(lián)系
(一)數(shù)據(jù)挖掘雖不同于統(tǒng)計分析,但許多挖掘技術(shù)又來源于統(tǒng)計分析,數(shù)據(jù)挖掘中有許多工作可以由統(tǒng)計方法來完成。比如預(yù)言算法(回歸)、抽樣、基于經(jīng)驗的設(shè)計等。
(二)數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù),相反,數(shù)據(jù)挖掘是統(tǒng)計分析方法的擴展和延伸。大多數(shù)的統(tǒng)計分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,其預(yù)測的準確程度還是令人滿意的,但對于使用者的知識要求比較高。而隨著計算機能力的不斷發(fā)展,數(shù)據(jù)挖掘可以利用相對簡單和固定程序完成同樣的功能。
(三)數(shù)據(jù)挖掘技術(shù)的出現(xiàn)為統(tǒng)計學(xué)提供了一個嶄新的應(yīng)用領(lǐng)域,也對統(tǒng)計學(xué)的理論研究提出了挑戰(zhàn)。數(shù)據(jù)挖掘技術(shù)有相當(dāng)大的比重是由高等統(tǒng)計學(xué)中的多變量分析所支撐。
(四)統(tǒng)計學(xué)與數(shù)據(jù)挖掘的結(jié)合日益緊密。數(shù)學(xué)是傳統(tǒng)意義上統(tǒng)計學(xué)方法的首要工具,而計算機和網(wǎng)絡(luò)為代表的信息技術(shù),正逐漸成為統(tǒng)計學(xué)應(yīng)用的首要工具。隨著數(shù)據(jù)源的不斷膨脹和數(shù)據(jù)結(jié)構(gòu)的日益復(fù)雜,單純依靠數(shù)據(jù)挖掘技術(shù),已漸露力不從心之態(tài),而統(tǒng)計學(xué)的同步發(fā)展,正不斷充實、完善著數(shù)據(jù)挖掘技術(shù)。因此,隨著信息化水平的提高,統(tǒng)計學(xué)與數(shù)據(jù)挖掘的應(yīng)用平臺漸趨統(tǒng)一。
三、預(yù)測性挖掘中常用的統(tǒng)計學(xué)方法
數(shù)據(jù)挖掘中應(yīng)用的統(tǒng)計學(xué)預(yù)測性方法主要有判別分析和回歸分析。其中,判別分析用于對離散型目標變量的預(yù)測,而回歸分析則主要用于對連續(xù)性目標變量的預(yù)測。
(一)判別分析是在已知研究對象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準則建立判別式,然后對未知類型的樣品進行判別分類。判別分析是統(tǒng)計學(xué)的基本分析方法之一。
(二)回歸分析法是在掌握大量觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達式(稱回歸方程式)。
將數(shù)據(jù)挖掘技術(shù)運用到統(tǒng)計學(xué)中,可以解決現(xiàn)有的分析手段對復(fù)雜數(shù)據(jù)的分析困難,以及由此帶來的管理滯后問題。大大提高了統(tǒng)計系統(tǒng)的“分析”功能。從現(xiàn)有的數(shù)據(jù)中挖掘出更多有價值的信息,對決策者提供了一定的幫助。隨著統(tǒng)計學(xué)與現(xiàn)代信息技術(shù)的融合,數(shù)據(jù)挖掘技術(shù)與統(tǒng)計學(xué)的集成已成為必然的趨勢,也必定會為統(tǒng)計學(xué)和數(shù)據(jù)挖掘未來的發(fā)展開辟一片新的天地。endprint