數(shù)據(jù)挖掘技術的發(fā)展趨勢

2016-02-22 17:24:47何俊

西部皮革 2016年24期

關鍵詞：數(shù)據(jù)挖掘分析

何俊

(西華大學，四川成都 610039)

數(shù)據(jù)挖掘技術的發(fā)展趨勢

何俊

(西華大學，四川成都 610039)

數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關，并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)。

數(shù)據(jù)挖掘；發(fā)展

1 數(shù)據(jù)挖掘的發(fā)展

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義：數(shù)據(jù)源必須是真實的、大量的、含噪聲的；發(fā)現(xiàn)的是用戶感興趣的知識；發(fā)現(xiàn)的知識要可接受、可理解、可運用；并不要求發(fā)現(xiàn)放之四海皆準的知識，僅支持特定的發(fā)現(xiàn)問題。

與數(shù)據(jù)挖掘相近的同義詞有數(shù)據(jù)融合、人工智能、商務智能、模式識別、機器學習、知識發(fā)現(xiàn)、數(shù)據(jù)分析和決策支持等。

——何為知識？從廣義上理解，數(shù)據(jù)、信息也是知識的表現(xiàn)形式，但是人們更把概念、規(guī)則、模式、規(guī)律和約束等看作知識。人們把數(shù)據(jù)看作是形成知識的源泉，好像從礦石中采礦或淘金一樣。原始數(shù)據(jù)可以是結構化的，如關系數(shù)據(jù)庫中的數(shù)據(jù)；也可以是半結構化的，如文本、圖形和圖像數(shù)據(jù)；甚至是分布在網(wǎng)絡上的異構型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學的，也可以是非數(shù)學的；可以是演繹的，也可以是歸納的。發(fā)現(xiàn)的知識可以被用于信息管理，查詢優(yōu)化，決策支持和過程控制等，還可以用于數(shù)據(jù)自身的維護。因此，數(shù)據(jù)挖掘是一門交叉學科，它把人們對數(shù)據(jù)的應用從低層次的簡單查詢，提升到從數(shù)據(jù)中挖掘知識，提供決策支持。在這種需求牽引下，匯聚了不同領域的研究者，尤其是數(shù)據(jù)庫技術、人工智能技術、數(shù)理統(tǒng)計、可視化技術、并行計算等方面的學者和工程技術人員，投身到數(shù)據(jù)挖掘這一新興的研究領域，形成新的技術熱點。

2 數(shù)據(jù)挖掘的功能

數(shù)據(jù)挖掘綜合了各個學科技術，有很多的功能，當前主要功能如下：

(1)分類：按照分析對象的屬性、特征，建立不同的組類來描述事物。例如：銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別，現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶，以采取相應的貸款方案。

(2)聚類：識別出分析對內(nèi)在的規(guī)則，按照這些規(guī)則把對象分成若干類。例如：將申請人分為高度風險申請者，中度風險申請者，低度風險申請者。

(3)關聯(lián)規(guī)則和序列模式的發(fā)現(xiàn)：關聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。例如：每天購買尿布的人也有可能購買啤酒，比重有多大，可以通過關聯(lián)的支持度和可信度來描述。與關聯(lián)不同，序列是一種縱向的聯(lián)系。例如：今天銀行調(diào)整利率，明天股市的變化。

(4)預測：把握分析對象發(fā)展的規(guī)律，對未來的趨勢做出預見。例如：對未來經(jīng)濟發(fā)展的判斷。

(5)偏差的檢測：對分析對象的少數(shù)的、極端的特例的描述，揭示內(nèi)在的原因

需要注意的是：數(shù)據(jù)挖掘的各項功能不是獨立存在的，在數(shù)據(jù)挖掘中互相聯(lián)系，發(fā)揮作用。

3 數(shù)據(jù)挖掘應用現(xiàn)狀

數(shù)據(jù)挖掘的應用非常廣泛，只要該產(chǎn)業(yè)有分析價值與需求的數(shù)據(jù)庫，皆可利用數(shù)據(jù)挖掘工具進行有目的的發(fā)掘分析。常見的應用案例多發(fā)生在零售業(yè)、制造業(yè)、財務金融保險、通訊及醫(yī)療服務：

(1)商場從顧客購買商品中發(fā)現(xiàn)一定的關聯(lián)規(guī)則，提供打折、購物券等促銷手段，提高銷售額。

(2)保險公司通過數(shù)據(jù)挖掘建立預測模型，辨別出可能的欺詐行為，避免道德風險，減少成本，提高利潤。

(3)在制造業(yè)中，半導體的生產(chǎn)和測試中都產(chǎn)生大量的數(shù)據(jù)，就必須對這些數(shù)據(jù)進行分析，找出存在的問題，提高質(zhì)量。

(4)電子商務的作用越來越大，可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進行分析，識別用戶的行為模式，保留客戶，提供個性化服務，優(yōu)化網(wǎng)站設計。

4 數(shù)據(jù)挖掘技術未來的研究方向

當前，DMKD研究正方興未艾，預計在21世紀還會形成更大的高潮，研究焦點可能會集中到以下幾個方面：

(1)形式化描述的語言，即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言DMQL，類似SQL語言一樣走向形式化和標準化。

(2)可視化的數(shù)據(jù)挖掘過程，尋求數(shù)據(jù)挖掘過程中的可視化方法，使知識發(fā)現(xiàn)的過程易于被用戶理解和操縱，可使數(shù)據(jù)挖掘過程成為用戶業(yè)務流程的一部分，也便于在知識發(fā)現(xiàn)的過程中進行人機交互；包括數(shù)據(jù)用戶化呈現(xiàn)與交互操縱兩部分。

(3)Web網(wǎng)絡中數(shù)據(jù)挖掘的應用，特別是在Internet上建立數(shù)據(jù)挖掘服務器，與數(shù)據(jù)庫服務器配合，實現(xiàn)數(shù)據(jù)挖掘，從而建立強大的數(shù)據(jù)挖掘引擎與數(shù)據(jù)挖掘服務市場。

(4)融合各種異構數(shù)據(jù)的挖掘技術，加強對各種非結構化數(shù)據(jù)的開采(Data Mining for Audio&Video)，如對文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采。

(5)處理的數(shù)據(jù)將會涉及到更多的數(shù)據(jù)類型，這些數(shù)據(jù)類型或者比較復雜，或者是結構比較獨特。為了處理這些復雜的數(shù)據(jù)，就需要一些新的和更好的分析和建立模型的方法，同時還會涉及到為處理這些復雜或獨特數(shù)據(jù)所做的費時和復雜數(shù)據(jù)準備的一些工具和軟件。

5 總結

不管怎樣，需求牽引與市場推動是永恒的，只有從數(shù)據(jù)中有效地提取信息，從信息中及時地發(fā)現(xiàn)知識，才能為人類的思維決策和戰(zhàn)略發(fā)展服務。也只有到那時，數(shù)據(jù)才能夠真正成為與物質(zhì)、能源相媲美的資源，信息時代才會真正到來。

[1] 劉瑩.基于數(shù)據(jù)挖掘的商品銷售預測分析[J].科技通報,2014,(07).

[2] 徐進華.基于灰色系統(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學,2009.

[3] 俞馳.基于網(wǎng)絡數(shù)據(jù)挖掘的客戶獲取系統(tǒng)研究[D].西安電子科技大學,2009.

[4] 馮軍.數(shù)據(jù)挖掘在自動外呼系統(tǒng)中的應用[D].北京郵電大學,2009.

何俊(1995—)，男，漢族，四川西充人，本科，西華大學，軟件工程專業(yè)。

TP18

1671-1602(2016)24-0021-01

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

數(shù)據(jù)挖掘技術的發(fā)展趨勢

1 數(shù)據(jù)挖掘的發(fā)展

2 數(shù)據(jù)挖掘的功能

3 數(shù)據(jù)挖掘應用現(xiàn)狀

4 數(shù)據(jù)挖掘技術未來的研究方向

5 總結