韓天鵬
摘要:數(shù)據(jù)挖掘技術(shù)雖說是一個比較新的數(shù)據(jù)庫技術(shù),但隨著應(yīng)用日益廣泛,它得到了很大的關(guān)注。該文概述了數(shù)據(jù)挖掘的相關(guān)理論知識,討論了數(shù)據(jù)挖掘在兩個現(xiàn)實實踐中的應(yīng)用。分析了數(shù)據(jù)挖掘中的問題及研究方向。
關(guān)鍵詞:數(shù)據(jù)挖掘;知識發(fā)現(xiàn);分類;聚類;關(guān)聯(lián)規(guī)則
中圖分類號:TP311文獻標(biāo)識碼:A文章編號:1009-3044(2012)18-4297-02
Discussion on Data Mining and Its Application
HAN Tian-peng
(Fuyang Teachers College, Fuyang 236037,China)
Abstract:Data mining technology which is a new technology of database, but along with the increasingly wide range of applications, it has received much attention. This article provides an overview of data mining theory and related knowledge, discussed the data mining in two practical application. Analysis of the data mining problems and research direction.
Key words: data mining; knowledge discovery;classification; clustering; association rules
隨著計算機和網(wǎng)絡(luò)的普及,在日常生活中人們使用計算機來處理數(shù)據(jù)的機會也就越來越多,隨之由計算機產(chǎn)生的數(shù)據(jù)也就成幾何式增長,而且現(xiàn)在隨處使用的辦公自動化,在使用過程中進行的自動數(shù)據(jù)生成和采集功能也越來越多,由此計算機收集的數(shù)據(jù)量每天在急劇的增多,利用信息技術(shù)產(chǎn)生和搜集數(shù)據(jù)的能力也在大幅度的提高,如何有效的利用處理這些平時看起來無用的數(shù)據(jù)信息已成為當(dāng)今世界計算機領(lǐng)域共同關(guān)心的熱點話題。隨著數(shù)據(jù)庫技術(shù),人工智能和數(shù)理統(tǒng)計等技術(shù)和學(xué)科的不斷發(fā)展和完善,數(shù)據(jù)挖掘技術(shù)在此基礎(chǔ)上產(chǎn)生。數(shù)據(jù)挖掘是一門新興的多學(xué)科交叉研究方向,它緊密的與我們現(xiàn)實生活聯(lián)系在一起,同時也是現(xiàn)代科學(xué)技術(shù)發(fā)展和人們生活需求的必然趨勢。它的基本目標(biāo)就是從大量的看似無用而用雜亂的數(shù)據(jù)中提取出隱藏的有用的知識和信息。這一技術(shù)自十年前提出以來,引起了許多專家學(xué)者的廣泛關(guān)注,并且在實際的研究過程中把數(shù)據(jù)挖掘用到了金融、醫(yī)療、保健、零售、和政務(wù)等各個領(lǐng)域,并且取得了良好的社會經(jīng)濟效益,以此可以看出數(shù)據(jù)挖掘技術(shù)在現(xiàn)實中有著廣泛的應(yīng)用前景和開發(fā)前景。
1數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡單來說就是從一些看似雜亂無章沒有任何關(guān)聯(lián)的數(shù)據(jù)中找出數(shù)據(jù)之間的聯(lián)系,而這些聯(lián)系就是信息的體現(xiàn)。
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。例如:在超市管理中利用數(shù)據(jù)挖掘技術(shù),找出商品之間在銷售過程中的內(nèi)在聯(lián)系,可以增加超市的銷售額;在銀行系統(tǒng)中可以使用數(shù)據(jù)挖掘技術(shù)對潛在的違約客戶進行預(yù)判,這樣可以減少銀行在貸款過程中的風(fēng)險。從以上可以看出數(shù)據(jù)挖掘技術(shù)在現(xiàn)實生活中的應(yīng)用越來越廣泛。
2數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘的任務(wù)主要有關(guān)聯(lián)、聚類、分類、預(yù)測和偏差分析等。
關(guān)聯(lián)規(guī)則挖掘表示只要兩個或兩個以上變量的取值之間存在某種規(guī)律,就稱為關(guān)聯(lián)。而聚類算法是相似元素的集合,既把一些分布在不同類型數(shù)據(jù)中但有類似性質(zhì)的數(shù)據(jù)放在一起。分類是找出一個類別的概念描述,它表示可以對數(shù)據(jù)集先進行訓(xùn)練然后根據(jù)類別的不同進行分類。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。預(yù)測是利用原有數(shù)據(jù)找出其數(shù)據(jù)之間的規(guī)律級關(guān)聯(lián),然后建立模型,并由此對未來數(shù)據(jù)的種類、特征及發(fā)展趨勢進行預(yù)測。偏差分析是因為發(fā)現(xiàn)數(shù)據(jù)庫中有些數(shù)據(jù)存在某些不符合要求的情況,尋找結(jié)果與參照數(shù)據(jù)之間的差別,如果這種差別不在允許的范圍內(nèi)需要對這些數(shù)據(jù)進行降噪處理。
3數(shù)據(jù)挖掘的應(yīng)用
隨著數(shù)據(jù)挖掘技術(shù)的日趨成熟和應(yīng)用的推廣,在生活中數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來越廣泛,一般來說,數(shù)據(jù)挖掘可以應(yīng)用在,電信行業(yè)用來對客戶的流失進行預(yù)測,以期能夠最大限度的留住客戶;銀行使用聚類方法細(xì)分客戶,交叉銷售金融產(chǎn)品;電子商務(wù)可以利用網(wǎng)站用戶注冊信息和用戶上網(wǎng)習(xí)慣進行分析,對注冊用戶提供獨特的服務(wù);警察機關(guān)可以使用預(yù)測機制對犯罪行為進行分析等等。都體出在這個信息爆炸的年代使用數(shù)據(jù)挖掘技術(shù)可以為我們的生活帶來許多的方便,從而提高我們生活的質(zhì)量和效率。
3.1數(shù)據(jù)挖掘技術(shù)在新生代農(nóng)民工發(fā)展中的應(yīng)用
在現(xiàn)代化進程中新生代農(nóng)民工的需求層次從生存型向發(fā)展型的提升,新生代農(nóng)民工只有適應(yīng)國家的工業(yè)化、城市化、信息化、城鄉(xiāng)一體化的發(fā)展要求,逐漸實現(xiàn)自身的現(xiàn)代化,方可獲得持續(xù)發(fā)展的機會和空間。利用數(shù)據(jù)挖掘技術(shù)幫助新生代農(nóng)民工在進行個人規(guī)劃,提出具有針對性的措施和建議幫助他們找到自己的薄弱點,從而可以使他們盡快進入工作崗位。利用分類算法,把數(shù)據(jù)庫中在學(xué)歷、年齡、性別等相似的人群進行分類匯總,然后找出其中占百分比達到某個特定閥值的群體。這部分群體現(xiàn)在的收入、工作區(qū)域、工作環(huán)境、發(fā)展前景等可以作為預(yù)判的依據(jù)。
3.2數(shù)據(jù)挖掘技術(shù)在研究增加農(nóng)民收入中的應(yīng)用
利用聚類分析算法是把相似的數(shù)據(jù)歸納,然后分類給農(nóng)民以預(yù)判的數(shù)據(jù),以此來指導(dǎo)農(nóng)民進行農(nóng)產(chǎn)品的種植。以進兩年我們常見的大蒜產(chǎn)品為例,由于農(nóng)民信息的不對稱造成了大蒜價格像過山車一樣,以至于使農(nóng)民損失慘重。利用聚類算法分析,把近幾年某類農(nóng)產(chǎn)品的種植面積、產(chǎn)品收成、當(dāng)年產(chǎn)品價格等進行相似性分類,找出在那些條件下產(chǎn)品價格比較高,那些又比較低,以此作為判斷的依據(jù)。當(dāng)發(fā)現(xiàn)當(dāng)年的產(chǎn)品已經(jīng)達到了極限值,就應(yīng)該大量減少產(chǎn)品的種植,增加當(dāng)年種植量比較少的產(chǎn)品的種植。以此來避免產(chǎn)品過剩或稀少,防止產(chǎn)品價格的大起大落。這樣不但有利于農(nóng)民的增收而且有利于產(chǎn)品價格的穩(wěn)定。
現(xiàn)今,數(shù)據(jù)挖掘技術(shù)已經(jīng)被應(yīng)用到人們生活的各個領(lǐng)域,給人們的生活帶來了極大的方便。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,相信它一定給我們的生活帶來巨大的影響。
4數(shù)據(jù)挖掘主要問題
數(shù)據(jù)挖掘的任務(wù)、方法及用戶的交互性和數(shù)據(jù)的多樣性,給數(shù)據(jù)挖掘技術(shù)提出了許多挑戰(zhàn)性的問題。
4.1數(shù)據(jù)安全
對任何數(shù)據(jù)的收集都要征得數(shù)據(jù)擁有者的同意。因為對于任何共享的數(shù)據(jù),安全是一個非常重要的問題。在收集用于客戶分析的數(shù)據(jù)時,有些敏感的或比較私密的個人或者公司的信息會被大量的收集、保存、匯總等。數(shù)據(jù)的保密性和潛在的非法行都是一個具有爭議的問題,數(shù)據(jù)挖掘可以揭示有關(guān)個人或團體的某些受保護的信息或只是,都可能有潛在的傳播機會。
4.2數(shù)據(jù)源問題
對于數(shù)據(jù)挖掘來講,數(shù)據(jù)源是一個首要的問題。在最開始階段,數(shù)據(jù)源都是從一些雜亂的未經(jīng)處理的數(shù)據(jù)庫來的,這里會包括各種類型的數(shù)據(jù),重復(fù)的數(shù)據(jù),無用的數(shù)據(jù)等等,這樣會產(chǎn)生大量的剩余數(shù)據(jù)。這些都會對以后數(shù)據(jù)的分析、挖掘產(chǎn)生影響,所以在進行數(shù)據(jù)挖掘前,要把這些會產(chǎn)生噪聲的數(shù)據(jù)進行預(yù)處理,把冗余、重復(fù)的數(shù)據(jù)進行過濾,留下有用的數(shù)據(jù)。
4.3可視化的問題
數(shù)據(jù)挖掘是一個知識發(fā)現(xiàn)的過程,當(dāng)發(fā)現(xiàn)這些知識后,怎么能夠讓他們被用戶容易接受,如果挖掘出來的信息不能夠被用戶接受,那數(shù)據(jù)挖掘就沒有了意義。良好的用戶界面可以簡化結(jié)果的解釋,幫組用戶更好地了解他們的需求??梢暬钪饕囊粋€功能是信息的交互,交互式至關(guān)重要的,他可以從不同角度、不同的層次描述發(fā)現(xiàn)的知識。
4.4方法的問題
對于不同的數(shù)據(jù)、需求可能用多種方法都能夠達到結(jié)果,但是不同的數(shù)據(jù)挖掘方法,所針對的數(shù)據(jù)類型、不同的用戶需求是不同的。所以選對正確的方法可以有效的解決數(shù)據(jù)挖掘中算法時間和空間的有效利用問題。
5結(jié)束語
近些年來,不同領(lǐng)域的學(xué)者和專家利用各種不同的方法和技術(shù)對數(shù)據(jù)挖掘各種算法和應(yīng)運進行了豐富的研究。取得了豐碩的成果。但是,數(shù)據(jù)挖掘是一個涉及到多學(xué)科多領(lǐng)域的新的研究內(nèi)容,它還面臨著許多待解決的問題,這一切都有待于我們進一步的去研究、探索。
參考文獻:
[1]周黎明,邱均平.基于網(wǎng)絡(luò)的內(nèi)容分析法[J].情報學(xué)報,2005(5):594-599.
[2]賈澎濤,何華燦,劉麗,等.時間序列數(shù)據(jù)挖掘綜述[J].計算機應(yīng)用研究,2007,24(11):15- 18.
[3] Fred A L N.Finding Consistent Clusters in Data Partitions,Second International Workshop,MCS 2001 Cambridge,UK,2001:309-318
[4]紀(jì)希禹.數(shù)據(jù)挖掘技術(shù)應(yīng)用實例[M].北京:機械工業(yè)出版社,2008.
[5]葉云,萬明明.網(wǎng)絡(luò)信息挖掘技術(shù)探討[J].廣西大學(xué)學(xué)報,2007(S1).