• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺析數(shù)據(jù)挖掘技術(shù)以及其應(yīng)用

      2017-11-22 00:49:42龔舒蕾
      智富時代 2017年10期
      關(guān)鍵詞:分析方法數(shù)據(jù)挖掘應(yīng)用

      龔舒蕾

      【摘 要】隨著信息時代的到來,伴隨著眾多大數(shù)據(jù)庫的建立涌現(xiàn)出大量的數(shù)據(jù),所以人們迫切需要一個數(shù)據(jù)分析工具,可以強(qiáng)有力地幫助他們解決問題。因此,數(shù)據(jù)挖掘成了數(shù)據(jù)庫和商務(wù)智能領(lǐng)域的焦點,它所含有的各種分析方法都有其利弊,本文就數(shù)據(jù)挖掘技術(shù)的不同方法及應(yīng)用作了分析。

      【關(guān)鍵詞】數(shù)據(jù)挖掘;分析方法;應(yīng)用

      一、基本概念分析

      (一)技術(shù)上的定義

      數(shù)據(jù)挖掘指的是把大量且不完全的數(shù)據(jù)從數(shù)據(jù)庫中提取出潛在的還沒有被人發(fā)現(xiàn)的,但具有內(nèi)在價值的信息的過程,通常這些數(shù)據(jù)是隨機(jī)的。

      (二)商業(yè)角度定義

      商業(yè)數(shù)據(jù)庫中存在著大量的數(shù)據(jù),要利用技術(shù)提取有用的數(shù)據(jù),并通過模型化處理將其轉(zhuǎn)換并分析這是數(shù)據(jù)挖掘的最主要的特征。

      數(shù)據(jù)挖掘最主要的特點是在對許多存在于商業(yè)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換與分析其他模型化處理,在這個過程中人們可以獲取對商業(yè)決策起輔助性作用的十分關(guān)鍵的數(shù)據(jù),它是全新的對商業(yè)信息進(jìn)行處理的技術(shù)。

      在已有人工智能、模式識別等技術(shù)的基礎(chǔ)上,人們發(fā)展了數(shù)據(jù)挖掘,可以十分自動化地對存在于企業(yè)的數(shù)據(jù)進(jìn)行分析,進(jìn)行整合性的推斷,然后發(fā)掘出這些數(shù)據(jù)隱含的價值的模式,有助于企業(yè)對市場策略進(jìn)行調(diào)整,降低風(fēng)險,從而提高決策的正確性。

      (三)數(shù)據(jù)挖掘的過程

      數(shù)據(jù)挖掘需要經(jīng)過很多次人機(jī)交替處理,是一個不斷迭代出現(xiàn)的過程。進(jìn)行數(shù)據(jù)挖掘需要經(jīng)過需多個步驟,并且依賴于用戶提供的決策。宏觀上來看,搜集數(shù)據(jù)、探求數(shù)據(jù)間的規(guī)律、表示規(guī)律組成了數(shù)據(jù)挖掘過程的三個重要部分。

      二、數(shù)據(jù)挖掘的分析方法

      (一)關(guān)聯(lián)分析

      關(guān)聯(lián)分析指的是在兩個或者多個物體之間存在某種關(guān)系的情況下,其中一個事物可以進(jìn)行預(yù)測通過其他的事物。關(guān)聯(lián)分析可以對數(shù)據(jù)間隱含的關(guān)聯(lián)進(jìn)行挖掘。關(guān)聯(lián)規(guī)則分為兩類:一類是“多維關(guān)聯(lián)規(guī)則”,另一類是“單維關(guān)聯(lián)規(guī)則”。

      (二)分類與預(yù)測

      分類與預(yù)測是用在挖掘與描繪十分重要的數(shù)據(jù)類或者用以對數(shù)據(jù)未來趨勢預(yù)測的模型,是數(shù)據(jù)挖掘形式的組成。首先,要把已經(jīng)被分好類的訓(xùn)練集從數(shù)據(jù)中提取出,再在這個訓(xùn)練集中通過分類技術(shù)將分類模型建立,把還未被分類的數(shù)據(jù)進(jìn)行分類。一般情況下,只有先通過分類,預(yù)測才可以發(fā)揮作用。這就意味著,經(jīng)過歸劃得到的模型適用于對未知的變量的預(yù)判。

      這種情況下,不是必須要把預(yù)言單獨歸為一個類,預(yù)言是用來預(yù)測未來的未知變量的,這會花費一定時間,即只有經(jīng)過一段時間之后,人們才能知道預(yù)言的精確性程度。

      (三)聚類分析

      聚類分析是指通過靜態(tài)分類把多個相似的對象分成不同的子集或組別,所以同一個子集中的各個對象可以有類似的屬性。通常情況下,數(shù)據(jù)集里的數(shù)據(jù)不會有預(yù)先設(shè)置的類別標(biāo)號。經(jīng)過聚類分析,要最大程度上保證相同類別的數(shù)據(jù)間的高類似性,相反,屬于不同類別的數(shù)據(jù)間的相似性要較低。

      在聚類分析的過程中,樣本之間的相似性通常可以通過分析樣本見的距離得出。若兩個樣本差異性很大,則他們的距離也會很遠(yuǎn);若兩個樣本很相似,則他們兩個間的距離會很小,差異性也小。當(dāng)然也有特例,如果兩個樣本之間的距離是零,那么這兩個樣本沒有差異,完全一樣。

      1.聚類分析在數(shù)據(jù)挖掘中的作用

      人們通常用聚類分析對已經(jīng)得到的數(shù)據(jù)進(jìn)行分析獲取數(shù)據(jù)分布的情況。第一步是要獲得簇,這就要對已經(jīng)得到的數(shù)據(jù)集合進(jìn)行聚類;之后可以獲得數(shù)據(jù)集合里每一類數(shù)據(jù)的分布狀況通過分析每一個簇里的樣本數(shù)目。作為其他數(shù)據(jù)挖掘算法的預(yù)處理步驟。實行第一步就是對已有的數(shù)據(jù)進(jìn)行粗分類,然后要對每個簇的特征進(jìn)行提取及細(xì)分類,這樣的話就可以提高分類的精度。

      2.常用的聚類分析方法

      把距離作為數(shù)據(jù)集里不同的數(shù)據(jù)之間相似性的度量指標(biāo)是劃分法的特點,把數(shù)據(jù)集劃分成多個簇。屬于這樣的聚類方法有:k-means、k-medoids等。k-means算法的評價準(zhǔn)則是誤差平方和準(zhǔn)則。若要使各個聚類的類內(nèi)緊湊,各個聚類之間盡最大可能分離,就可以讓誤差平方和達(dá)到最小,即最優(yōu)狀態(tài)。

      由于最初選取出的聚類中心會引起k-means算法結(jié)果發(fā)生很大的變化,對噪聲有一定的敏感度,所以不適合用來尋找非球狀簇。在一個數(shù)據(jù)集中,通常以它來對聚類結(jié)果好壞進(jìn)行評定,普遍情況下,對于任意一個數(shù)據(jù)集,k-means算法只可以達(dá)到局部最優(yōu),無法實現(xiàn)全局最優(yōu)化。有好的可延伸性是該算法的優(yōu)點,缺點是簇的個數(shù)是需要提前給定的,但很難確定。

      層次法指的是一層一層的分解給定的數(shù)據(jù)集,由此可以形成一個像樹狀的聚類結(jié)果。起初就對每一個樣本進(jìn)行劃分,分成單獨的組這是一種聚類方法,即從底部向上聚類,然后它們按順序合并相似的組,若所有的組或是樣本都被合并了或達(dá)到終止的條件了,則聚類停止。AGNES算法是他的代表算法。還有一種是在開始的時候在一個簇中集合所有的樣本,這就是自頂向下的聚類,然后迭代被依次執(zhí)行,在執(zhí)行的每個步驟會出現(xiàn)很多個小簇,他們是由每一個簇分裂而來的。當(dāng)每個樣本被分到一個單獨的簇里或是滿足了終止條件,那聚類就停止,DIANA算法就是其代表算法。層次聚類的特點是只要變量被分了類別,那分類結(jié)果就不會再被更改。

      三、數(shù)據(jù)挖掘技術(shù)的應(yīng)用

      (一)數(shù)據(jù)挖掘技術(shù)在高校中的應(yīng)用

      縱觀教育現(xiàn)狀,由于擴(kuò)大了招生的規(guī)模,所以許多學(xué)校的學(xué)生人數(shù)日益增長,有的學(xué)校甚至招收了幾萬名學(xué)生,這就導(dǎo)致了大量數(shù)據(jù)的產(chǎn)生,例如十幾萬關(guān)于考試成績的數(shù)據(jù),以及受到其他除學(xué)生成績外的因素影響,人們迫切需要一種新的分析考試成績的方法來滿足日益增長的數(shù)據(jù)所引起的需求。所以,數(shù)據(jù)挖掘技術(shù)的引入可以很好地解決此類問題,挖掘出真正影響學(xué)生成績的原因,響應(yīng)地制定出措施,這樣可以很好地提高教學(xué)質(zhì)量。

      (二)銀行業(yè)

      對于銀行風(fēng)險管理以及客戶的管理存在的問題可以使用數(shù)據(jù)挖掘技術(shù)解決。通過數(shù)據(jù)挖掘,可以對客戶的信用風(fēng)險進(jìn)行評估,構(gòu)建信用的評級模型對貸款申請人進(jìn)行風(fēng)險評估。直觀的量化的技術(shù)還可用于評估銀行賬戶的信用。信用評分就是應(yīng)用數(shù)據(jù)挖掘的模型來為各個指標(biāo)評分,申請人的信用狀況可以由加總得出。對于銀行業(yè)來說數(shù)據(jù)挖掘技術(shù)是不可缺少的,因為在管理客戶的每個步驟終都需要運用到,可以方便銀行獲取潛在客戶并保留已有的客戶且對客戶的服務(wù)進(jìn)行優(yōu)化。

      (三)零售企業(yè)

      數(shù)據(jù)挖掘可以讓零售業(yè)進(jìn)行商店定位,促進(jìn)商品的關(guān)聯(lián)組合,還可提高客戶的忠誠度與有效的監(jiān)測市場并營銷。因為科技的發(fā)展,網(wǎng)絡(luò)滲透入零售業(yè)中使其發(fā)生了很多變化。現(xiàn)在,由于很多分店的業(yè)績不一樣,用數(shù)據(jù)挖掘可以發(fā)掘出影響業(yè)績的重要因素以及來改善。發(fā)現(xiàn)商品之間的關(guān)聯(lián)可以促進(jìn)銷售,因為商戶可以根據(jù)數(shù)據(jù)挖掘的結(jié)果最優(yōu)化組合。商業(yè)成功的必要因素就是擁有忠誠的客戶,經(jīng)過了解和分析已有客戶,可挖掘客戶的購買最大潛力,擁有更多的潛在客戶。

      【參考文獻(xiàn)】

      [1]邵華.基于決策樹的海量時序不均衡數(shù)據(jù)下預(yù)測系統(tǒng)的研究.2004.東北大學(xué).

      [2]王浩蓮.數(shù)據(jù)挖掘術(shù)探究.2005年3期.新疆石油教育學(xué)院學(xué)報.

      [3]范聯(lián)偉.淺談聚類分析在大數(shù)據(jù)分析中的應(yīng)用.2014年17期.中國電子商務(wù).

      [4]李如平.數(shù)據(jù)挖掘中決策樹分類算法的研究.2010年2期.東華理工大學(xué)學(xué)報(自然科學(xué)版).

      [5]何燚.計算機(jī)數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)庫處理能力的探討.2015年1期.華人時刊(中旬刊).

      [6]王婭紛.數(shù)據(jù)挖掘淺談.2009年25期.電腦知識與技術(shù).

      [7]湯靜煜 洪玉峰.數(shù)據(jù)挖掘技術(shù)及工具的發(fā)展和應(yīng)用.2004年12期.浙江統(tǒng)計.endprint

      猜你喜歡
      分析方法數(shù)據(jù)挖掘應(yīng)用
      基于EMD的MEMS陀螺儀隨機(jī)漂移分析方法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種角接觸球軸承靜特性分析方法
      中國設(shè)立PSSA的可行性及其分析方法
      中國航海(2019年2期)2019-07-24 08:26:40
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
      科技視界(2016年20期)2016-09-29 12:03:12
      煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
      科技視界(2016年20期)2016-09-29 11:47:01
      氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
      科技視界(2016年20期)2016-09-29 11:02:20
      會計與統(tǒng)計的比較研究
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      娱乐| 漠河县| 东兴市| 湖南省| 琼中| 石屏县| 修文县| 张北县| 万载县| 潮州市| 渝北区| 遵义县| 新密市| 马鞍山市| 漳州市| 兴文县| 湖北省| 台北县| 白城市| 济阳县| 天长市| 临汾市| 霍城县| 双江| 连云港市| 耒阳市| 潞城市| 九台市| 高青县| 宁城县| 常州市| 吴川市| 收藏| 中宁县| 彭阳县| 芦山县| 如皋市| 观塘区| 安丘市| 高陵县| 临朐县|