• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      ID3數(shù)據(jù)挖掘方法及其在樓盤營銷策略中的應(yīng)用研究

      2016-01-05 14:44:36趙安科
      電腦知識(shí)與技術(shù) 2015年29期
      關(guān)鍵詞:決策樹數(shù)據(jù)挖掘

      趙安科

      摘要:該文對(duì)數(shù)據(jù)挖掘技術(shù)及國內(nèi)外研究現(xiàn)狀進(jìn)行了分析,詳細(xì)介紹了ID3算法的基本思想以及決策樹的生成過程,并以樓盤營銷策略為例闡明了ID3方法在數(shù)據(jù)挖掘中的應(yīng)用。相關(guān)結(jié)果對(duì)ID3算法在其他領(lǐng)域的應(yīng)用也有較高的參考價(jià)值。

      關(guān)鍵詞:數(shù)據(jù)挖掘;ID3算法;決策樹

      中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)29-0212-03

      Research of ID3 Data Mining Method and its Application in Real Estate Marketing Strategy

      ZHAO An-ke

      (School of Computer Science, Xian Shiyou University, Xian 710065, China)

      Abstract: This paper analyses research situation of data mining technology, detailed introducing underlying idea of ID3 and generate process of decision tree, taking real estate marketing strategy to illustrates the application of ID3 in data mining area. The result also has high referenced value for application of ID3 algorithm in other fields.

      Key words: data mining; ID3 algorithm; decision tree

      計(jì)算機(jī)是20世紀(jì)最先進(jìn)的科學(xué)技術(shù)之一,對(duì)人類的生產(chǎn)和社會(huì)活動(dòng)有著非常重要的影響。隨著信息爆炸時(shí)代的到來,網(wǎng)絡(luò)使得信息的采集、傳輸速度以及規(guī)模達(dá)到了前所未有的水平,實(shí)現(xiàn)了全球化的信息交互與共享。在市場(chǎng)需求不斷劇增的情況下,以處理和傳輸技術(shù)為核心的技術(shù)浪潮,大大促進(jìn)了信息技術(shù)的發(fā)展,人類的信息活動(dòng)也越來越多的向數(shù)字形式轉(zhuǎn)變,這導(dǎo)致了數(shù)字化信息的急劇增長。因此,怎樣從海量數(shù)據(jù)里提取出有用信息是亟待解決的問題。為了滿足這一需求,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。

      數(shù)據(jù)挖掘來源于機(jī)器學(xué)習(xí)。20世紀(jì)60年代開始了對(duì)機(jī)器學(xué)習(xí)的研究。第一屆知識(shí)發(fā)現(xiàn)(KDD)國際會(huì)議于1989年8月在美國底特律召開,該會(huì)議首次提出了知識(shí)發(fā)現(xiàn)這個(gè)概念。此后,在加拿大召開了首屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會(huì)議。由于將數(shù)據(jù)庫中的“數(shù)據(jù)”形象的比喻成礦床,因此“數(shù)據(jù)挖掘”一詞流傳開來。1993年以后,美國計(jì)算機(jī)協(xié)會(huì)(Association of Computing Machinery)每年都舉辦了專門的會(huì)議,對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行研究和探討,簡稱為KDD會(huì)議[1]。通過數(shù)十年的努力,在數(shù)據(jù)挖掘領(lǐng)域已經(jīng)取得了豐富地研究成果,很多軟件公司已經(jīng)成功的研制出了許多數(shù)據(jù)挖掘軟件產(chǎn)品,且已在部分國家得到應(yīng)用[2]。在國外,數(shù)據(jù)挖掘技術(shù)已在各個(gè)領(lǐng)域得到了廣泛應(yīng)用,如在天文學(xué)領(lǐng)域,研究出了能夠發(fā)現(xiàn)遙遠(yuǎn)類星體的SKICAT系統(tǒng),該系統(tǒng)是由加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室與天文科學(xué)家合作開發(fā)的[3],這是人工智能(AI)技術(shù)在空間科學(xué)和天文學(xué)領(lǐng)域的首批成功應(yīng)用之一;在生物學(xué)領(lǐng)域,使用數(shù)據(jù)挖掘技術(shù)分析DNA[4];在市場(chǎng)營銷領(lǐng)域,采用數(shù)據(jù)挖掘技術(shù)對(duì)客戶進(jìn)行分析,從而識(shí)別顧客的購買行為[5];在金融領(lǐng)域,用以預(yù)測(cè)保險(xiǎn)公司或銀行可能出現(xiàn)的詐騙行為;在體育領(lǐng)域,IBM公司開發(fā)的Advanced Scout(AS)系統(tǒng),可以根據(jù)NBA的比賽數(shù)據(jù),來幫助運(yùn)動(dòng)員優(yōu)化戰(zhàn)術(shù)等[6]。

      我國對(duì)知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究比國外稍晚。目前,對(duì)數(shù)據(jù)挖掘的研究主要集中在高校,也有一些公司和研究所。他們大多是對(duì)數(shù)據(jù)挖掘理論、學(xué)習(xí)算法及其實(shí)際應(yīng)用這些方面進(jìn)行研究。目前,大部分研究項(xiàng)目是由政府資助的,如國家自然科學(xué)基金等[7]。國內(nèi)的許多高等院校和科研單位也展開了知識(shí)發(fā)現(xiàn)的理論及應(yīng)用研究,如北京系統(tǒng)工程研究所對(duì)模糊方法在知識(shí)發(fā)現(xiàn)中的應(yīng)用展開了深入研究,北京大學(xué)對(duì)數(shù)據(jù)立方體代數(shù)展開了研究,復(fù)旦大學(xué)等對(duì)關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改進(jìn)進(jìn)行了研究,南京大學(xué)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)以及Web數(shù)據(jù)挖掘進(jìn)行了研究[8]。

      論文重點(diǎn)分析了ID3算法以及決策樹的構(gòu)建過程,并以樓盤營銷策略的建立為例說明ID3算法在數(shù)據(jù)挖掘中的應(yīng)用,相關(guān)結(jié)果對(duì)該算法在其他領(lǐng)域的應(yīng)用也有較高的參考價(jià)值。

      1 ID3算法

      1.1 ID3算法基本思想

      決策樹是一種最常見的分類算法,包含有很多不同的變種,ID3算法是其中最簡單的一種。ID3算法起源于概念學(xué)習(xí)系統(tǒng),是一種貪心算法,它以信息論為基礎(chǔ),以信息熵的下降速度為選取屬性的標(biāo)準(zhǔn),從而實(shí)現(xiàn)對(duì)數(shù)據(jù)的歸納分類。其基本思想是,首先根據(jù)最有判別力的屬性,把數(shù)據(jù)分成多個(gè)子集,每個(gè)子集中繼續(xù)選擇最有判別力的屬性進(jìn)行劃分,直到所有子集僅包含相同類型的數(shù)據(jù)為止,最終得到一棵決策樹,可用來對(duì)新的實(shí)例進(jìn)行分類。

      1.2 ID3決策樹的構(gòu)造原理

      決策樹的構(gòu)造過程中最主要的部分就是信息熵和信息增益的計(jì)算。設(shè)S為訓(xùn)練集,有n個(gè)屬性(特征),表示為(A1,A2,...,,An)。|S|表示例子總數(shù)。S中有i個(gè)類別。|Ui|表示Ui類例子數(shù)。特征Ak處有m個(gè)取值,分別為(V1,V2,...,Vm)。決策樹的構(gòu)造過程如下:

      (1) 計(jì)算類別的信息熵。

      (1)

      其中p(Ui)=|Ui|/|S|。

      (2) 選擇作為決策樹根節(jié)點(diǎn)的屬性。

      a. 對(duì)每個(gè)屬性Ak(k=1,2,…,m),按照屬性Ak的不同取值(V1,V2,...Vm),對(duì)訓(xùn)練集進(jìn)行劃分,計(jì)算出屬性Ak下,關(guān)于U的平均不確定性:

      (2)

      b. 計(jì)算各屬性的互信息量:

      (3)

      選擇互信息最大的屬性Ak作為決策樹的根節(jié)點(diǎn)?;バ畔⑹遣淮_定性的消除,選擇的互信息越大,消除的不確定性也就越大。

      (3) 把在Ak處取值相同的例子歸于同一子集(分枝),Ak有幾個(gè)取值就得到幾個(gè)子集(分枝)。

      (4) 對(duì)類別不單一的子集,遞歸調(diào)用建樹算法,不斷構(gòu)造決策樹的下一級(jí),直至所有的樣本子集(分枝)只有一個(gè)類別,這時(shí)表明決策樹構(gòu)造過程完畢。

      2 ID3算法實(shí)例

      利用決策樹,通過分析樓盤的營銷環(huán)境及影響消費(fèi)者購買的因素,根據(jù)樓盤自身的特點(diǎn),可以制定出科學(xué)合理的房地產(chǎn)營銷策略。下面以某城市樓盤銷售情況為例,具體說明如何應(yīng)用ID3算法構(gòu)建決策樹,來分析該樓盤銷售情況。某城市樓盤銷售情況如表1所示[9]。

      圖1 ID3決策樹

      分析圖1,可以大致明確該市房地產(chǎn)的銷售情況,根據(jù)所了解的情況,營銷商能夠制定合理的銷售方案,比如,對(duì)于面積中等的樓盤或偏遠(yuǎn)地段的樓盤,可以適當(dāng)降低售價(jià)來獲取更多的銷售額。在制定房地產(chǎn)營銷策略的過程中,根據(jù)環(huán)境、規(guī)?;那闆r,靈活運(yùn)用各種房地產(chǎn)營銷手段,研究和掌握物業(yè)所處的地理位置及其周邊環(huán)境,制定出科學(xué)、合理的營銷策略,企業(yè)最終才能獲得預(yù)期的利潤。使用數(shù)據(jù)挖掘技術(shù)對(duì)樓盤的營銷情況進(jìn)行分析,能夠使決策者更好地掌握市場(chǎng)動(dòng)態(tài),從而實(shí)現(xiàn)對(duì)企業(yè)的全面的信息化管理。

      3 結(jié)論

      ID3算法在商業(yè)智能中有極為重要的使用價(jià)值,能夠幫助企業(yè)領(lǐng)導(dǎo)者針對(duì)市場(chǎng)變化的環(huán)境,做出快速、準(zhǔn)確的決策。利用Quinlan的ID3算法能得出結(jié)點(diǎn)最少的決策樹[10]。該算法利用互信息來選擇結(jié)點(diǎn)屬性,基礎(chǔ)理論清晰,方法簡單,是知識(shí)獲取的一個(gè)有用工具,在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域得到了廣泛的應(yīng)用。但在實(shí)際應(yīng)用中如何對(duì)決策樹進(jìn)行優(yōu)化,仍有許多問題需要探討和研究。

      參考文獻(xiàn):

      [1] Stahl Frederic, Gabrys Bogdan, Gaber Mohamed Medhat, et.al. An overview of interactive visual data mining techniques for knowledge discovery[J]. Data Mining and Knowledge Discovery, 2013, 3(4):239-256.

      [2] Fan Jianhua, Li Deyi. Overview of data mining and knowledge discovery[J]. Journal of Computer Science and Technology, 1998, 13(4):348-368.

      [3] 孫超利. 數(shù)據(jù)挖掘決策樹方法的研究與應(yīng)用[D].南京:河海大學(xué),2003:3-4.

      [4] 陳娜. 數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006,14(1):46-49.

      [5] 鄭繼剛,王邊疆. 數(shù)據(jù)挖掘研究的現(xiàn)狀與發(fā)展趨勢(shì)[J].紅河學(xué)院學(xué)報(bào),2010,8(2):45-46.

      [6] 李菁菁,邵培基,黃亦瀟. 數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報(bào),2004,18(3):10-15.

      [7] 陳卓民. 數(shù)據(jù)挖掘技術(shù)在國內(nèi)外的研究和發(fā)展現(xiàn)狀[J].青年文學(xué)家,2009,8(16):122-123.

      [8] 蘇燕, 梁武. 基于Web數(shù)據(jù)挖掘的研究與應(yīng)用[J].軟件導(dǎo)刊,2014,13(1):131-132.

      [9] 劉薇. 數(shù)據(jù)挖掘中決策樹方法研究及其在房地產(chǎn)中介的應(yīng)用[D].西安:西安電子科技大學(xué),2006:54-55.

      [10] 張偉. 數(shù)據(jù)挖掘中的ID3 算法研究與實(shí)現(xiàn)[J].軟件導(dǎo)刊,2010,9(5):176-177.

      猜你喜歡
      決策樹數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于改進(jìn)決策樹的故障診斷方法研究
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      基于決策樹的出租車乘客出行目的識(shí)別
      基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      东辽县| 岳阳县| 盐山县| 闽清县| 阳信县| 龙里县| 宜州市| 民乐县| 长顺县| 莱西市| 郴州市| 茶陵县| 安乡县| 长宁区| 栖霞市| 海丰县| 民丰县| 张家港市| 通州市| 巨鹿县| 彰化县| 乌鲁木齐县| 新源县| 府谷县| 文昌市| 金溪县| 九龙城区| 长寿区| 三明市| 惠州市| 龙江县| 固始县| 吕梁市| 黔江区| 绥江县| 白城市| 云安县| 满洲里市| 三台县| 莫力| 龙南县|