• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘技術(shù)在違約金計(jì)算中的應(yīng)用

      2016-07-23 18:48:29陳英孫忠林
      電腦知識(shí)與技術(shù) 2016年17期
      關(guān)鍵詞:動(dòng)態(tài)分析影響因子違約金

      陳英++孫忠林

      摘要:該文依據(jù)供水收費(fèi)管理系統(tǒng)中的收費(fèi)欠費(fèi)問(wèn)題,利用決策樹(shù)和頻繁項(xiàng)集相結(jié)合的方法對(duì)供水收費(fèi)數(shù)據(jù)進(jìn)行處理,挖掘影響營(yíng)業(yè)廳供水收費(fèi)時(shí)產(chǎn)生違約金的因素。通過(guò)計(jì)算每個(gè)屬性的信息增益以及優(yōu)化的頻繁項(xiàng)集挖掘出了影響收費(fèi)的主要因子。結(jié)果表明兩種方法得出的結(jié)論一致,兩種方法的結(jié)合使用使得結(jié)果更精確更有效。為供水收費(fèi),減少違約金,提供了可靠的決策支持。

      關(guān)鍵詞:決策樹(shù);頻繁項(xiàng)集;違約金;影響因子;動(dòng)態(tài)分析

      中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)17-0001-04

      Abstract: This paper, based on the Water Charge Management System, uses the method of combines the decision tree with the frequent itemsets, excavates the factors that influences the produce of overdue fine. By means of calculating every propertys information gain and optimized frequent itemsets, it excavates the main factors that influence charge. The results show that the two methods get the same conclusion, the combination of this two methods make the result more accurate and more effective. It provides reliable decision support to the charge of Water Charge Management System.

      Key words: decision tree; frequent itemsets; overdue fine; impact factor; dynamic analysis

      1 引言

      在當(dāng)今的信息時(shí)代,隨著信息化程度的不斷發(fā)展,導(dǎo)致越來(lái)越多數(shù)據(jù)庫(kù)的數(shù)據(jù)量極其的龐大,想要從中分析出有價(jià)值可靠的信息變得越來(lái)越復(fù)雜,但在日常的生活中,對(duì)此需求卻源源不斷。在這樣的情形下,挖掘數(shù)據(jù)庫(kù)中有價(jià)值的信息成為計(jì)算機(jī)信息處理的重要手段。本文主要利用數(shù)據(jù)挖掘技術(shù),探討了供水收費(fèi)產(chǎn)生違約金的因素以及違約金的動(dòng)態(tài)分析。

      2 決策樹(shù)算法的主要研究?jī)?nèi)容

      2.1數(shù)據(jù)預(yù)處理技術(shù)

      現(xiàn)實(shí)生活中的數(shù)據(jù)太過(guò)繁雜,數(shù)據(jù)越來(lái)越多的情況下,要想獲得準(zhǔn)確有價(jià)值的信息必須進(jìn)行數(shù)據(jù)的處理。

      在決策樹(shù)算法中,影響數(shù)據(jù)質(zhì)量的因素主要有兩個(gè):數(shù)據(jù)缺失和數(shù)據(jù)噪聲。要挖掘出高質(zhì)量的數(shù)據(jù),必須對(duì)大量的數(shù)據(jù)進(jìn)行預(yù)先處理。數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換四個(gè)部分。數(shù)據(jù)清洗主要是用來(lái)清除數(shù)據(jù)中的噪聲;數(shù)據(jù)集成主要是將數(shù)據(jù)由多個(gè)數(shù)據(jù)源合并成為一個(gè)一致的數(shù)據(jù)存儲(chǔ);數(shù)據(jù)規(guī)約可通過(guò)刪除不相關(guān)或冗余特征來(lái)降低數(shù)據(jù)的規(guī)模;數(shù)據(jù)變換可用來(lái)把數(shù)據(jù)壓縮到較小的區(qū)間。這些預(yù)處理方法不是相互排斥的,可以一起使用。

      2.2屬性選擇度量

      屬性選擇度量是一種選擇分裂準(zhǔn)則,度量了給定訓(xùn)練集中的每個(gè)屬性的權(quán)值大小。具有最高權(quán)重的屬性被選作為給定元組的分裂屬性。常用的三種屬性選擇度量方法分別是信息增益、基尼指數(shù)、增益率。

      本文主要是使用第一種方法信息增益來(lái)度量供水收費(fèi)管理系統(tǒng)數(shù)據(jù)庫(kù)中哪個(gè)因素最影響欠費(fèi)也就是有無(wú)違約金。

      2.3信息增益

      2.3.1期望信息

      選擇具有最高信息增益的屬性也就是擁有權(quán)重最大的屬性,那么這個(gè)屬性便是影響供水收費(fèi)時(shí)是否產(chǎn)生違約金的最主要因素。

      對(duì)訓(xùn)練集中的元組分類所需要的期望信息可用下式表示:

      2.3.2信息熵

      信息熵就是一組數(shù)據(jù)包含的信息,概率的度量。簡(jiǎn)單地講熵是衡量一個(gè)系統(tǒng)中物質(zhì)的混亂程度。

      3 決策樹(shù)算法實(shí)驗(yàn)分析

      根據(jù)供水營(yíng)業(yè)收費(fèi)管理系統(tǒng)數(shù)據(jù)庫(kù)中的營(yíng)業(yè)廳收費(fèi)表,來(lái)判斷哪個(gè)屬性對(duì)產(chǎn)生違約金的影響最大,選擇用水性質(zhì),用水總量,實(shí)際金額作為具有代表價(jià)值性的屬性。其中,用水性質(zhì)包括經(jīng)營(yíng)用水、生活用水、非居民用水;用水總量分為少、一般、多;實(shí)際交費(fèi)金額分為低等、中等、高等。

      3.1數(shù)據(jù)處理

      3.2分析并計(jì)算每個(gè)屬性的信息增益

      由供水收費(fèi)數(shù)據(jù)表給出了一個(gè)標(biāo)記類元組的訓(xùn)練集中元組分類所需要的期望信息:

      計(jì)算每個(gè)屬性的期望信息需求,從用水性質(zhì)開(kāi)始。需要對(duì)用水性質(zhì)的每個(gè)類考察“是”和“否”元組的分布。對(duì)于用水性質(zhì)的類“經(jīng)營(yíng)用水”,有8個(gè)“是”元組,2個(gè)“否”元組。對(duì)于類“生活用水”,有7個(gè)“是”元組,3個(gè)“否”元組。對(duì)于類“非居民用水”,有2個(gè)“是”元組,8個(gè)“否”元組。使用(2)式,如果元組根據(jù)用水性質(zhì)劃分,則對(duì)于3.3構(gòu)造決策樹(shù)

      如果某條規(guī)則的最終結(jié)果即決策樹(shù)中葉子節(jié)點(diǎn)所代表的最終結(jié)果出現(xiàn)矛盾時(shí),例如如果經(jīng)營(yíng)用水的實(shí)際交費(fèi)金額為“低等”那么無(wú)論總用水量是“多”還是“少”,結(jié)果既有“是”也有“否”這時(shí)就要?jiǎng)h除這個(gè)葉子結(jié)點(diǎn),自底向上刪除直到不沖突為止。最終結(jié)果用偏向?qū)傩灾递^多的表示。

      如果經(jīng)營(yíng)用水的交費(fèi)金額為“中等”總用水量為“一般”或者為“少”結(jié)果則為“是”,那么可想而知用水總量為“多”的結(jié)果一定也為“是”。這樣構(gòu)造決策樹(shù)的兩條規(guī)則就可以合并成一條了。類似這樣的推理如果非居民用水的實(shí)際交費(fèi)金額為“中等”總用水量為“一般”或是“多”則結(jié)果都為“否”,那么用水總量為“少”的結(jié)果一定也為“否”。其余規(guī)則同理。構(gòu)造出的決策樹(shù)如圖1所示:

      質(zhì)的信息增益最大其次是實(shí)際交費(fèi)的金額和總用水量,即用水性質(zhì)這個(gè)屬性是影響是否產(chǎn)生違約金的最主要的屬性。

      優(yōu)點(diǎn):使用決策樹(shù)算法中的屬性選擇度量方法來(lái)計(jì)算營(yíng)業(yè)廳供水收費(fèi)表中屬性的信息增益,可以很好地判斷出具體哪個(gè)屬性影響公司的利潤(rùn),這樣公司可以根據(jù)不同的影響程度來(lái)制定不同的收費(fèi)方式,例如工業(yè)用水時(shí)常欠費(fèi),那么就針對(duì)工業(yè)用水的公司與之簽約違約時(shí)加收多倍違約金合同等方法,從而使得公司利益最大化。

      缺點(diǎn):這種方法局限于小的數(shù)據(jù)量,對(duì)于超大數(shù)據(jù)不方便用此方法。由于使用數(shù)據(jù)的局限性,雖然其實(shí)兩者之間只相差不足百分之一,區(qū)分不太明顯。

      4 挖掘頻繁項(xiàng)集

      由決策樹(shù)算法得出結(jié)論的基礎(chǔ)上,對(duì)訓(xùn)練集進(jìn)行處理,刪除決策樹(shù)中沒(méi)有出現(xiàn)的規(guī)則和沒(méi)有產(chǎn)生違約金的規(guī)則,這樣便可得到最簡(jiǎn)化最有效的數(shù)據(jù)。將這些數(shù)據(jù)進(jìn)行頻繁項(xiàng)集的挖掘。決策樹(shù)只能判斷、三者對(duì)產(chǎn)生違約金的影響。如何進(jìn)一步挖掘三者之中的子項(xiàng)對(duì)違約金的影響?

      通過(guò)限制候選項(xiàng)集產(chǎn)生發(fā)現(xiàn)頻繁項(xiàng)集,頻繁項(xiàng)集的產(chǎn)生過(guò)程其實(shí)就是Apriori算法是一種使用逐層迭代的方法,其中k項(xiàng)集用于探索(k+1)項(xiàng)集。本文主要是探索產(chǎn)生違約金的因素,所以只需根據(jù)Apriori算法挖掘出頻繁項(xiàng)集。設(shè)置最小支持度計(jì)數(shù)為4,數(shù)據(jù)集中的事務(wù)分別用I1至I9表示經(jīng)營(yíng)用水、生活用水、非居民用水、少、一般、多、低等、中等和高等。

      由優(yōu)化后的數(shù)據(jù)作為訓(xùn)練集進(jìn)行頻繁項(xiàng)集的挖掘,頻繁項(xiàng)集的大小可由項(xiàng)集里的每個(gè)元素所對(duì)應(yīng)的事務(wù)交集表示,最小支持度大小就是事務(wù)交集的個(gè)數(shù),利用這樣的方法只需掃描一次數(shù)據(jù)庫(kù)便可求出頻繁項(xiàng)集。對(duì)每個(gè)項(xiàng)集里的元素對(duì)應(yīng)的事務(wù)出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì)即掃描事務(wù)數(shù)據(jù)庫(kù)產(chǎn)生候選一項(xiàng)集C1,結(jié)果如表1所示:

      由頻繁二項(xiàng)集可以看出用水性質(zhì)、用水總量和交費(fèi)金額三者之間所占比例,用水性質(zhì)和交費(fèi)金額分別占37.5%,用水總量占25%,由于I7代表的交費(fèi)金額少,根據(jù)實(shí)際情況是不可擔(dān)當(dāng)決定性因素即用水性質(zhì)所占比重是略大于交費(fèi)金額的,這和決策樹(shù)算法得出的結(jié)論是一致的。由頻繁三項(xiàng)集進(jìn)一步分析出了用水性質(zhì)里的生活用水所擁有的權(quán)重最大。

      5 違約金的動(dòng)態(tài)分析

      違約金的動(dòng)態(tài)分析是為了更清楚的分析和預(yù)測(cè)哪些用水用戶將會(huì)產(chǎn)生違約金,針對(duì)違約的用戶采取措施盡量避免違約。

      一個(gè)企業(yè)在本月產(chǎn)生了違約金,如果在下一個(gè)月的任何一天交齊了費(fèi)用,則可以預(yù)測(cè)這個(gè)企業(yè)具有還款能力即具有可信度,對(duì)這樣的企業(yè)可以減免違約金,在結(jié)賬的時(shí)候還可節(jié)省計(jì)算違約金這一步驟。反之,違約時(shí)間超過(guò)60天,可以預(yù)測(cè)這樣的企業(yè)不具有還款能力,對(duì)這樣的企業(yè)違約金是不可減免的。

      這里所定義的階梯水價(jià)是不同的用水量規(guī)定不同的價(jià)格,用水量x在30噸之內(nèi)水價(jià)為1.5x,超過(guò)30噸,則按階梯水價(jià)的規(guī)則,超過(guò)的越多,水價(jià)上漲的越快;違約時(shí)間y也就是當(dāng)前的時(shí)間減去欠費(fèi)的時(shí)間;欠費(fèi)額度即違約金的多少可以表示為:違約金=水費(fèi)金額*0.001*違約時(shí)間。違約金的動(dòng)態(tài)分析如表7所示:

      6 結(jié)束語(yǔ)

      決策樹(shù)和頻繁項(xiàng)集的結(jié)合使用在降低時(shí)間復(fù)雜度和提高結(jié)果精度的前提下挖掘出了影響供水收費(fèi)的具體影響因子。另外違約金的動(dòng)態(tài)分析,更細(xì)化的分析出具有可信度的用水用戶,對(duì)于這些用戶是可以減免違約金的。生活中有很多實(shí)際存在的問(wèn)題,都可以用現(xiàn)有的知識(shí)來(lái)挖掘有價(jià)值的信息。當(dāng)然,如何用更有效更迅速更優(yōu)化的算法來(lái)挖掘最大價(jià)值的信息,還需進(jìn)一步探究。

      參考文獻(xiàn):

      [1]章曉. 決策樹(shù)ID3分類算法研究[D].浙江工業(yè)大學(xué),2014.

      [2]王銳. APRIORI算法的分析研究[J]. 硅谷,2013,6(14222):68+52.

      [3]劉祺. 決策樹(shù)ID3算法的改進(jìn)研究[D].哈爾濱工程大學(xué),2009.

      [4]張睿. ID3決策樹(shù)算法分析與改進(jìn)[D].蘭州大學(xué),2010.

      [5]陳沛玲. 決策樹(shù)分類算法優(yōu)化研究[D].中南大學(xué),2007.

      [6]季桂樹(shù),陳沛玲,宋航. 決策樹(shù)分類算法研究綜述[J]. 科技廣場(chǎng),2007(1):9-12.

      [7]Wenjing Zhang,Donglai Ma,Wei Yao. Medical Diagnosis Data Mining Based on Improved Apriori Algorithm[J]. Journal of Networks,2014,95.

      [8]N. Badal,Shruti Tripathi. Frequent Data Itemset Mining Using VS_Apriori Algorithms[J]. International Journal on Computer Science andEngineering,2010,24.

      [9]房祥飛. 基于決策樹(shù)的分類算法的并行化研究及應(yīng)用[D].山東師范大學(xué),2007.

      [10]劉一鳴,張化祥. 引入信息增益的層次聚類算法[J]. 計(jì)算機(jī)工程與應(yīng)用,2012(1):142-144.

      猜你喜歡
      動(dòng)態(tài)分析影響因子違約金
      違約金約定過(guò)高,還能反悔么?
      金橋(2018年12期)2019-01-29 02:47:56
      基于污點(diǎn)傳播動(dòng)態(tài)分析的Android安全系統(tǒng)研究
      基于個(gè)性化的協(xié)同過(guò)濾圖書(shū)推薦算法研究
      基于組合評(píng)價(jià)法的企業(yè)融資效率動(dòng)態(tài)綜合評(píng)價(jià)
      農(nóng)作物病蟲(chóng)害氣象環(huán)境影響因子分析
      手機(jī)閱讀平臺(tái)用戶體驗(yàn)影響因子分析
      會(huì)計(jì)準(zhǔn)則改革動(dòng)態(tài)及相關(guān)研究
      “影響因子”是用來(lái)賺大錢的
      讀書(shū)(2016年5期)2016-05-21 22:36:29
      據(jù)題類析高中物理動(dòng)態(tài)問(wèn)題的部分解題技巧
      考試周刊(2016年4期)2016-03-14 09:35:14
      違約金額能否隨意訂
      浦县| 平塘县| 师宗县| 桃园市| 独山县| 河北区| 石渠县| 日喀则市| 久治县| 丰宁| 恭城| SHOW| 平安县| 永宁县| 山西省| 正定县| 和政县| 旺苍县| 铜梁县| 军事| 彭山县| 高唐县| 翁牛特旗| 兰州市| 贵定县| 湖口县| 静宁县| 西平县| 张北县| 宽城| 鸡东县| 东城区| 淅川县| 米脂县| 滨州市| 大足县| 晋城| 咸丰县| 甘孜| 青田县| 嘉兴市|