• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于不均勻數(shù)據(jù)的密度偏差抽樣改進(jìn)算法

      2018-03-10 00:35:19呂丹龍華高杰邵玉斌杜慶治
      軟件導(dǎo)刊 2018年2期
      關(guān)鍵詞:三角函數(shù)數(shù)據(jù)挖掘

      呂丹+龍華+高杰+邵玉斌+杜慶治

      摘 要:針對(duì)不均勻數(shù)據(jù)集的抽樣問題,已有隨機(jī)抽樣算法、基于固定網(wǎng)格劃分的單維度算法、基于可變網(wǎng)格劃分的單維度算法,但仍無法更好地反映數(shù)據(jù)分布特征問題。在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,數(shù)據(jù)規(guī)模越來越大,數(shù)據(jù)類型也越來越復(fù)雜,存在系統(tǒng)整體開銷大、時(shí)間運(yùn)行成本高等問題。提出并實(shí)現(xiàn)了基于不均勻數(shù)據(jù)的密度偏差抽樣改進(jìn)算法(IDDS),通過引入網(wǎng)格單元密度和三角函數(shù),從而達(dá)到較好的密度偏差抽樣效果。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),IDDS算法抽樣效果更好,提取的樣本質(zhì)量更高,有效保證了不均勻數(shù)據(jù)的分布特征。與原始的密度偏差抽樣算法(DDS)相比,應(yīng)用IDDS算法的效率更高。

      關(guān)鍵詞:密度偏差抽樣算法(DDS);POI信息;數(shù)據(jù)挖掘;三角函數(shù)

      DOIDOI:10.11907/rjdk.172395

      中圖分類號(hào):TP312

      文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)002-0077-03

      0 引言

      在大數(shù)據(jù)挖掘過程中,數(shù)據(jù)挖掘效率是評(píng)估數(shù)據(jù)挖掘技術(shù)的關(guān)鍵因素之一,而效率的提高涉及到許多方面。面對(duì)海量數(shù)據(jù),合理有效地利用采樣技術(shù)可以在丟失少量數(shù)據(jù)的同時(shí),提高整體挖掘效率[1]。密度偏差抽樣方法(DDS)是一種新的抽樣方法[2],具有良好的抽樣效果。它是根據(jù)原始數(shù)據(jù)的分布特征來確定樣本數(shù)據(jù)[3],所建立的樣本較好地實(shí)現(xiàn)了樣本數(shù)據(jù)和原始數(shù)據(jù)一致的分布特征,樣本質(zhì)量高,抗噪聲能力強(qiáng)[4-5]。它能夠自由切換高密度區(qū)或低密度區(qū),比隨機(jī)抽樣算法具有更好的約簡效果。目前,劃分原始數(shù)據(jù)集組時(shí),從網(wǎng)格類型角度看[6],可以分為固定網(wǎng)格和可變網(wǎng)格兩種類型。固定網(wǎng)格劃分技術(shù)比較簡單,隨著數(shù)據(jù)維度和數(shù)量的增加,系統(tǒng)開銷增加,可用性也因此減少;可變網(wǎng)格劃分技術(shù)非常靈活[7],在劃分過程中,可以根據(jù)各維數(shù)據(jù)的分布特征進(jìn)行自動(dòng)劃分,不僅能有效地減少網(wǎng)格數(shù),還能代表原始數(shù)據(jù)的分布特征[8]。鑒于此,本文在DDS算法基礎(chǔ)上,提出了一種基于可變網(wǎng)格改進(jìn)的密度偏差抽樣算法(IDDS),通過引入網(wǎng)格單元密度和三角函數(shù),從而達(dá)到較好的密度偏差抽樣效果。仿真實(shí)驗(yàn)結(jié)果表明,IDDS算法抽樣效果更好,提取的樣本質(zhì)量更高,有效保證了不均勻數(shù)據(jù)的分布特征。

      1 密度偏差抽樣(DDS)原理

      DDS算法[9]將原始數(shù)據(jù)集T分為不同的組Di,每個(gè)組Di中的數(shù)據(jù)個(gè)數(shù)為該組的密度,然后根據(jù)以下原理抽樣:劃分后的同一組內(nèi)各數(shù)據(jù)點(diǎn)被等概率抽??;不同小組的抽樣概率由各組密度決定;樣本集的分布特征與原始數(shù)據(jù)集一致;預(yù)先設(shè)定樣本數(shù)量大小。

      2 算法介紹

      2.1 隨機(jī)抽樣算法(RS)

      隨機(jī)抽樣算法是對(duì)調(diào)查對(duì)象的每個(gè)部分進(jìn)行同等概率的抽樣,這是一種基于機(jī)會(huì)平等原則的抽樣調(diào)查,稱為“等概率”[10]。其有4種形式,包括簡單隨機(jī)抽樣算法、等距抽樣算法、類型抽樣算法和整群抽樣算法。一般而言,如果一個(gè)總體包含N個(gè)個(gè)體,通過逐個(gè)抽取的方法從每個(gè)樣本中提取樣本,并且每次提取時(shí)每個(gè)個(gè)體被抽到的概率相等,則將這種方法稱為簡單隨機(jī)抽樣算法[11]。

      2.2 固定網(wǎng)格劃分的密度偏差抽樣方法(FMDDS)

      固定網(wǎng)格劃分是將原始數(shù)據(jù)集T中的各個(gè)維度劃分成等長且互不相交的D個(gè)區(qū)間段,每個(gè)維度上劃分的區(qū)間數(shù)D相同(等長度網(wǎng)格劃分)。一般情況下,根據(jù)實(shí)驗(yàn)結(jié)果或用戶經(jīng)驗(yàn)設(shè)置D的大小。

      2.3 可變網(wǎng)格劃分的密度偏差抽樣方法(VDDS)

      可變網(wǎng)格比固定網(wǎng)格劃分更為靈活[12],劃分后的網(wǎng)格更能代表原始數(shù)據(jù)的分布特性。其基本思想是,首先根據(jù)數(shù)值大小對(duì)原始數(shù)據(jù)集T中每個(gè)維度的數(shù)據(jù)進(jìn)行排序(降序或升序),其次是等深度劃分排序后的數(shù)據(jù),劃分成多個(gè)網(wǎng)格單元,然后計(jì)算網(wǎng)格單元的密度信息,并通過比較合并各維度上相似密度的相鄰網(wǎng)格單元[13]。在此基礎(chǔ)上,使最后形成的網(wǎng)格空間中的網(wǎng)格個(gè)數(shù)有很大不同。

      3 基于可變網(wǎng)格改進(jìn)的密度偏差抽樣算法(IDDS)

      3.1 算法思想

      在DDS原理中,參數(shù)k是控制全局的參數(shù),其數(shù)值對(duì)最后采樣結(jié)果有著重要影響。根據(jù)現(xiàn)有相關(guān)文獻(xiàn)的研究結(jié)果來看,參數(shù)k通常默認(rèn)為固定值0.5。參數(shù)k的固定設(shè)置有很大的局限性,主要體現(xiàn)在難以適應(yīng)于各類數(shù)據(jù)集的固定參數(shù)。在本文中,通過引入網(wǎng)格密度和三角函數(shù)來優(yōu)化參數(shù)k,與固定值參數(shù)k相比,改進(jìn)后的參數(shù)k具有更好的抽樣效果。通過設(shè)置相應(yīng)函數(shù),在s、t不變的情況下,根據(jù)網(wǎng)格密度mi來調(diào)整參數(shù)k大小,即網(wǎng)格單元密度越大,網(wǎng)格采樣樣本越多,修改的參數(shù)k如下:

      3.2 算法實(shí)現(xiàn)

      4 實(shí)驗(yàn)過程及結(jié)果

      4.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)環(huán)境

      為了驗(yàn)證提出的IDDS算法的優(yōu)越性,基于Matlab2009b仿真工具對(duì)不均勻數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和分析,實(shí)現(xiàn)密度偏差抽樣的計(jì)算。實(shí)驗(yàn)環(huán)境為一臺(tái)Windows 8.0操作系統(tǒng)的PC機(jī),1.6GHz的Intel Core i5處理器和4GB的RAM。

      實(shí)驗(yàn)中的不均勻數(shù)據(jù)集是通過Matlab中相關(guān)函數(shù)隨機(jī)產(chǎn)生的,產(chǎn)生了3組數(shù)據(jù)集,包括6 000條矩形數(shù)據(jù)集,9 000條三角形數(shù)據(jù)集,5 000條橢圓形數(shù)據(jù)集,總共20 000條數(shù)據(jù),各數(shù)據(jù)集間密度都有差異。

      4.2 實(shí)驗(yàn)過程

      本文選取了隨機(jī)抽樣算法(RS)、基于可變網(wǎng)格劃分的單維密度偏差抽樣算法(VDDS)以及基于可變網(wǎng)格劃分改進(jìn)的單維密度偏差抽樣算法(IDDS)進(jìn)行實(shí)驗(yàn)分析,通過算法的運(yùn)行時(shí)間和抽樣結(jié)果比較,驗(yàn)證IDDS算法的有效性。除RS算法外,其余兩種算法在網(wǎng)格劃分前各維度都根據(jù)式(14)~(16)進(jìn)行歸一化處理,然后計(jì)算歸一化后的均方差,最后選取最小均方差維度劃分可變網(wǎng)格。根據(jù)改進(jìn)算法,通過仿真測試分析,本文中的s、t分別設(shè)置為0.5、0.8,改進(jìn)后的參數(shù)k為:ki=0.5-0.8cos(miπ2m),在VDDS算法中k設(shè)置為0.5。endprint

      4.3 實(shí)驗(yàn)結(jié)果及分析

      為了保證實(shí)驗(yàn)結(jié)果的公正性,對(duì)50次抽樣結(jié)果進(jìn)行平均值計(jì)算,實(shí)驗(yàn)結(jié)果如表1、圖2所示。

      表1顯示了3種算法的抽樣結(jié)果,圖2則顯示了3種算法的運(yùn)行時(shí)間。由表1可知,IDDS算法的抽樣效果明顯比VDDS算法、RS算法好,抽取樣本質(zhì)量更高,有效保持了原始數(shù)據(jù)集的分布特征,且抗噪聲能力更強(qiáng)。由圖2可知,RS算法相比于其它算法,運(yùn)算量最小,所以運(yùn)行時(shí)間最短。另外,IDDS算法運(yùn)行時(shí)間大于VDDS算法。由此可見,改進(jìn)后的算法運(yùn)算量相對(duì)于未改進(jìn)前略大,運(yùn)算時(shí)間也略多。綜上述,本文提出的IDDS算法雖然在運(yùn)行時(shí)間上存在一定劣勢,但從樣本質(zhì)量看,仍具有一定的合理性和可行性。

      5 結(jié)語

      本文基于不均勻數(shù)據(jù)探索一種改進(jìn)的密度偏差抽樣算法(IDDS),使用Matlab中的相關(guān)函數(shù)隨機(jī)產(chǎn)生不均勻數(shù)據(jù)集,對(duì)其進(jìn)行歸一化處理,計(jì)算均方差,選取最小均方差維度劃分可變網(wǎng)格。在保證數(shù)據(jù)間關(guān)聯(lián)性不被破壞的同時(shí),確保了樣本數(shù)據(jù)和原始數(shù)據(jù)的一致性分布特征,解決了不均勻數(shù)據(jù)集的抽樣問題,最后通過仿真實(shí)驗(yàn)驗(yàn)證并分析了算法的合理性。

      參考文獻(xiàn):

      [1] 何苗.一種基于DBS的聚類算法[J].重慶電子工程職業(yè)學(xué)院學(xué)報(bào),2009,18(3):83-85.

      [2] 余建橋,葛繼科,李婭.一種基于密度偏差抽樣的孤立點(diǎn)檢測算法[J].計(jì)算機(jī)科學(xué),2004,31(10):206-208.

      [3] XIAO-BO CHI,XIN-CHUN JIA,QING-LONG HAN.Sampled-data stabilization for takagi-sugeno fuzzy systems using membership function deviations[C].IECON 2012-38th Annual Conference on IEEE Industrial Electronics Society,2012:2476-2481.

      [4] PEIGUO FU,XIAOHUI HU.Biased-sampling of density-based local outlier detection algorithm[J].2016 12th International Conference on Natural Computation,F(xiàn)uzzy Systems and Knowledge Discovery (ICNC-FSKD),2016:1246-1253.

      [5] KITTISAK KERDPRASOP,NITTAYA KERDPRASOP,JUNPING SUN.Density biased reservoir sampling for clustering[J].Artificial Intelligence and Applications,2005:95-100.

      [6] 鄧杰.聚類算法在大規(guī)模高維數(shù)據(jù)集上的應(yīng)用研究[D].無錫:江南大學(xué),2015.

      [7] 盛開元,錢雪忠,吳秦.基于可變網(wǎng)格劃分的密度偏差抽樣算法[J].計(jì)算機(jī)應(yīng)用,2013,33(9):2419-2422.

      [8] 余波,朱東華,劉嵩,等.密度偏差抽樣技術(shù)在聚類算法中的應(yīng)用研究[J].計(jì)算機(jī)科學(xué),2009,36(2):207-210.

      [9] 熊開玲,彭俊杰,楊曉飛,等.基于核密度估計(jì)的K-means聚類優(yōu)化[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(2):1-5.

      [10] 周慶元.PPS和簡單隨機(jī)抽樣估計(jì)效率的實(shí)證檢驗(yàn)[J].統(tǒng)計(jì)與決策,2014(1):14-17.

      [11] 劉愛芹.隨機(jī)抽樣中樣本容量確定的影響因素分析[J].山東財(cái)政學(xué)院學(xué)報(bào),2006(5):60-64.

      [12] 潘春燕,吳有富,李方.一種基于可變網(wǎng)格劃分的密度偏差抽樣技術(shù)及其在聚類中的應(yīng)用研究[J].凱里學(xué)院學(xué)報(bào),2017,35(3):16-20.

      [13] 胡志冬,任永功,楊雪.基于滑動(dòng)窗口密度聚類的數(shù)據(jù)流偏倚采樣算法[J].計(jì)算機(jī)科學(xué),2013,40(9):254-256.

      [14] 紀(jì)良浩.基于密度偏差抽樣的聚類算法研究[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2007,19(6):729-732.endprint

      猜你喜歡
      三角函數(shù)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      關(guān)于高中三角函數(shù)的學(xué)習(xí)心得
      亞太教育(2016年33期)2016-12-19 03:10:15
      三角函數(shù)問題中的數(shù)學(xué)思想
      亞太教育(2016年33期)2016-12-19 03:06:21
      高中數(shù)學(xué)教學(xué)方法略談
      考試周刊(2016年93期)2016-12-12 10:07:12
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      略談高中數(shù)學(xué)三角函數(shù)學(xué)習(xí)
      三角函數(shù)中輔助角公式的推導(dǎo)及應(yīng)用
      三角函數(shù)最值問題
      考試周刊(2016年85期)2016-11-11 01:13:34
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      新民市| 尉氏县| 惠水县| 丰台区| 尖扎县| 旺苍县| 霍邱县| 中方县| 锡林浩特市| 乐亭县| 盈江县| 高陵县| 明光市| 特克斯县| 衡阳市| 滦平县| 莱芜市| 会宁县| 孙吴县| 玉溪市| 嘉兴市| 西乡县| 浑源县| 阜南县| 水城县| 韩城市| 邮箱| 长治县| 灌南县| 怀化市| 兴仁县| 海原县| 巴马| 平遥县| 方正县| 招远市| 汝南县| 黑水县| 龙门县| 广州市| 汝阳县|