• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)格密度的K—均值算法簇中心點(diǎn)識(shí)別的研究

      2019-01-15 12:39:42劉利康
      西部論叢 2019年1期
      關(guān)鍵詞:均值

      劉利康

      摘 要:傳統(tǒng)的K-均值聚類算法只能通過人工參數(shù)設(shè)定K值和初始簇中心點(diǎn),而人工方式選擇的K值和初始簇中心點(diǎn)往往有較大偏差,直接導(dǎo)致錯(cuò)誤的分簇結(jié)果.基于上述問題,本文提出了一種基于網(wǎng)格和密度的K值與最佳初始簇類中心自動(dòng)識(shí)別的方法。經(jīng)理論和實(shí)驗(yàn)證明,該方法在很大程度提高了聚類結(jié)果的質(zhì)量和算法的效率。

      關(guān)鍵詞:K-均值 網(wǎng)格聚類 簇中心點(diǎn) 密度峰值

      一、引言

      K-均值算法是目前聚類分析算法中應(yīng)用歷史較久、范圍較廣泛的一種。傳統(tǒng)的K-均值以平方誤差準(zhǔn)則較好的實(shí)現(xiàn)了空間聚類,對(duì)處理大規(guī)模數(shù)據(jù)集有較大優(yōu)勢(shì)。但K-均值太依賴于K值、初始簇中心點(diǎn)的設(shè)定。由于大多數(shù)情況下,聚類數(shù)K和簇的大致中心位置無法事先確定,因此需要通過優(yōu)化算法對(duì)聚類數(shù)K和最佳初始簇中心點(diǎn)進(jìn)行估計(jì)。但對(duì)于如何確定K和各個(gè)簇中心的位置范圍,目前尚無明確的理論指導(dǎo),本文則針對(duì)此問題展開討論。

      本文結(jié)合K-均值算法和網(wǎng)格、密度算法的優(yōu)點(diǎn),提出一種新的K-均值算法中K值和最優(yōu)初始簇中心點(diǎn)自動(dòng)識(shí)別的方法。經(jīng)過理論和實(shí)驗(yàn)分析驗(yàn)證了該方法可以通過計(jì)算分析自動(dòng)給出K值和較佳的初始簇中心點(diǎn),很大程度改善了K-均值需要人工設(shè)置參數(shù)的問題,有效提高了聚類精度和效率。

      二、典型基于劃分方法—K-均值算法

      k-均值算法由J.B.MacQueen于1967年提出[4],是經(jīng)典聚類算法之一。近幾十年來被廣泛應(yīng)用于生物統(tǒng)計(jì)、圖像處理、信息檢索、客戶分類等各領(lǐng)域。針對(duì)該算法的完善、改進(jìn)和擴(kuò)展,人們做了大量的長時(shí)間研究工作。

      設(shè)待分析數(shù)據(jù)集合D的屬性數(shù)為d,數(shù)據(jù)對(duì)象數(shù)量為N,以歐式距離作為數(shù)據(jù)對(duì)象的差異程度的度量,則D可看作d維歐式空間Rd中的數(shù)據(jù)點(diǎn)集。設(shè)每個(gè)數(shù)據(jù)點(diǎn)為Xi,則D= {Xi,i=1,2,...,N}。

      k-均值算法以k為參數(shù),其核心思想是將N個(gè)數(shù)據(jù)點(diǎn)分為k個(gè)簇,使得每個(gè)簇中的數(shù)據(jù)點(diǎn)到該簇中心點(diǎn)的平方和最小,算法的流程如下:

      1.從N個(gè)數(shù)據(jù)點(diǎn)中任意選取k個(gè)作為初始的簇類中心點(diǎn);

      2.分別計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到各簇中心點(diǎn)的距離,以最近鄰原則,將該數(shù)據(jù)點(diǎn)分配到距離最近的簇中;

      3.所有數(shù)據(jù)點(diǎn)分配完畢后,重新計(jì)算k個(gè)聚類的中心位置;

      4.與前一次計(jì)算所得的k個(gè)聚類中心點(diǎn)的位置比較,若中心點(diǎn)位置變化的程度小于某閥值(即準(zhǔn)則函數(shù)收斂),那么算法結(jié)束;否則轉(zhuǎn)步驟2繼續(xù)執(zhí)行。

      k-均值算法的優(yōu)點(diǎn)包括:執(zhí)行效率高、伸縮性強(qiáng)、設(shè)計(jì)思路簡單明了等。但同樣k-均值算法也存在著一定缺點(diǎn),主要有:

      1.算法擅長處理球狀簇的數(shù)據(jù)集,對(duì)于任意形狀的數(shù)據(jù)往往效果較差;

      2.算法的k值需要人工指定,而這個(gè)k值是很難估計(jì)的。很多情況下,我們事先并不知道數(shù)據(jù)集應(yīng)該分為幾類;

      3.算法的初始簇中心點(diǎn)是隨機(jī)選取的,選取點(diǎn)不同,結(jié)果也可能不同,這種依賴性導(dǎo)致聚類結(jié)果的不穩(wěn)定。且k-均值算法常采用誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù),導(dǎo)致結(jié)果容易陷入局部最優(yōu),難以獲取全局最優(yōu)解;

      4.算法需要不斷計(jì)算調(diào)整后的新的簇中心位置,然后不斷對(duì)數(shù)據(jù)點(diǎn)的分簇進(jìn)行調(diào)整,因此在數(shù)據(jù)量大時(shí),時(shí)間開銷非常大;

      5.對(duì)噪聲點(diǎn)和孤立點(diǎn)敏感。

      本文針對(duì)k-均值的k值和初始簇中心點(diǎn)的依賴性問題,提出一種通過網(wǎng)格化方法自動(dòng)確定k值和選取最佳初始簇中心點(diǎn)的新思路,在此基礎(chǔ)上給出了改進(jìn)的K-均值算法。

      三、利用網(wǎng)格的貢獻(xiàn)值進(jìn)行網(wǎng)格劃分

      為便于空間定位和網(wǎng)格統(tǒng)計(jì)量的計(jì)算,改進(jìn)的算法先對(duì)數(shù)據(jù)作歸一化,然后采用均勻劃分方法。設(shè)每一維上劃分長度相同的P個(gè)區(qū)間,則劃分產(chǎn)生Pd個(gè)網(wǎng)格。那么P值該取多大呢?這里引入網(wǎng)格貢獻(xiàn)值的概念來獲取最佳的網(wǎng)格劃分。

      我們將網(wǎng)格看做盒子,網(wǎng)格中的數(shù)據(jù)點(diǎn)看作盒子中的小球,則最均勻的狀態(tài)是一個(gè)盒子裝一個(gè)球,這時(shí)數(shù)據(jù)集沒有簇產(chǎn)生,聚類沒有意義。但該狀態(tài)是小概率事件,現(xiàn)實(shí)中幾乎不可能出現(xiàn)。實(shí)際上數(shù)據(jù)分布往往是不均的,一個(gè)盒子可能裝好幾個(gè)球,也可能是空的。

      我們?cè)诤凶雍颓虻臄?shù)量一一對(duì)應(yīng)的條件下考察二者的關(guān)系。一個(gè)盒子是空的意味著另一個(gè)盒子多一個(gè)球,空盒子越多說明另外有盒子裝得越滿,分布越不均勻,聚類越容易,因此對(duì)聚類的貢獻(xiàn)越大。另外換個(gè)角度看,盒子裝得越滿,說明空盒子變的更多,有球的盒子之間的空盒子越多,空隙越大,聚類變?nèi)菀?,?duì)聚類的貢獻(xiàn)也越大。

      自然的引入單元網(wǎng)格貢獻(xiàn)值的概念,用C表示。容易想到將包含數(shù)據(jù)點(diǎn)數(shù)為1(基數(shù)為1)的單元網(wǎng)格貢獻(xiàn)值設(shè)0。因?yàn)榫鶆驙顟B(tài)的單元網(wǎng)格基數(shù)全部為1,對(duì)形成密度差沒有任何貢獻(xiàn)。直觀上看,一個(gè)盒子一個(gè)球是常態(tài),正常情況應(yīng)該就是這樣,談不上貢獻(xiàn)。把球從一個(gè)盒子拿到另一個(gè)盒子的運(yùn)動(dòng)為改變常態(tài)做了“功”,這里稱為“貢獻(xiàn)”。使?fàn)顟B(tài)偏離常態(tài)越遠(yuǎn),“貢獻(xiàn)”就越大。

      描述貢獻(xiàn)值最簡單的方式將貢獻(xiàn)值函數(shù)設(shè)置為線性函數(shù)C=|n-1|,將空盒子的貢獻(xiàn)值設(shè)為1,基數(shù)為1的盒子設(shè)為0,基數(shù)大于1的盒子設(shè)為n-1。為更符合貢獻(xiàn)值的變化曲線,一般采用Sigmoid核函數(shù)的變化形式進(jìn)行描述:

      稱基數(shù)為n的網(wǎng)格為n-網(wǎng)格,則n-網(wǎng)格的貢獻(xiàn)值為S(|n-1|)。這里將1-網(wǎng)格稱為臨界網(wǎng)格,易知當(dāng)網(wǎng)格劃分和臨界網(wǎng)格確定后,全部網(wǎng)格的貢獻(xiàn)值總和越大,簇之間的空隙越大,類別特征越明顯。

      我們稱基數(shù)大于臨界網(wǎng)格的網(wǎng)格為稠密網(wǎng)格,基數(shù)小于或等于臨界網(wǎng)格則稱為稀疏網(wǎng)格。臨界網(wǎng)格也可選擇基數(shù)為2,3,…,n的網(wǎng)格擔(dān)當(dāng),實(shí)踐證明,在數(shù)據(jù)量較大的時(shí)候,基數(shù)在1到4之間選擇常得到聚類效果佳的劃分。文中我們?cè)O(shè)臨界網(wǎng)格為1-網(wǎng)格,即網(wǎng)格數(shù)盡量與數(shù)據(jù)點(diǎn)數(shù)一致。令hd=N,則每一維劃分?jǐn)?shù)P=[h],這里為提高聚類效率,讓P向下取整。

      確定P值之后,將每維劃分成P個(gè)小區(qū)間,由于數(shù)據(jù)已歸一化,于是每維的取值范圍為[0,1],為保證每個(gè)數(shù)據(jù)點(diǎn)落到唯一的網(wǎng)格中,設(shè)第1個(gè)劃分區(qū)間為閉區(qū)間,其他情況下為左開右閉區(qū)間,…,。然后遍歷數(shù)據(jù)點(diǎn)集,將數(shù)據(jù)點(diǎn)依次放入所屬的網(wǎng)格中,并統(tǒng)計(jì)網(wǎng)格基數(shù)。遍歷完成后,將稠密網(wǎng)格按基數(shù)降序排序生成稠密網(wǎng)格降序列表G。

      猜你喜歡
      均值
      素變量三元二次型除數(shù)函數(shù)的均值問題
      利用均值不等式求最值的六種常用方法
      均值—方差分析及CAPM模型的運(yùn)用
      均值不等式失效時(shí)的解決方法
      均值與方差在生活中的應(yīng)用
      用均值不等式求最值的幾種常見類型
      關(guān)于均值有界變差函數(shù)的重要不等式
      光滑Weyl和的分?jǐn)?shù)冪均值的數(shù)值上界(Ⅱ)
      對(duì)偶均值積分的Marcus-Lopes不等式
      關(guān)于廣義Dedekind和與Kloosterman和的混合均值
      来宾市| 探索| 吐鲁番市| 开阳县| 绥江县| 通化县| 璧山县| 博客| 海兴县| 娄底市| 若羌县| 勃利县| 顺义区| 库伦旗| 利辛县| 广州市| 营山县| 白河县| 曲麻莱县| 墨玉县| 邵阳市| 安仁县| 潮州市| 石河子市| 工布江达县| 山丹县| 定远县| 嘉义县| 肃宁县| 闽清县| 博罗县| 镇原县| 新平| 大洼县| 湖口县| 南康市| 宾阳县| 麻城市| 通化市| 潼南县| 青田县|