• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于曲線距離分析的嵌入式增強(qiáng)聚類算法

      2021-10-18 01:51:02吳艷萍王紅軍李天瑞西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院四川成都611756
      關(guān)鍵詞:降維集上準(zhǔn)確率

      吳艷萍 王紅軍 李天瑞 鄧 萍(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院 四川 成都 611756)

      0 引 言

      隨著互聯(lián)網(wǎng)技術(shù)高速發(fā)展,降維技術(shù)和聚類技術(shù)已經(jīng)在數(shù)據(jù)分析領(lǐng)域中被廣泛使用。聚類是在沒(méi)有任何先驗(yàn)知識(shí)的情況下,根據(jù)某種規(guī)則將數(shù)據(jù)分為不同的簇,同一簇內(nèi)的樣本相似度高,不同簇的樣本相似度低[1]。聚類技術(shù)廣泛應(yīng)用于市場(chǎng)分析、醫(yī)療衛(wèi)生、數(shù)據(jù)挖掘及金融投資等領(lǐng)域。降維是指利用某種映射規(guī)則將高維空間的數(shù)據(jù)映射到低維空間中[2]。高維數(shù)據(jù)對(duì)提取數(shù)據(jù)中隱藏的信息造成了很大不便,高維數(shù)據(jù)樣本的某些特征對(duì)數(shù)據(jù)分析沒(méi)有幫助,甚至干擾整個(gè)模型的性能。降維技術(shù)是處理高維數(shù)據(jù)、提升模型性能的有效手段,廣泛應(yīng)用于解決維度災(zāi)難問(wèn)題[3-4],實(shí)現(xiàn)數(shù)據(jù)可視化[5-6]、特征選擇[7-9]、消除數(shù)據(jù)冗余和降低模型噪聲[10],可分為線性降維和非線性降維。其中線性降維技術(shù)更適用于維數(shù)相對(duì)較低的數(shù)據(jù)集,數(shù)據(jù)維度很高時(shí)則需要非線性降維技術(shù)。常見(jiàn)的線性降維技術(shù)有主成分分析(Principal Component Analysis,PCA)[11-12],旨在使降維后的數(shù)據(jù)在低維空間中數(shù)據(jù)的方差最大化,從而保留更多的數(shù)據(jù)信息。與傳統(tǒng)的線性降維技術(shù)不同,等距特征映射(Isometric Feature Mapping,Isomap)是一種可以準(zhǔn)確檢測(cè)數(shù)據(jù)的潛在非線性結(jié)構(gòu)并找到局部有意義的拓?fù)浣Y(jié)構(gòu)的經(jīng)典非線性降維方法[13-14]。Isomap對(duì)有平坦的低維流形結(jié)構(gòu)數(shù)據(jù)有很好的性能,而當(dāng)數(shù)據(jù)以復(fù)雜不規(guī)則的形式組織時(shí),其性能將會(huì)變差[15]。與Isomap相似,一種名為曲線距離分析(Curvilinear Distance Analysis,CDA)的基于曲線距離的降維方法被提出,CDA算法可以有效地檢測(cè)到高維數(shù)據(jù)空間數(shù)據(jù)潛在的內(nèi)在結(jié)構(gòu)[16]。一般而言,對(duì)數(shù)據(jù)進(jìn)行降維是為了提高后續(xù)數(shù)據(jù)處理的效率,如聚類或者分類。然而,傳統(tǒng)數(shù)據(jù)分析的方法是先對(duì)數(shù)據(jù)進(jìn)行降維,再對(duì)數(shù)據(jù)在投影空間進(jìn)行后續(xù)的分析,其操作過(guò)程是順序進(jìn)行。而本文將聚類嵌入到降維算法中,使得聚類和降維操作同步完成。

      本文提出一種基于CDA的嵌入式增強(qiáng)聚類算法(ECE-CDA),可以有效地將聚類算法嵌入到降維算法中,同步實(shí)現(xiàn)降維和聚類。本文算法是將聚類的目標(biāo)與CDA的目標(biāo)統(tǒng)一到一個(gè)整體框架之中,并且定義該框架的目標(biāo)函數(shù);應(yīng)用凸優(yōu)化方法求解目標(biāo)函數(shù)最小值,目標(biāo)函數(shù)取最小值時(shí)的降維和聚類結(jié)果即為最優(yōu)的降維和聚類結(jié)果。在降維的過(guò)程中,CDA的思想使得數(shù)據(jù)點(diǎn)在高維空間中的相對(duì)曲線距離保持不變,而聚類的目標(biāo)使得有可能劃分為不同簇的數(shù)據(jù)點(diǎn)之間的界限清晰。最后在12個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)用以驗(yàn)證ECE-CDA性能。本文主要貢獻(xiàn)如下:

      (1) 簡(jiǎn)化數(shù)據(jù)分析過(guò)程,不需要任何額外的標(biāo)簽信息,將聚類嵌入到CDA算法中,使得聚類和降維以高準(zhǔn)確率和低操作復(fù)雜度同步完成;

      (2) ECE-CDA在保持高維數(shù)據(jù)的固有拓?fù)浣Y(jié)構(gòu)上性能優(yōu)異,后續(xù)的數(shù)據(jù)分析方法可以高效地在投影空間執(zhí)行;

      微電網(wǎng)本質(zhì)上是一種社區(qū)終端綜合能源系統(tǒng),是集成各種分布式能源和負(fù)載的能實(shí)現(xiàn)自我控制、保護(hù)和管理的小型發(fā)配電自治系統(tǒng)。社區(qū)能源系統(tǒng)如圖1所示。

      面對(duì)新時(shí)代基層統(tǒng)戰(zhàn)工作發(fā)生的新變化,針對(duì)制約基層統(tǒng)戰(zhàn)工作發(fā)展的主要因素,要始終堅(jiān)持以習(xí)近平新時(shí)代中國(guó)特色社會(huì)主義思想、黨的十九大精神,特別是習(xí)近平總書(shū)記關(guān)于加強(qiáng)和改進(jìn)統(tǒng)一戰(zhàn)線工作的重要思想為指導(dǎo),以《條例》為根本遵循,進(jìn)一步健全基層統(tǒng)戰(zhàn)工作的機(jī)制體制,明晰基層統(tǒng)戰(zhàn)工作職責(zé),完善相應(yīng)的剛性措施,夯實(shí)統(tǒng)戰(zhàn)工作的基礎(chǔ)保障。

      (3) ECE-CDA可以作為同時(shí)實(shí)現(xiàn)聚類和降維的通用高精度框架。

      1 相關(guān)工作

      1.1 降 維

      目前,已有許多高效的降維算法被廣大學(xué)者所提出。如Wold等[17]早在1987年提出的主成分分析(PCA)選用數(shù)據(jù)的重要成分代替所有數(shù)據(jù)的特征,使得降維后的數(shù)據(jù)樣本之間的方差最大化,從而保留數(shù)據(jù)信息。在此基礎(chǔ)上,Sch?lkopf等[18]通過(guò)核函數(shù)將只能對(duì)數(shù)據(jù)進(jìn)行線性降維的PCA算法改進(jìn)為可以進(jìn)行非線性降維的算法。Zhao等[19]提出了適用于大量二維圖像的PCA算法,通過(guò)使用非均勻快速傅里葉變換,有效計(jì)算圖像的膨脹系數(shù),再將其與PCA相結(jié)合。Shashoa等[20]將線性判別分析(LDA)用于分類,提出了基于期望輸出對(duì)線性分類器進(jìn)行推導(dǎo),并將推導(dǎo)結(jié)果應(yīng)用到分類中的方法。

      此外,非線性降維算法也深受廣大研究者的青睞。如Roweis等[21]提出的流形學(xué)習(xí)算法局部線性嵌入(LLE),將其輸入映射到較低維的單個(gè)全局坐標(biāo)系中,并且其優(yōu)化不涉及局部極小值。通過(guò)利用線性重構(gòu)的局部對(duì)稱性,LLE能夠?qū)W習(xí)非線性流形的整體結(jié)構(gòu)。此外,還有著名的多維標(biāo)度法(MDS),其核心思想是在低維空間保留數(shù)據(jù)點(diǎn)在高維空間之間的相對(duì)距離。Rohde[22]解決了MDS在低維空間中數(shù)據(jù)點(diǎn)投影不連續(xù)的問(wèn)題。Demartines等[15]在MDS的基礎(chǔ)之上提出了曲線成分分析(CCA),該算法能展開(kāi)強(qiáng)非線性甚至封閉的圖形,其效率也大幅度提高。CCA使用歐氏距離衡量高維空間中數(shù)據(jù)點(diǎn)之間的成對(duì)距離,然而當(dāng)樣本的維度較高時(shí),歐氏距離不能很好地衡量?jī)蓚€(gè)點(diǎn)之間的真實(shí)距離,因此Lee等[16]提出使用曲線距離計(jì)算數(shù)據(jù)點(diǎn)在高維空間中的成對(duì)距離,這種幾何度量能更準(zhǔn)確地檢測(cè)嵌入在高維數(shù)據(jù)空間的低維流形結(jié)構(gòu)。

      本文中的ECE-CDA模型降維依賴于CDA的降維思想。首先,先對(duì)曲線距離分析算法進(jìn)行介紹。CCA是一種非線性降維方式。假設(shè)有N個(gè)輸入向量,每個(gè)向量為P維,即{xi|i=1,2,…,N},相應(yīng)的輸出向量為d維,即{yi|i=1,2,…,N}。CCA旨在將高維空間數(shù)據(jù)樣本之間的距離關(guān)系映射到低維空間,其二次誤差函數(shù)定義為:

      (1)

      式中:δij和yij分別是高維輸入空間和低維輸出空間的數(shù)據(jù)點(diǎn)i和j之間歐氏距離;F(yij)是關(guān)于yij的單調(diào)遞減函數(shù),其作用是在降維的過(guò)程中模型更加注重保持距離較近的數(shù)據(jù)點(diǎn)之間的距離。CDA是CCA的改進(jìn)版本,用高維空間中任意兩點(diǎn)的曲線距離代替任意兩點(diǎn)之間的歐氏距離,因此當(dāng)樣本的特征個(gè)數(shù)較多時(shí),曲線距離能更好地檢測(cè)數(shù)據(jù)的流形結(jié)構(gòu)。其目標(biāo)函數(shù)為:

      (2)

      式中:xij是表示數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j在高維輸入空間之間的曲線距離;yij是數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j在投影空間的歐氏距離;F(yij)為單調(diào)遞減有界函數(shù),用以保持樣本點(diǎn)映射到低維空間的局部拓?fù)浣Y(jié)構(gòu)的不變性。

      1.2 聚 類

      聚類技術(shù)廣泛應(yīng)用于數(shù)據(jù)分析和數(shù)據(jù)挖掘領(lǐng)域,其目標(biāo)是將相似的數(shù)據(jù)點(diǎn)盡可能分為同一簇。經(jīng)典且廣泛使用的聚類算法有很多種。如Bhargava等[23]在K均值的基礎(chǔ)上提出了一種基于模糊C均值的混合聚類算法,用于數(shù)值和圖像數(shù)據(jù)性能優(yōu)化。Frey等[24]提出了一種全新的近鄰傳播聚類算法(Affinity Propagation,AP),該方法將原始數(shù)據(jù)點(diǎn)之間的相似性作為輸入,在數(shù)據(jù)點(diǎn)之間傳遞實(shí)值信息,克服了傳統(tǒng)方法選擇隨機(jī)選擇出初始點(diǎn)而使聚類結(jié)果不佳的缺點(diǎn)。Rodriguez等[25]依據(jù)聚類中心點(diǎn)的密度比其他點(diǎn)的密度高,并且相鄰的聚類中心點(diǎn)之間的距離較遠(yuǎn)的原理提出了密度峰值算法(Density Peaks,DP),該方法可以廣泛應(yīng)用于各個(gè)聚類場(chǎng)景。聚類算法的目標(biāo)是最小化目標(biāo)函數(shù):

      (3)

      式中:k是類簇的個(gè)數(shù);ys是屬于第k個(gè)類簇的數(shù)據(jù)點(diǎn);Ck是第k個(gè)類;ck是第k個(gè)類的聚類中心點(diǎn);m是總的類簇?cái)?shù)。

      2 ECE-CDA模型設(shè)計(jì)

      2.1 ECE-CDA模型目標(biāo)函數(shù)

      ECE-CDA模型將聚類嵌入到降維過(guò)程中,其目標(biāo)是最小化損失函數(shù),并得到聚類結(jié)果和數(shù)據(jù)點(diǎn)降維之后的坐標(biāo)。其目標(biāo)函數(shù)定義如下:

      (4)

      s.t. 0<α<1,0<β<1,yij≥0,xij≥0,?i≠j

      令:

      (5)

      (6)

      式(5)中N是數(shù)據(jù)集的樣本個(gè)數(shù)。式(6)中k是每一個(gè)類的索引,Ck表示第k個(gè)類,ck表示第k個(gè)類的聚類中心點(diǎn),ys是屬于第k個(gè)類的數(shù)據(jù)點(diǎn),m是總的類簇?cái)?shù)。α和β是兩個(gè)權(quán)重因子,分別平衡E1(yij)和E2(ys)對(duì)目標(biāo)函數(shù)的影響程度??紤]一個(gè)P維的輸入數(shù)據(jù)X=(x1,x2,…,xN),X∈RN×p,再令Y=(y1,y2,…,yN),Y∈RN×d表示降維后的數(shù)據(jù)集。式(5)中的xij表示數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j在高維輸入空間之間的曲線距離。文中使用Dijkstra[26]算法計(jì)算xij。令yij=d(yi,yj)表示數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j在低維投影空間之間的歐氏距離:

      (7)

      7.用式(16)或者式(20)更新聚類中心C;

      (8)

      式中:λy為常數(shù)。

      2.2 ECE-CDA模型推理

      針對(duì)式(4),本文的求解目標(biāo)為降維之后的聚類結(jié)果和任意兩點(diǎn)之間的距離,再根據(jù)全部樣本的距離矩陣求解每個(gè)樣本的坐標(biāo)。式(4)是關(guān)于yij的凸函數(shù),因此可采用批量梯度下降求解,可得其對(duì)應(yīng)梯度為:

      (9)

      根據(jù)式(9),每更新數(shù)據(jù)點(diǎn)i和數(shù)據(jù)點(diǎn)j之間的成對(duì)距離,必須計(jì)算其他所有點(diǎn)的梯度和,即每更新迭代求解一個(gè)向量yi就必須考慮其他所有和向量yj(i≠j)相關(guān)向量影響的和,且更新后的值是距離,不是坐標(biāo)。因此,根據(jù)隨機(jī)梯度下降的思想,每次更新只與當(dāng)前實(shí)例相關(guān),即每次更新只更新某個(gè)具體實(shí)例。yj的更新方向沿著負(fù)梯度的方向進(jìn)行,更新yj時(shí)yj對(duì)應(yīng)的改變量為△yj≈-▽iE(yij,ys),其中▽iE(yij,ys)表示yj更新時(shí)E(yij,ys)對(duì)yj的梯度。E1(yij)可以表示為:

      (10)

      (11)

      在數(shù)據(jù)集中依次選擇向量yi,暫時(shí)固定yi,逐一遍歷數(shù)據(jù)集中向量yj,?j∈{{1,2,…,N}-{i}},然后每次使用隨機(jī)梯度更新yj。選擇yi之后,其他點(diǎn)yj在投影空間中的變化量即為梯度表示為:

      △yj(i)=-αθ(t)▽jEij

      (12)

      式中:yj(i)表示當(dāng)固定yi時(shí)yj的變化量。▽jEij是Eij對(duì)yj的導(dǎo)數(shù);θ(t)是隨迭代次數(shù)t變化的自適應(yīng)學(xué)習(xí)率函數(shù)。本文定義θ(t)為:

      (13)

      計(jì)算▽jEij為:

      (14)

      (15)

      根據(jù)式(12)、式(14)和式(15)可得:

      (16)

      式中:Nk是第k個(gè)類的樣本個(gè)數(shù);ys是屬于第k個(gè)類的樣本點(diǎn)。

      13.returnY,L,C

      (17)

      E2(ys)可以表示為另一種形式:

      在施工過(guò)程中,通常會(huì)使用多種不同類型的臨時(shí)施工構(gòu)件,并需要通過(guò)Revit軟件模擬施工,根據(jù)鋼梁的實(shí)際分段情況將其分為不同的組別,支架使用長(zhǎng)度和寬度均為1.0m的鉆孔樁為基礎(chǔ),承重的立柱選擇直徑為600mm的鋼管,2個(gè)橫向鋼管之間的分配梁均使用I56工字鋼。安裝拱柱時(shí),應(yīng)提前在鋼箱拱的上端布置相應(yīng)的支架,并在橋梁地面處設(shè)置長(zhǎng)寬高分別為5m、6.5m、0.7m的支架。

      (18)

      聚類中心點(diǎn)ck可以由屬于該簇的所有數(shù)據(jù)點(diǎn)決定,其計(jì)算式表示為:

      (19)

      為了達(dá)到降維過(guò)程中使用聚類引導(dǎo)降維,則需要求解每一次降維迭代中有可能屬于同一類簇的點(diǎn)。則E(yij,ys)對(duì)ys的導(dǎo)數(shù)為:

      在三門(mén)江林場(chǎng)中,為了使激勵(lì)發(fā)揮其本質(zhì)作用,真正的實(shí)現(xiàn)獎(jiǎng)懲分明、獎(jiǎng)勤罰懶,就必須制定合理的績(jī)效考核制度,這也是所有企業(yè)對(duì)員工工作成果評(píng)價(jià)的重要一環(huán)。對(duì)員工的工作進(jìn)行績(jī)效考評(píng),主要體現(xiàn)在兩個(gè)方面,一個(gè)是對(duì)工作"量"的考評(píng),一個(gè)是對(duì)工作"質(zhì)"的考評(píng)。在績(jī)效考核中,往往是綜合這兩方面來(lái)進(jìn)行,若人力資源管理只關(guān)注某一方面,工作就會(huì)過(guò)于片面???jī)效考核,需要對(duì)員工工作的優(yōu)缺點(diǎn)進(jìn)行客觀系統(tǒng)的評(píng)價(jià),通過(guò)科學(xué)合理的考核制度和考核辦法,將每個(gè)員工的工作考評(píng)進(jìn)行量化,得到一個(gè)最終成績(jī),依據(jù)此成績(jī),對(duì)員工的工作進(jìn)行獎(jiǎng)勵(lì)和懲罰決定。

      (20)

      9.使用式(15)更新yj;

      (21)

      除了使用式(19)求解聚類中心點(diǎn),也可以使用梯度下降求解聚類中心點(diǎn),即:

      但采爾在中研院的這段時(shí)間,蔡元培在上海醫(yī)院療養(yǎng)。但采爾多次致信問(wèn)候蔡元培,也講到他不適應(yīng)南京氣候,經(jīng)?;寄c疾,自己的病剛好,夫人又患類似的病,提出要提前回國(guó)。但采爾產(chǎn)生這個(gè)想法,除水土不服導(dǎo)致身體不適的原因外,更為重要的是當(dāng)時(shí)上海戰(zhàn)事不斷,他怕近在咫尺的南京受到牽連,同時(shí)也為能否拿到月俸和返國(guó)費(fèi)用而擔(dān)心。

      (3)在今后的研究中可以繼續(xù)聯(lián)合實(shí)地監(jiān)測(cè)數(shù)據(jù),除植被因素外,將景觀要素和土壤要素以及周邊居民滿意度等要素,在生態(tài)重建效果評(píng)價(jià)中的重要性考慮進(jìn)去。另外下一步工作中可以進(jìn)一步結(jié)合多種評(píng)價(jià)方法,例如和層次分析法、灰色關(guān)聯(lián)度法、聚類分析法、模糊綜合評(píng)價(jià)法等做對(duì)比,對(duì)研究區(qū)的生態(tài)重建效果進(jìn)行全面評(píng)價(jià)比較和分析。

      (22)

      根據(jù)式(22),聚類中心ck的迭代形式表示為:

      (23)

      2.3 算法描述

      ECE-CDA模型算法流程如算法1所示。

      算法1ECE-CDA算法

      輸入:X為一個(gè)N×p的數(shù)據(jù)集;d為低維投影空間的維度;m為類簇?cái)?shù);T為迭代次數(shù)。

      目前國(guó)內(nèi)外對(duì)于CKD-MBD療效尚無(wú)統(tǒng)一判定標(biāo)準(zhǔn),本次臨床研究參照第三版《腎臟病學(xué)》[11](王海燕主編)、2013年中華醫(yī)學(xué)會(huì)腎臟病學(xué)分會(huì)頒布的《慢性腎臟病礦物質(zhì)和骨異常診治指導(dǎo)》[8]及《中藥新藥臨床研究指導(dǎo)原則》中“中藥新藥治療慢性腎功能衰竭臨床研究指導(dǎo)原則”[9]而制定。CKD-MBD療效判定標(biāo)準(zhǔn):顯效:臨床癥狀積分減少在60%及以上,且血清Ca、P、iPTH至少有兩項(xiàng)在目標(biāo)范圍[12]之內(nèi)。有效:臨床癥狀積分減少在30%~60%,且血清Ca、P、iPTH只有一項(xiàng)在目標(biāo)范圍[12]之內(nèi)。無(wú)效:臨床癥狀積分減少在30%及以下,且血清Ca、P、iPTH均不在目標(biāo)范圍[12]之內(nèi)。

      輸出:Y為一個(gè)N×d的數(shù)據(jù)集;聚類標(biāo)簽L;聚類中心C。

      1.使用Dijkstra算法計(jì)算xij;

      2.使用X矩陣的均值和方差初始化矩陣Y,在Y中隨機(jī)選擇m個(gè)向量作為初始化聚類中心C。

      3.For 1:Tdo

      4.計(jì)算投影空間數(shù)據(jù)點(diǎn)之間的相對(duì)歐氏距離;

      5.計(jì)算C中的每個(gè)點(diǎn)到Y(jié)中其他點(diǎn)的距離,結(jié)果存入discp矩陣;

      6.根據(jù)discp將Y中的數(shù)據(jù)點(diǎn)分為m個(gè)類簇;

      F(yij,λy)取為單調(diào)遞減的有界函數(shù),其目的是在成對(duì)距離不能完全全部保持時(shí),傾向于保持鄰近的數(shù)據(jù)點(diǎn)之間的距離。

      袁安皺著眉道:“以谷里師父學(xué)長(zhǎng)們的本領(lǐng),是可以將蚊子除掉的,宇晴師父種一片驅(qū)蚊的花花草草,比如艾蒿什么的,司徒先生做一批可以捉蚊子的木人,不是鼓搗他那個(gè)‘刑天’,藥王他老人家配幾缸藥汁讓聾啞村的仆役們?yōu)撸瑬|方谷主再讓大家練一練‘去勢(shì)’劍法,三五天必有奇效。

      8.使用式(14)計(jì)算yj;

      根據(jù)隨機(jī)梯度下降(SGD)的相關(guān)研究[27-28],使用SGD對(duì)損失函數(shù)求解最小值,則ys的迭代形式可以表示為:

      10.使用式(19)更新ys;

      11.將更新后的ys按原始順序存入Y;

      12.end for

      在雞的日糧中添加中藥多糖,能顯著提高雞免疫法氏囊疫苗后的抗體水平和淋巴細(xì)胞增殖,在增強(qiáng)免疫功能方面表現(xiàn)出了很好的作用,其效果明顯好于黃芪多糖,在臨床應(yīng)用上中藥復(fù)方多糖效果也要好于單味多糖的效果.因此,中藥復(fù)方多糖可作為免疫增強(qiáng)劑廣泛應(yīng)用于家禽的生產(chǎn)上,具有很好的研究?jī)r(jià)值與應(yīng)用前景.

      在為期4天的游學(xué)之旅中,游學(xué)隊(duì)伍先后轉(zhuǎn)輾河南省上蔡金豐公社、邵店分社、韓寨分社、小岳寺分社,河南省驛城金豐公社、和崗分社、程樓分社,河北省行唐金豐公社、伏流分社、上碑分社,3個(gè)金豐公社10個(gè)觀摩點(diǎn),輾轉(zhuǎn)1000多公里,進(jìn)行現(xiàn)場(chǎng)觀摩學(xué)習(xí),各分社社長(zhǎng)現(xiàn)場(chǎng)講解如何建組織配機(jī)械、如何發(fā)動(dòng)農(nóng)戶、如何實(shí)現(xiàn)服務(wù)本村農(nóng)戶的過(guò)程和關(guān)鍵環(huán)節(jié),各事業(yè)合伙人現(xiàn)場(chǎng)提問(wèn),邊聽(tīng)邊記,學(xué)之所長(zhǎng)。

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文的實(shí)驗(yàn)在12個(gè)真實(shí)有效的來(lái)自于微軟亞洲研究院多媒體[29](MSRA-MM)和UCI機(jī)器學(xué)習(xí)資料庫(kù)[30]數(shù)據(jù)集上進(jìn)行。公開(kāi)訪問(wèn)的MSRA-MM由視頻和圖像數(shù)據(jù)集組成。其中圖像數(shù)據(jù)集包含65 433幅圖像,共有68個(gè)類別,每個(gè)類別大約包含1 000幅圖像。本文選用其中8個(gè)數(shù)據(jù)集。UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)目前大約包含488個(gè)數(shù)據(jù)集,本文選用其中4個(gè)數(shù)據(jù)集。數(shù)據(jù)集總結(jié)如表1所示。

      表1 實(shí)驗(yàn)數(shù)據(jù)集描述

      3.2 評(píng)價(jià)指標(biāo)

      本節(jié)將詳細(xì)闡述評(píng)價(jià)聚類和降維性能的度量標(biāo)準(zhǔn)。本文評(píng)價(jià)聚類和降維的性能均使用三種度量標(biāo)準(zhǔn),即準(zhǔn)確率[31]、純度[32]、Friedman統(tǒng)計(jì)量[33]。準(zhǔn)確率是根據(jù)實(shí)際的標(biāo)簽信息與模型預(yù)測(cè)的標(biāo)簽信息相對(duì)比而得到的比值。準(zhǔn)確率指標(biāo)計(jì)算式如下:

      (24)

      式中:k表示第k個(gè)類簇;m表示總的類簇?cái)?shù);ak表示第k個(gè)類簇中分類正確的樣本數(shù);N表示總的樣本數(shù)。Acc的取值范圍為[0,1],其中:Acc為0表示所有的樣本分到錯(cuò)誤的簇中去;Acc為1表示所有的樣本都分到正確的類簇。

      “機(jī)械工程材料基礎(chǔ)B”是由上海理工大學(xué)機(jī)械工程學(xué)院開(kāi)設(shè)的一門(mén)學(xué)科基礎(chǔ)課程,授課對(duì)象是非材料類的學(xué)生,主要包括能源與動(dòng)力學(xué)院和機(jī)械工程學(xué)院。這些學(xué)院的學(xué)生在今后學(xué)習(xí)專業(yè)課和進(jìn)行科研工作的時(shí)候,不需要應(yīng)用高深的材料學(xué)方面的知識(shí),但卻要掌握應(yīng)用需要選擇材料的方法和改進(jìn)材料性能的手段,以及運(yùn)用理論知識(shí)解釋工程實(shí)際中的現(xiàn)象等。根據(jù)機(jī)械設(shè)計(jì)制造及其自動(dòng)化專業(yè)工程認(rèn)證的要求,按照“評(píng)價(jià)—反饋—改進(jìn)”的質(zhì)量監(jiān)控和持續(xù)改進(jìn)機(jī)制,以“機(jī)械工程材料基礎(chǔ)B”的課程目標(biāo)及其對(duì)畢業(yè)要求的支撐為依據(jù),隨機(jī)抽取該專業(yè)學(xué)生的考試結(jié)果進(jìn)行分析和達(dá)成度計(jì)算,探討改進(jìn)教學(xué)質(zhì)量的途徑,培養(yǎng)符合工程認(rèn)證要求的畢業(yè)生。

      純度計(jì)算式定義為:

      (25)

      通過(guò)把結(jié)構(gòu)化與非結(jié)構(gòu)化的信息數(shù)據(jù)統(tǒng)一格式、統(tǒng)一基準(zhǔn)并空間化,導(dǎo)入到分布式文件系統(tǒng)HDFS中,導(dǎo)入完成后分布式文件系統(tǒng)自動(dòng)觸發(fā)檔案內(nèi)容提取流程,將辦公文檔、pdf、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)中的內(nèi)容提取出來(lái),按照特定的約束方式存到HBase構(gòu)建的內(nèi)容庫(kù)中,同時(shí)將結(jié)構(gòu)化數(shù)據(jù)發(fā)布到GIS服務(wù)集群中,供數(shù)據(jù)管理層提取和訪問(wèn)[3]。

      本文使用Friedman統(tǒng)計(jì)量[33]全面評(píng)估ECE-CDA算法與其他對(duì)比算法之間的性能差異。Friedman統(tǒng)計(jì)是一種非參數(shù)測(cè)試的統(tǒng)計(jì)方法,使用該方法可以對(duì)比一組算法的性能差異。Friedman統(tǒng)計(jì)先將原始計(jì)算結(jié)果排序,即對(duì)不同算法在每個(gè)數(shù)據(jù)集上的準(zhǔn)確率大小進(jìn)行排序,性能最佳的為1,次優(yōu)的排序?yàn)?,以此類推?;谂判虻臄?shù)值(rank值)、數(shù)據(jù)集個(gè)數(shù)和算法個(gè)數(shù)計(jì)算Friedman統(tǒng)計(jì)量,其定義如下:

      (26)

      通過(guò)計(jì)算FF對(duì)應(yīng)的F分布,查表可計(jì)算其ρ值,通過(guò)該值可評(píng)估算法性能。

      (27)

      3.3 實(shí)驗(yàn)設(shè)置

      本節(jié)詳細(xì)介紹實(shí)驗(yàn)設(shè)置。首先,ECE-CDA模型的性能與多個(gè)影響因素有關(guān),如參數(shù)的選擇、迭代次數(shù)的選擇及投影空間的維度等。投影空間維度的選擇對(duì)ECE-CDA模型性能的影響尤為顯著,一般來(lái)說(shuō)投影空間維度越大,原始樣本的信息保留程度就越好。為了公平進(jìn)行實(shí)驗(yàn)對(duì)比,本文中投影空間的維度選擇為原始樣本維度的十分之一左右。經(jīng)過(guò)參數(shù)調(diào)優(yōu)選擇,t0設(shè)置為0.5,α和β分別設(shè)置為0.7和0.3。

      在推理上,兩版教材的推理步驟以一步或兩步為主.與美GMH版相比,浙教版的推理主要有兩處:一是讓學(xué)生通過(guò)平方運(yùn)算求平方根,體會(huì)開(kāi)平方與平方運(yùn)算的互逆關(guān)系(見(jiàn)圖9);二是無(wú)理數(shù)的引入,強(qiáng)化學(xué)生對(duì)有理數(shù)、無(wú)理數(shù)以及實(shí)數(shù)概念的辨別.總的來(lái)說(shuō),浙教版的推理水平對(duì)學(xué)生要求不高,只要求學(xué)生能掌握運(yùn)算關(guān)系、概念等知識(shí)即可.

      在實(shí)際應(yīng)用場(chǎng)景中,ECE-CDA可以同時(shí)高效完成聚類和降維任務(wù),因此在評(píng)價(jià)ECE-CDA的性能時(shí),需要從降維和聚類兩個(gè)方面分別進(jìn)行評(píng)估。每個(gè)算法在每個(gè)數(shù)據(jù)集上執(zhí)行10次,最終結(jié)果表示為精度為0.000 1的平均值。每個(gè)算法均使用準(zhǔn)確率和純度兩種評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估,最終使用Friedman統(tǒng)計(jì)量評(píng)估算法的綜合性能。

      本文將實(shí)驗(yàn)分為兩組。第一組是綜合評(píng)估ECE-CDA模型的聚類性能。本文選用的聚類對(duì)比算法為分別為用于聚類集成的基于暗知識(shí)的非負(fù)矩陣分解[34](NMFCE)、最小二乘均衡的平衡聚類[35](BCLS)、AP和DP。第二組是綜合評(píng)估ECE-CDA模型的降維性能。由于無(wú)法直接知道降維后的數(shù)據(jù)保留了多少原始數(shù)據(jù)的信息,因此本文對(duì)降維算法降維后的低維數(shù)據(jù)均使用K-means進(jìn)行聚類,結(jié)合聚類評(píng)價(jià)降維性能,用降維后的低維數(shù)據(jù)的聚類結(jié)果評(píng)估降維后的數(shù)據(jù)對(duì)原始數(shù)據(jù)集的信息保留程度,本文選用的降維對(duì)比算法為CDA、Isomap、CCA和PCA。

      3.4 實(shí)驗(yàn)結(jié)果

      1) 表2和表3是將ECE-CDA、NMFCE、BCLS、AP和DP分別應(yīng)用于12個(gè)原始實(shí)驗(yàn)數(shù)據(jù)集的聚類結(jié)果,其中表2準(zhǔn)確率后括號(hào)中的數(shù)值是將原始聚類準(zhǔn)確率轉(zhuǎn)換為rank值的結(jié)果,rank值代表不同算法在每個(gè)數(shù)據(jù)集上對(duì)準(zhǔn)確率進(jìn)行排序的序號(hào)。對(duì)于相同數(shù)據(jù)集的不同算法準(zhǔn)確率和純度的最大值被加粗顯示。圖1將各個(gè)聚類對(duì)比算法在各個(gè)數(shù)據(jù)集上的準(zhǔn)確率與ECE-CDA算法進(jìn)行對(duì)比。

      表3 ECE-CDA和聚類算法在原始數(shù)據(jù)集上的純度對(duì)比

      續(xù)表3

      (1) 從聚類角度而言,ECE-CDA在大多數(shù)數(shù)據(jù)集上有更高的準(zhǔn)確率和純度值。如表2所示,ECE-CDA準(zhǔn)確率分別在D1、D3、D4、D5、D7、D8、D9、D10、D11上取得了最大值,在超過(guò)四分之三的數(shù)據(jù)上ECE-CDA算法的準(zhǔn)確度超過(guò)對(duì)比算法,而這四種對(duì)比算法僅在三個(gè)數(shù)據(jù)集上取得最優(yōu)結(jié)果。如表3所示,ECE-CDA純度在D5、D7、D9、D11、D12數(shù)據(jù)集上取得了最好的結(jié)果。ECE-CDA在12個(gè)實(shí)驗(yàn)數(shù)據(jù)集上取得了最高的平均準(zhǔn)確率和最高平均純度。由圖1可以看出,ECE-CDA的準(zhǔn)確率曲線在12個(gè)數(shù)據(jù)集上總體高于其他算法,這表明了ECE-CDA基于準(zhǔn)確率這個(gè)評(píng)價(jià)指標(biāo)其性能優(yōu)異。由表2和表3可見(jiàn),ECE-CDA在12個(gè)實(shí)驗(yàn)數(shù)據(jù)集上有最高的平均準(zhǔn)確率0.502 5和平均純度0.901 5。ECE-CDA的準(zhǔn)確度分別比NMFCE、BCLS、AP和DP高4.93、9.60、12.35和5.86百分點(diǎn)??傮w上,ECE-CDA在對(duì)數(shù)據(jù)進(jìn)行聚類時(shí),其性能明顯優(yōu)于本文所選擇的對(duì)比算法。

      (2) 基于Friedman統(tǒng)計(jì)測(cè)試對(duì)ECE-CDA聚類性能進(jìn)行綜合評(píng)價(jià),ECE-CDA聚類性能相比于其他對(duì)比算法更優(yōu)異。在表2中,ECE-CDA、NMFCE、BCLS、AP和DP在各個(gè)數(shù)據(jù)集上準(zhǔn)確率的平均rank值分別為1.250 0、2.833 3、4.333 3、3.833 3和2.750 0。其中最優(yōu)是ECE-CDA為1.250 0,第二為DP,第三為NMFCE,最后兩位為AP和BCLS。Friedman統(tǒng)計(jì)量為:

      4.8·[1.562 5+8.027 6+18.777 5+14.694 2+7.562 5-45]≈

      26.996 6

      則Iman-Davenport為:

      2) 本次實(shí)驗(yàn)5個(gè)算法,12個(gè)數(shù)據(jù)集,F(xiàn)F服從于自由度為5-1=4和(12-1)(5-1)=44的F分布。由F(4,44)分布計(jì)算的ρ值為1.70×10-7,所以在高顯著性水平下拒絕原假設(shè),即綜合評(píng)價(jià)ECE-CDA算法聚類性能優(yōu)于其他對(duì)比算法。

      表4和表5是將CDA、Isomap、CCA和PCA分別應(yīng)用于12個(gè)原始實(shí)驗(yàn)數(shù)據(jù)集的降維結(jié)果,其中表4準(zhǔn)確率后括號(hào)中的數(shù)值是將原始降維準(zhǔn)確率轉(zhuǎn)換為rank值的結(jié)果,rank值代表不同算法在每個(gè)數(shù)據(jù)集上對(duì)準(zhǔn)確率進(jìn)行排序的序號(hào)。對(duì)于相同數(shù)據(jù)集的不同算法準(zhǔn)確率和純度的最大值被加粗顯示。圖2詳細(xì)地將各個(gè)降維對(duì)比算法在各個(gè)數(shù)據(jù)集上的準(zhǔn)確率與ECE-CDA算法進(jìn)行對(duì)比。

      表4 ECE-CDA和降維算法在降維后數(shù)據(jù)集上的準(zhǔn)確率對(duì)比

      表5 ECE-CDA和降維算法在降維后數(shù)據(jù)集上的純度對(duì)比

      圖2 ECE-CDA和對(duì)比算法在降維后數(shù)據(jù)集上 聚類準(zhǔn)確率對(duì)比

      (1) ECE-CDA與其他對(duì)比算法相比具有更高的準(zhǔn)確率和純度值。在表4中,ECE-CDA在12個(gè)數(shù)據(jù)集上取得了最大準(zhǔn)確率,ECE-CDA在六分之五的數(shù)據(jù)集上,其降維性能優(yōu)于CDA、Isomap、CCA和PCA。在表5中,ECE-CDA在8個(gè)數(shù)據(jù)集上相比于其他算法取得了最大純度值。總之,ECE-CDA在12個(gè)數(shù)據(jù)集上準(zhǔn)確率和準(zhǔn)度均取得了最大值。由圖2可以看出,ECE-CDA在12個(gè)數(shù)據(jù)集上有最高平均準(zhǔn)確率0.493 2,分別比CDA、Isomap、CCA和PCA高6.61、4.10、3.58和4.30百分點(diǎn)。更多ECE-CDA降維性能的細(xì)節(jié)見(jiàn)表4、表5和圖2。

      (2) 基于Friedman統(tǒng)計(jì)測(cè)試對(duì)ECE-CDA降維性能進(jìn)行綜合評(píng)價(jià),ECE-CDA降維性能相比于其他對(duì)比算法更優(yōu)異。在表4中,ECE-CDA和CDA、Isomap、CCA和PCA在各個(gè)降維后數(shù)據(jù)集上的K-means準(zhǔn)確率的平均rank值分別為1.250 0、4.416 7、3.250 0、2.750 0和3.333 3。其中最優(yōu)是ECE-CDA,其他依次為CCA、Isomap、PCA和CDA。Friedman統(tǒng)計(jì)量為:

      4.8·[1.562 5+19.507 2+10.562 5+7.562 5+11.110 9-45]≈

      25.466 9

      則Iman-Davenport為:

      本次實(shí)驗(yàn)5個(gè)算法,12個(gè)數(shù)據(jù)集,F(xiàn)F服從于自由度為5-1=4和(12-1)(5-1)=44的F分布。由F(4,44)分布計(jì)算的ρ值為7.54×10-7,所以在高顯著性水平下拒絕原假設(shè),即綜合評(píng)價(jià)ECE-CDA算法降維性能優(yōu)于其他對(duì)比算法。

      總之,ECE-CDA算法的性能達(dá)到了一個(gè)較高的水平,ECE-CDA在同時(shí)實(shí)現(xiàn)準(zhǔn)確聚類和降維方面性能優(yōu)異。

      4 結(jié) 語(yǔ)

      本文提出了一種基于曲線距離分析的嵌入式聚類算法ECE-CDA用于同時(shí)準(zhǔn)確實(shí)現(xiàn)聚類和降維。與傳統(tǒng)的方法不同,ECE-CDA將聚類過(guò)程嵌入在降維中,由聚類引導(dǎo)降維。ECE-CDA先使用Dijkstra算法計(jì)算數(shù)據(jù)點(diǎn)對(duì)在高維非線性空間的曲線距離,再構(gòu)造權(quán)重函數(shù)保持局部拓?fù)浣Y(jié)構(gòu)不變性,最后在聚類的引導(dǎo)下將數(shù)據(jù)點(diǎn)之間的曲線距離投影至低維空間。ECE-CDA模型可看作一個(gè)通用的高精度框架,即用于實(shí)現(xiàn)同時(shí)聚類和降維。實(shí)驗(yàn)結(jié)果表明所提出的ECE-CDA算法在降維和聚類上性能優(yōu)異,其正確性和可行性都較高,有廣泛的應(yīng)用場(chǎng)景。

      受算法設(shè)計(jì)影響,本文每一次更新迭代都需要計(jì)算成對(duì)距離矩陣。未來(lái)將致力于研究迭代求解算法的大矩陣計(jì)算的相關(guān)問(wèn)題,并引入更多的數(shù)據(jù)信息,進(jìn)一步提高算法的計(jì)算速度和結(jié)果的準(zhǔn)確度。

      猜你喜歡
      降維集上準(zhǔn)確率
      混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      Cookie-Cutter集上的Gibbs測(cè)度
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      復(fù)扇形指標(biāo)集上的分布混沌
      拋物化Navier-Stokes方程的降維仿真模型
      武宣县| 洛南县| 石渠县| 万年县| 九龙坡区| 乌苏市| 汪清县| 台江县| 崇州市| 颍上县| 杨浦区| 镇原县| 泰宁县| 阜新市| 汶川县| 泰州市| 灌云县| 张北县| 尼木县| 旅游| 自治县| 专栏| 蒲城县| 乐清市| 石首市| 崇文区| 全椒县| 剑阁县| 台北县| 九龙城区| 黑龙江省| 日照市| 遵义市| 丰顺县| 上蔡县| 嫩江县| 南投市| 错那县| 太和县| 兴安盟| 新干县|