• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Hadoop框架下的多標簽傳播算法

      2015-12-26 03:10:27孫霞張敏超馮筠張蕾何緋娟
      西安交通大學(xué)學(xué)報 2015年5期
      關(guān)鍵詞:標簽分類矩陣

      孫霞,張敏超,馮筠,張蕾,何緋娟

      (1.西北大學(xué)信息科學(xué)與技術(shù)學(xué)院,710127,西安;2.西安交通大學(xué)城市學(xué)院,710018,西安)

      ?

      Hadoop框架下的多標簽傳播算法

      孫霞1,張敏超1,馮筠1,張蕾1,何緋娟2

      (1.西北大學(xué)信息科學(xué)與技術(shù)學(xué)院,710127,西安;2.西安交通大學(xué)城市學(xué)院,710018,西安)

      標簽傳播算法的主要思想是利用已標注數(shù)據(jù)的標簽信息預(yù)測未標注數(shù)據(jù)的標簽信息。然而,傳統(tǒng)傳播算法沒有區(qū)別對待未標注數(shù)據(jù)與已標注數(shù)據(jù)相互之間的轉(zhuǎn)移信息,導(dǎo)致算法的收斂速度較慢,影響了算法的性能。針對傳統(tǒng)算法的不足,提出了差異權(quán)重標簽傳播算法,算法按標注信息的重要性賦予不同的權(quán)重。在解決了大規(guī)模特征矩陣相乘問題之后,將提出的差異權(quán)重標簽傳播算法應(yīng)用到Hadoop框架下,采用分布式計算,實現(xiàn)了能夠處理大規(guī)模數(shù)據(jù)的多標簽分類算法(HSML),并將提出的HSML算法與現(xiàn)有主流多標簽分類算法進行了性能比較。實驗結(jié)果表明,HSML算法在多標簽分類的各項性能評測指標和執(zhí)行速度上都是有效的。

      Hadoop;多標簽分類;標簽傳播算法

      傳統(tǒng)分類學(xué)習(xí)問題研究如何將待分類樣本準確地劃分到唯一的某一類中,即單標簽分類。然而,真實世界的對象往往并不只具有唯一的語義。每個對象由多個類別標注,學(xué)習(xí)的目標是將所有合適的類別標注賦予未見對象,即多標簽分類學(xué)習(xí)。

      多標簽分類的研究對多義性對象學(xué)習(xí)模型的建立具有相當重要的意義,現(xiàn)已逐漸成為國際機器學(xué)習(xí)界一個新的研究熱點[1-4]。目前,研究者針對多標簽分類問題提出了基于問題轉(zhuǎn)化和基于算法轉(zhuǎn)化的兩大類解決方法。問題轉(zhuǎn)化法的主要思想是將多標簽分類問題轉(zhuǎn)化為多個單標簽分類,再利用已有的單標簽分類方法完成分類任務(wù)。常見的問題轉(zhuǎn)化法是二元關(guān)系法(BR)[5]、標簽冪集法(LP)[6]等。與問題轉(zhuǎn)化法不同,算法轉(zhuǎn)化法通過直接改進已有的單標簽分類算法進行多標簽分類。有多標簽K近鄰(MLKNN)算法[7]、基于神經(jīng)網(wǎng)絡(luò)的反向傳播多標簽分類算法(BPMLL)[8]、Rank-SVM多標簽分類算法[9]等。

      多標簽學(xué)習(xí)所面臨的最大挑戰(zhàn)在于標簽空間過大。若一個標簽集合具有20個類別,則可能的類別標簽集合數(shù)將超過一百萬(即220)。為了有效應(yīng)對標注集合空間過大所造成的學(xué)習(xí)困難,本文提出了分布式學(xué)習(xí)框架下的多標簽分類算法HSML。

      1 差異權(quán)重的標簽傳播算法

      標簽傳播算法(LPA)[10]是在2002年由Zhu等人提出的一種基于圖的半監(jiān)督學(xué)習(xí)方法,其主要思想是利用已標注數(shù)據(jù)的標簽信息來預(yù)測未標注數(shù)據(jù)的標簽信息。它首先用數(shù)據(jù)間的關(guān)系建立一個關(guān)系完全圖,圖中節(jié)點包含已標注數(shù)據(jù)和未標注數(shù)據(jù),連接兩個頂點的邊用相似度表示,頂點的標簽信息通過轉(zhuǎn)移概率傳遞給其他相鄰頂點,頂點間相似度越大,標簽傳播的信息也就越多,反復(fù)迭代直到收斂。然而,在迭代過程中,傳統(tǒng)傳播算法沒有區(qū)別對待未標注數(shù)據(jù)與已標注數(shù)據(jù)相互之間的轉(zhuǎn)移信息,導(dǎo)致算法的收斂速度較慢,從而影響了算法的性能。針對傳統(tǒng)算法的不足,本文提出了差異權(quán)重的標簽傳播算法。

      1.1 算法思想

      在傳播算法的每次迭代過程中,未標注數(shù)據(jù)都被重新標注。因此,將這些數(shù)據(jù)從未標注數(shù)據(jù)集移到已標注數(shù)據(jù)集中,與初始標注數(shù)據(jù)集構(gòu)成新的標注數(shù)據(jù)集,指導(dǎo)下次迭代,以達到提高分類準確率的目的。初始標簽矩陣F,記為

      (1)

      式中:FL為已標注標簽;FU為未標注標簽。標簽之間的轉(zhuǎn)移概率矩陣為P,有

      (2)

      標注轉(zhuǎn)移過程為:FL以PLL的轉(zhuǎn)移子陣向自身轉(zhuǎn)移,FL以PLU的轉(zhuǎn)移子陣向FU轉(zhuǎn)移,FU以PUU的轉(zhuǎn)移子陣向自身轉(zhuǎn)移,FU以PUL的轉(zhuǎn)移子陣向FL轉(zhuǎn)移。由于FL和FU所含的信息量不同,有標簽數(shù)據(jù)向無標簽數(shù)據(jù)轉(zhuǎn)移的信息要比無標簽數(shù)據(jù)之間的相互轉(zhuǎn)移信息重要的多,更比無標簽數(shù)據(jù)向有標簽數(shù)據(jù)轉(zhuǎn)移的信息重要。若對這些不同子陣間的轉(zhuǎn)移不加以區(qū)分,會出現(xiàn)少量的真實信息被大量的虛假信息淹沒,導(dǎo)致分類效果降低。因此,對于PLU和PUL轉(zhuǎn)移子陣按信息的重要性賦予不同的權(quán)重。

      1.2 算法描述

      差異權(quán)重多標簽傳播算法描述如下。

      輸入:初始標注訓(xùn)練集XL={(x1,y1),(x2,y2),…,(xl,yl)},未標注訓(xùn)練集XU={x1,x2,…,xu}。

      輸出:未標注數(shù)據(jù)的標簽FU。

      步驟1 依據(jù)訓(xùn)練數(shù)據(jù)建立關(guān)系完全圖。

      步驟4 根據(jù)已標注數(shù)據(jù)初始化標注矩陣F=(FL,FU),其中FU每個分量賦值1/C,依據(jù)已標注數(shù)據(jù)的類標注給相應(yīng)的FL賦值。

      步驟6 從W中選出與xui最近鄰的K個已標注樣本,如果這K個樣本中有K*個樣本的標簽相同,則轉(zhuǎn)向步驟7,否則轉(zhuǎn)向步驟4中的下一個xui。

      步驟9 把已標注數(shù)據(jù)的概率分布設(shè)置為類的概率值。

      步驟10 重復(fù)步驟4~9,直到F收斂。

      2 HSML算法

      若將一個有n(n>5)類別的多標簽分類問題中大量的數(shù)據(jù)計算全部投入到單機上,可能造成計算時間過長或者內(nèi)存不足,從而引起分類失敗。為了有效應(yīng)對標注集合空間過大所造成的學(xué)習(xí)困難,本文引入了Hadoop分布式框架[11-12]。Hadoop分布式框架分為Map和Reduce兩個部分,Map對一些獨立元素進行相應(yīng)處理,Reduce是對處理結(jié)果的一個整合。本文把多標簽學(xué)習(xí)問題分解成多個單標簽學(xué)習(xí)問題,利用Map和Reduce構(gòu)建2n個單標簽分類算法,最后整合各分類的結(jié)果,形成最終的多標簽分類結(jié)果。

      2.1 矩陣相乘

      本文采用空間向量模型VSM表示每一個樣本。若每一個樣本用m維特征表示,則樣本集大小為n的訓(xùn)練數(shù)據(jù)可以表示成一個n×m矩陣,通常這樣的矩陣具有高維、稀疏的特點,而高維、稀疏矩陣相乘存在耗時長、占用內(nèi)存高的問題,因此需要尋求高效解決矩陣相乘的方法。

      傳統(tǒng)的矩陣運算是矩陣A中的每一行分別與矩陣B中的每一列相乘。當矩陣規(guī)模增大時,受限于內(nèi)存大小,一臺服務(wù)器已經(jīng)無法處理。稀疏矩陣具有天然可分塊特性,出現(xiàn)了許多基于Hadoop的分塊矩陣計算方法。算法思想是:將矩陣A中的分塊分別與矩陣B相乘,通過Hadoop,每個分塊的矩陣相乘可在不同的計算節(jié)點完成,最后將結(jié)果組合,大大提高了計算速度。

      最小粒度相乘算法具有不受限計算節(jié)點內(nèi)存限制的優(yōu)勢,成為矩陣相乘的主流算法。假設(shè)有兩個超大矩陣A和B,A是一個m×r矩陣,B是一個r×n矩陣,則A中的每個元素Aik與B中第k行元素Bkj依次相乘,計算結(jié)果分別為Cij中的一個組成部分;B中的每個元素Bkj與A中第j列元素Aik依次相乘,計算結(jié)果分別為Cij的一個組成部分。由于Aik×Bkj是獨立的,可由不同計算節(jié)點進行運算,最后依據(jù)(i,j)(記為key值)將運算結(jié)果匯總相加,得到Cij。每個計算節(jié)點計算時只加載兩個數(shù)進行相乘。理論上只要Hadoop的HDFS文件系統(tǒng)足夠大,就可以計算任意規(guī)模的矩陣相乘。然而在實際操作中,Map的每條輸入記錄只被處理一次便不再使用。因此,對于矩陣A中的每個元素,進行乘法運算之前,需要生成n個副本;對于矩陣B中每個元素,需要生成m個副本,并將相應(yīng)位置上的副本相對應(yīng)。例如,對于Aik需生成n個副本,與B中相應(yīng)元素對應(yīng)并以A中元素的行號、B中元素的列號作為key值,矩陣表示為

      i-jAik-Bkj

      (3)

      這種方式勢必增加時間復(fù)雜度,降低可行性。因此,本文提出了改進的基于Hadoop的最小粒度相乘算法。

      2.2 改進的最小粒度相乘算法

      由于key值不具備明顯的區(qū)分度,且Map過程中內(nèi)存不保留矩陣元素,將數(shù)據(jù)組織成式(3)格式是極其困難的,在Map輸入前查詢數(shù)據(jù)庫所耗費的時間也是難以接受的。不難發(fā)現(xiàn),最終結(jié)果CiJ是由r個值相加而成的,第k個組成成分為Aik-Bkj。為了使key值更具有區(qū)分度,將key值修改為

      i-j-kAik,i-j-kBkj

      (4)

      這樣key值所代表的是兩個值相乘,得到了Cij中第k個組成元素。矩陣A與矩陣B在Map階段完成數(shù)據(jù)副本拷貝后,所有的Map數(shù)據(jù)記錄中i-j-k的key值有且至多有兩個。

      由于矩陣A中每個元素理論上都需要被計算n遍,矩陣B中每個元素都需要被計算m遍,因此式(4)中有j=1,2,…,k,…,n;i=1,2,…,k,…,m。每個元素的副本拷貝都是獨立的,可由不同的Map進行計算,故大大加快了拷貝的速度。

      2.3 Hadoop下二元分類器構(gòu)建

      HSML算法是對每個標簽構(gòu)建一個二元分類器,最后再對整個結(jié)果進行組合。Hadoop下的二元分類器構(gòu)建過程如圖1所示。

      (1)首先對數(shù)據(jù)集進行特征選擇。在后面的實驗中,我們使用自建的數(shù)據(jù)集“Pubmed”,該數(shù)據(jù)集所處理的對象是文本數(shù)據(jù),因此選擇詞組作為文本特征。通過統(tǒng)計分析,僅提取DT+NN、JJ+NN、JJ+JJ+NN、JJ+JJ+NN+NNS、JJ+NN+NN、NN等形式的名詞詞組,其中DT是限定詞,JJ是形容詞,NN是單數(shù)名詞、NNS是復(fù)數(shù)名詞。然后,采用信息增益的方法計算詞特征權(quán)重,選擇大于閾值的那些詞表示數(shù)據(jù),同時提取標注數(shù)據(jù)的標簽特征屬性,分別得到特征向量矩陣和類別矩陣。

      圖1 Hadoop下的二元分類器構(gòu)建過程

      (2)第一個MapReduce階段是進行矩陣計算,完成一次標簽傳播過程。采用本文提出的改進的最小粒度相乘算法,充分利用分布式計算特點,實現(xiàn)了快速稀疏矩陣相乘。Reducer函數(shù)的輸出為式(4)的格式。

      (3)第二個MapReduce階段是是采用1.2節(jié)提出的差異權(quán)重的標簽傳播算法,對標簽數(shù)據(jù)進行重構(gòu)。有標簽數(shù)據(jù)向無標簽數(shù)據(jù)轉(zhuǎn)移的信息要比無標簽數(shù)據(jù)之間相互轉(zhuǎn)移的信息重要,更比無標簽數(shù)據(jù)向有標簽數(shù)據(jù)轉(zhuǎn)移的信息重要,因此利用近鄰假設(shè),對各概率轉(zhuǎn)移子陣賦予不同的權(quán)重。在傳播算法過程中,未標注數(shù)據(jù)被重新標注,并將這些數(shù)據(jù)從未標注數(shù)據(jù)集移到已標注數(shù)據(jù)集中,與初始標注數(shù)據(jù)集構(gòu)成新的標注數(shù)據(jù)集,指導(dǎo)下次迭代。

      (4)重復(fù)執(zhí)行上述兩個MapReduce過程,直到算法收斂。

      (5)將最終結(jié)果表示成(標簽,數(shù)據(jù)列表)二元組形式。

      (6)對每個標簽都執(zhí)行上述過程,最后整合結(jié)果完成多標簽分類。

      3 實驗結(jié)果與分析

      本實驗平臺基本配置為HP臺式機,Win7、Linux操作系統(tǒng),Intel酷睿i5處理器,2 GB內(nèi)存,1 TB硬盤,主要使用Matlab和Java編程語言實現(xiàn)。

      3.1 數(shù)據(jù)集描述

      實驗釆用Emotions、Image、Yeast和Pubmed 4個數(shù)據(jù)集。前3個是公開數(shù)據(jù)集,可從數(shù)據(jù)堂[13]下載獲取,Pubmed是本文構(gòu)建的數(shù)據(jù)集。首先向PubMed數(shù)據(jù)庫提交“Lung Cancer”關(guān)鍵字,檢索并收集有關(guān)肺癌文獻摘要,然后提取文獻中的MeSH標注作為該文獻的標簽數(shù)據(jù)。實驗中所使用的數(shù)據(jù)集基本信息如表1所示。

      表1 數(shù)據(jù)集特征描述

      3.2 評價指標

      本文采用的評價指標有Hamming loss、One-error、Coverage、Ranking loss、Average-precision等。Hamming loss、One-error、Coverage、Ranking loss 4個評價指標的值越小,說明多標簽分類器的性能越好,而Average precision的值越大,說明多標簽分類器的性能越好。

      (1)Hamming loss度量多標簽分類器預(yù)測出的標簽與實際標簽之間的差距,即

      (5)

      (2)One-error度量平均對每個樣本的預(yù)測標簽排序中,排在第一位的標簽不在該樣本的相關(guān)標簽集中的概率,即

      ?Yi|

      (6)

      Coverage度量平均對每個樣本的預(yù)測標簽排序中,需要在標簽排序列表中最少查找到第幾位才可以找出所有與該樣本相關(guān)的標簽,即

      (7)

      (3)Ranking loss度量所有樣本的預(yù)測標簽排序中,不相關(guān)標簽排在相關(guān)標簽前面的平均概率

      rankingloss(f)=

      (8)

      (4)Average precision度量所有樣本的預(yù)測標簽排序中,排在相關(guān)標簽前面的是相關(guān)標簽的平均概率,即

      (9)

      3.3 實驗結(jié)果

      表2對比了本文提出的HSML算法與現(xiàn)有主流多標簽分類算法的性能。LIFT、ML-KNN以及BP-MLL算法源代碼可從文獻[14]下載獲取。

      由表2可知,HSML算法在Hamming loss指標上稍遜色于LIFT算法、在Coverage上分類性能比BP-MLL稍低以外,在其他指標上均占優(yōu)勢。尤其是對于已標注數(shù)據(jù)較少的數(shù)據(jù)集,HSML算法具有明顯優(yōu)勢,整體性能優(yōu)于其他3個算法,充分體現(xiàn)了半監(jiān)督算法對標注數(shù)據(jù)量要求不高的優(yōu)點。

      表2 4種多標簽算法的分類性能

      圖2展示了HSML在各數(shù)據(jù)集上的加速比,從而驗證了該算法的執(zhí)行效率。

      圖2 HSML在各數(shù)據(jù)集上的加速比

      從圖2可以看出,當機器數(shù)量越多時,算法的加速比越大,算法的執(zhí)行效率越高。當只有一臺主機時,算法的加速均比小于1,這是因為Hadoop復(fù)制數(shù)據(jù)以及其它內(nèi)部操作消耗時間,默認將數(shù)據(jù)備份2份的緣故。數(shù)據(jù)量越大,隨著主機數(shù)量增加,其加速比越大,這充分體現(xiàn)了HSML算法的優(yōu)勢,即更易處理大數(shù)據(jù)。

      表3對比了各算法在Pubmed數(shù)據(jù)集上的訓(xùn)練與測試時間。從表3可知,HSML算法在Pubmed數(shù)據(jù)集上所花費的時間最少。尤其是與ML-KNN算法相比,HSML算法無論是訓(xùn)練用時還是測試用時都明顯較少。這是由于ML-KNN是一種懶惰學(xué)習(xí)技術(shù),采用在線的方式對測試樣本的類標注進行預(yù)測,因此計算量大。

      表3 各算法在Pubmed數(shù)據(jù)集上的訓(xùn)練與測試時間

      綜上所述,HSML算法具有較好的性能,理論上在主機足夠多的情況下,能處理任意規(guī)模的大數(shù)據(jù)計算問題,充分發(fā)揮了Hadoop的優(yōu)越性。

      4 總 結(jié)

      傳統(tǒng)的標簽傳播算法是一種基于流行假設(shè)的半監(jiān)督學(xué)習(xí)算法,通過迭代將標注信息傳遞給鄰近節(jié)點,由于沒有區(qū)別對待未標注數(shù)據(jù)與已標注數(shù)據(jù)相互之間轉(zhuǎn)移信息,導(dǎo)致算法的收斂速度較慢。本文在迭代過程中將標注數(shù)據(jù)和未標注數(shù)據(jù)的轉(zhuǎn)移概率按重要程度賦予相應(yīng)的權(quán)重,利用近鄰規(guī)則的Depuration數(shù)據(jù)剪輯技術(shù)把每次迭代后準確標注的未標注數(shù)據(jù)加到標注數(shù)據(jù),重構(gòu)標注數(shù)據(jù),提出差異權(quán)重標簽傳播算法,從而加快算法的收斂速度,提高算法性能。將多標簽學(xué)習(xí)問題分解成多個單標簽學(xué)習(xí)問題,造成標簽空間過大。為了有效應(yīng)對這一挑戰(zhàn),在解決大規(guī)模矩陣相乘問題后,將提出的差別權(quán)重標簽傳播算法應(yīng)用到Hadoop框架下,使算法能夠適應(yīng)大規(guī)模數(shù)據(jù)多標簽分類問題。

      [1] ZHANG Minling, ZHOU Zhihua. A review on multi-label learning algorithms [J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 26(8): 1-59.

      [2] XU Miao, LI Yufeng, ZHOU Zhihua. Multi-label learning with pro loss [C]∥Proceedings of the 27th AAAI Conference on Artificial Intelligence. Palo Alto, California, USA: AAAI, 2013: 998-1004.

      [3] SUN Y Y, ZHANG Y, ZHOU Z H. Multi-label learning with weak label [C]∥24th AAAI Conference on Artificial Intelligence. Palo Alto, California, USA: AAAI, 2010:593-598.

      [4] 孔祥南, 黎銘, 姜遠, 等. 一種針對弱標記的直推式多標記分類方法 [J]. 計算機研究與發(fā)展, 2010, 47(8): 1392-1399. KONG Xiangnan, LI Ming, JIANG Yuan, et al. A transductive multi-label classification method for weaklabeling [J]. Journal of Computer Research and Development, 2010, 47(8): 1392-1399.

      [5] BOUTELL M R, LUO J, SHEN X, et al. Learning multi-label scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.

      [6] TSOUMAKAS G, VLAHAVAS I. Random k-labelsets: an ensemble method for multilabel classification [C]∥18th European Conference on Machine Learning. Berlin, Germany: Springer, 2007: 406-417.

      [7] ZHANG Minling, ZHOU Zhihua. ML-kNN: a lazy learning approach to multi-label learning [J]. Pattern Recognition, 2007, 40(7): 2038-2048.

      [8] ZHANG Minling, ZHOU Zhihua. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351

      [9] ELISSEEFF A, WESTON J. A kernel method for multi-labelled classification [C]∥Advances in Neural Information Processing Systems. Cambridge, MA, USA: MIT, 2002: 681-687.

      [10]ZHU X J, GHAHRAMANI Z. Learning from labeled and unlabeled data with label propagation, CMU-CALD-02-107 [R]. Pittsburghers, USA: Carnegie Mellon University, 2002.

      [11]Welcome to Apache [EB/OL]. [2013-10-14]. http:∥hadoop.apache.org.

      [12]Hadoop 集群安裝 [EB/OL]. [2013-12-20]. http:∥blog.csdn.net/liou825/article/details/9320745.

      [13]數(shù)據(jù)堂 [EB/OL]. [2014-04-01]. http:∥www.datatang.com/data/list.

      [14]張敏靈個人主頁 [EB/OL]. [2014-04-01]. http:∥cse.seu.edu.cn/people/zhangml/Publication.htm.

      [本刊相關(guān)文獻鏈接]

      馬莉,唐善成,王靜,等.云計算環(huán)境下的動態(tài)反饋作業(yè)調(diào)度算法.2014,48(7):77-82.[doi:10.7652/xjtuxb201407014]

      陳秀真,李生紅,凌屹東,等.面向拒絕服務(wù)攻擊的多標簽IP返回追蹤新方法.2013,47(10):13-17.[doi:10.7652/xjtuxb 201310003]

      劉光輝,任慶昌,孟月波,等.自適應(yīng)先驗馬爾可夫隨機場模型的圖像分割算法.2013,47(10):62-67.[doi:10.7652/xjtuxb201310011]

      杜友田,辛剛,鄭慶華.融合異構(gòu)信息的網(wǎng)絡(luò)視頻在線半監(jiān)督分類方法.2013,47(7):96-101.[doi:10.7652/xjtuxb201307 018]

      艾波,胡軍,張早校,等.含缺陷蒸汽發(fā)生器管道爆破壓力預(yù)測的遺傳-神經(jīng)網(wǎng)絡(luò)算法.2011,45(9):84-89.[doi:10.7652/xjtuxb201109016]

      徐勝軍,韓九強,趙亮,等.用于圖像分割的局部區(qū)域能量最小化算法.2011,45(8):7-12.[doi:10.7652/xjtuxb201108 002]

      溫超,耿國華,李展.構(gòu)建新包空間的多示例學(xué)習(xí)方法.2011,45(8):62-66.[doi:10.7652/xjtuxb201108011]

      余思,桂小林,黃汝維,等.一種提高云存儲中小文件存儲效率的方案.2011,45(6):59-63.[doi:10.7652/xjtuxb201106 011]

      (編輯 趙煒)

      A Label Propagation Algorithm for Multi-Label Classification Using Hadoop Technology

      SUN Xia1, ZHANG Minchao1, FENG Jun1, ZHANG Lei1, HE Feijuan2

      (1. School of Information and Technology, Northwest University, Xi’an 710127, China; 2. Department of Computer Science, Xi’an Jiaotong University City College, Xi’an 710018, China)

      A method of label propagation using Hadoop technology, named HSML, is proposed, to cope with the challenge of exponential-sized output space learning from multi-label data. Label propagation algorithms are graph-based semi-supervised learning methods, and use the label information of labeled data to predict the label information of unlabeled data. Traditional label propagation algorithms do not consider the posterior probability and distinguish information between labeled data and unlabeled data during the label propagation process, hence, the performance of traditional label propagation algorithms is affected. Therefore, a label propagation algorithm with different weights is proposed. After the multiplication problem of large-scale feature matrices is solved, the proposed algorithm is applied to the framework of Hadoop to deal with the problem of multi-label classification learning from big data. Experimental results and comparisons with some well-established multi-label learning algorithms, show that the performance of HSML is superior, and that the bigger test set is the faster HSML runs.

      Hadoop; multi-label classification; label propagation algorithm

      2014-11-18。

      孫霞(1977—),女,副教授。

      國家自然科學(xué)基金資助項目(61202184,61100166);陜西省教育廳資助項目(2013JK1152)。

      10.7652/xjtuxb201505021

      TP391

      A

      0253-987X(2015)05-0134-06

      猜你喜歡
      標簽分類矩陣
      分類算一算
      分類討論求坐標
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      數(shù)據(jù)分析中的分類討論
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      教你一招:數(shù)的分類
      初等行變換與初等列變換并用求逆矩陣
      標簽化傷害了誰
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      三原县| 玉屏| 屏山县| 滁州市| 绩溪县| 浠水县| 军事| 石林| 星座| 湾仔区| 台东市| 彭水| 焉耆| 梨树县| 湖口县| 新蔡县| 道孚县| 象州县| 蕉岭县| 射洪县| 松滋市| 东港市| 红河县| 卢氏县| 浮山县| 南川市| 双辽市| 明星| 天等县| 临西县| 勃利县| 江门市| 游戏| 咸丰县| 瓮安县| 富平县| 始兴县| 肥东县| 天台县| 安达市| 高安市|