• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于半監(jiān)督的SVM多標簽圖數(shù)據(jù)分類算法研究

      2019-07-08 03:32:55宋文廣李程文譚建平
      無線互聯(lián)科技 2019年8期

      宋文廣 李程文 譚建平

      摘 ? 要:傳統(tǒng)的圖數(shù)據(jù)分類研究主要集中在單標簽集,然而在很多應(yīng)用中,每個圖數(shù)據(jù)都會同時具有多個標簽集。文章研究關(guān)于多標簽圖數(shù)據(jù)分類問題,并提出基于半監(jiān)督的SVM多標簽圖數(shù)據(jù)分類算法。算法首先通過一對多二元分解將多標簽圖數(shù)據(jù)分解成多個單標簽圖數(shù)據(jù)。然后對分解后的圖數(shù)據(jù),運用半監(jiān)督SVM進行分類。通過實驗證明,該方法在已標注圖數(shù)據(jù)較少情況下具有較高的分類精度。

      關(guān)鍵詞:圖數(shù)據(jù);多標簽;半監(jiān)督;自訓(xùn)練

      單標簽分類(二分類)是傳統(tǒng)分類方法的主要研究方向,它是基于一幅圖只有一個標簽的假設(shè)上。在現(xiàn)實場景中,所用到的圖數(shù)據(jù)一般都具有多個標簽集[1-2]。

      半監(jiān)督學(xué)習(xí)即利用大量無標簽數(shù)據(jù)和少量有標簽數(shù)據(jù)共同訓(xùn)練模型。但半監(jiān)督學(xué)習(xí)很難與監(jiān)督學(xué)習(xí)分類性能相比,但從目前算法優(yōu)化發(fā)展來看,半監(jiān)督學(xué)習(xí)很有可能達到傳統(tǒng)分類方法的性能。

      1 ? ?基于半監(jiān)督的SVM分類算法

      2 ? ?實驗

      2.1 ?數(shù)據(jù)集

      用一組化合物抗癌活性性能數(shù)據(jù)集作為實驗用多標簽數(shù)據(jù)集。該組數(shù)據(jù)包含了化合物對于10種癌癥的抗癌活性性能的記錄,將10種癌癥中記錄不完全的數(shù)據(jù)移除,得到812個被分配了10個標簽的圖。

      2.2 ?評估方法

      多標簽分類比傳統(tǒng)單標簽分類問題需要不同的實驗結(jié)果評估標準。在這里采用Ranking Loss和Average Precision評估多標簽[3-4]分類性能。實驗結(jié)果評估標準如下:

      (1)Ranking Loss:評估分類實際輸出值的性能,它的值由錯誤預(yù)測的標簽對的平均值計算得到的。

      (2)平均準確率:評估排列順序在特殊標簽y之上的標簽的平均值,把y設(shè)置為真實標簽集。

      2.3 ?實驗設(shè)置

      為了體現(xiàn)本文算法的有效性與實用性,采用以下對比方法進行實驗。

      (1)單標簽+SVM:這個方法采用單標簽圖數(shù)據(jù)訓(xùn)練普通的SVM模型。

      (2)多標簽+SVM:這個方法采用多標簽圖數(shù)據(jù)訓(xùn)練自適應(yīng)SVM模型。

      2.4 ?實驗結(jié)果

      實驗中,將每一個圖數(shù)據(jù)集平均分割成10個小數(shù)據(jù)集。在這些數(shù)據(jù)集中只采用其中的一個作為測試集,其他的9個作為訓(xùn)練集,每一組實驗重復(fù)進行10次。實驗結(jié)果如圖1—2所示。圖1表示1-AvgPrec的實驗結(jié)果,圖2表示Ranking Loss的實驗結(jié)果。

      如圖1—2所示,縱坐標則分別表示1-AvgPrec值和Ranking Loss值,橫坐標表示實驗次數(shù)。由圖1—2可知,無論是Ranking Loss還是1-AvgPrec,文章提出的方法(MG+STSVM)輸出效果比(G+SVM)的輸出效果略好。

      3 ? ?結(jié)語

      本文采用半監(jiān)督SVM方法可以利用大量未標注數(shù)據(jù)來幫助分類模型的訓(xùn)練,從而挖掘出未標注數(shù)據(jù)中可能含有的對分類起重要作用的信息。進而,在已標注多標簽圖數(shù)據(jù)比較少的情況下,得到不錯的分類器。在以后的研究工作中,將會繼續(xù)完善研究方法,并尋找提高目標域子圖數(shù)量的算法。

      [參考文獻]

      [1]BRAVO MARQUEZ F,F(xiàn)RANK E,MOHAMMAD S M,et al.Determining word-emotion associations from tweets by multi-label classification[C].Nebraska:IEEE/WIC/ACM International Conference on Web Intelligence,2017.

      [2]AGGARWAL C C,ZHAI C X.A survey of text classification algorithms[J].Springer US,2012(3):163-222.

      [3]SEBASTINAI F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002(1):1-47.

      [4]YEH C K,WU W C,KO W J,et al.Learning deep latent spaces for multi-label classification[J]. 2017(7):12-15.

      连云港市| 定陶县| 渭南市| 岱山县| 昔阳县| 正安县| 中宁县| 克东县| 三河市| 蓬溪县| 长治市| 那坡县| 太保市| 瑞昌市| 鄂托克旗| 富宁县| 玛沁县| 临沭县| 临洮县| 建水县| 灵川县| 宁都县| 许昌市| 金阳县| 贵德县| 方正县| 滨海县| 邯郸市| 昔阳县| 依安县| 五峰| 呈贡县| 会东县| 吴旗县| 平凉市| 康定县| 分宜县| 安顺市| 新晃| 松阳县| 莫力|