• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      三角距離相關(guān)性的標(biāo)簽分布學(xué)習(xí)

      2021-08-09 06:14:10黃雨婷徐媛媛張恒汝閔帆
      智能系統(tǒng)學(xué)報 2021年3期
      關(guān)鍵詞:集上實例酵母

      黃雨婷,徐媛媛,張恒汝,閔帆

      (西南石油大學(xué) 計算機科學(xué)學(xué)院,四川 成都 610500)

      標(biāo)簽分布學(xué)習(xí)(label distribution learning,LDL)是多標(biāo)簽學(xué)習(xí)(muti-label learning,MLL)的泛化[1-8]。MLL用標(biāo)簽集的部分標(biāo)簽來描述實例[9-11],LDL用標(biāo)簽集所有標(biāo)簽的表征程度構(gòu)成的分布來描述實例[12-15]。文獻(xiàn)[12]將年齡估計問題泛化到LDL中,降低了平均絕對誤差(mean absolute deviation,MAE)。文獻(xiàn)[13]將人群計數(shù)問題泛化到LDL中,提高了人群計數(shù)的準(zhǔn)確率。

      Geng等[1]提出了SA-IIS(specialized algorithm improithm lternative scaling)算法,將單個標(biāo)簽數(shù)據(jù)轉(zhuǎn)換為分布數(shù)據(jù),但未考慮標(biāo)簽的相關(guān)性。Jia等[16]提出了LDLLC(label distribution learning by exploiting label correlation)算法,使用皮爾遜相關(guān)系數(shù)描述了標(biāo)簽之間的相關(guān)性。Zheng等[17]提出了LDL-SCL(label distribution learning by exploiting sample correlation locally)算法,考慮實例之間的相關(guān)性。后2種方法顯著提高了模型對標(biāo)簽分布的預(yù)測能力。

      本文提出了一種三角距離相關(guān)性的標(biāo)簽分布學(xué)習(xí)算法(label distribution learning based on triangular distance correlation,T-LDL)。首先,令X和D分別表示特征矩陣和標(biāo)簽分布矩陣,構(gòu)建距離映射矩陣θ描述X和D之間的映射關(guān)系。其次,設(shè)計新的相似度距離,以表征標(biāo)簽之間的相關(guān)性。最后,結(jié)合標(biāo)簽相關(guān)性,設(shè)計基于KL (kullback-leibler divergence)散度[18]的目標(biāo)函數(shù),利用從訓(xùn)練數(shù)據(jù)直接獲取的X和D擬合θ以預(yù)測標(biāo)簽分布。

      在8個真實數(shù)據(jù)集上,將本文提出算法與8種主流算法進(jìn)行對比實驗,利用Euclidean距離[19]、S?rensen距離[20]、Squardχ2距離[21]、KL散度[18]、Intersection相似度[22]和Fidelity相似度[23]共6種指標(biāo)進(jìn)行評價。結(jié)果表明,本文提出的算法在其中3個數(shù)據(jù)集上所有指標(biāo)均為最優(yōu),在其余的數(shù)據(jù)集上部分指標(biāo)占優(yōu)。

      1 相關(guān)工作

      首先提出LDL的問題描述與運行實例,然后討論流行的LDL算法及其目標(biāo)函數(shù)。表1列出了本文的符號系統(tǒng)。

      表1 符號系統(tǒng)Table 1 Notations

      1.1 LDL問題描述

      1.2 運行實例

      圖1(a)為需要標(biāo)記的一個示例圖片[24],其完整標(biāo)簽集為{森林,海洋,沙漠,城市}。圖1(b)表明MLL中僅有{海洋,城市}2個標(biāo)簽?zāi)軌蛎枋鰣D1(a)。圖1(c)說明LDL利用這4個標(biāo)簽構(gòu)成的分布來描述該圖片,且{海洋,城市}2個標(biāo)簽對圖1(a)的表征度較高,{森林,沙漠}2個標(biāo)簽對圖1(a)的表征度較低。

      圖1 MLL與LDL的比較Fig.1 Differences between MLL and LDL

      表2和表3為一個標(biāo)簽分布學(xué)習(xí)的運行實例,分別為特征矩陣X和實際標(biāo)簽分布矩陣D,這里S= {(x1,d1), (x2,d2), …, (x4,d4)},q= 5,c= 4。{天空,水,房屋,沙子,樹木}5個特征表征了圖1(a)中包含的信息。{森林,海洋,城市,沙漠}為完整標(biāo)簽集。以加粗行為例,x1= [0.38, 0.35, 0.00, 0.12,0.15],d1= [0.16, 0.55, 0.10, 0.19],其中x11= 0.38表示天空占圖片面積的38%,d11= 0.16表示森林描述該圖片的程度為16%。

      表2 特征矩陣XTable 2 Feature matrix X

      表3 標(biāo)簽分布矩陣DTable 3 Label distribution matrix D

      X和D之間的映射關(guān)系可以通過距離映射矩陣θ來描述。給定訓(xùn)練集后,LDL的目標(biāo)為學(xué)習(xí)到該距離映射矩陣θ[16],再通過θ計算出預(yù)測標(biāo)簽分布矩陣P= {p1,p2, …,pi},其中pi= [pi1pi2…pic],pij為標(biāo)簽yj對xi的預(yù)測表征度,該表征度用最大熵模型[25]表示,如式(1)所示:

      為優(yōu)化求解θ,LDL算法的目標(biāo)函數(shù)需約束預(yù)測分布與真實分布之間的差異。文獻(xiàn)[1]構(gòu)建了以KL散度為基礎(chǔ)的目標(biāo)函數(shù),通過求解式(2),可得到最優(yōu)距離映射矩陣θ*,即

      1.3 已有的LDL算法

      表4列出了4種流行的LDL算法及其目標(biāo)函數(shù),表中第一行的SA-IIS[1]和SA-BFGS(specialized algorithm effective quasi-newton)[1]兩種算法使用相同的目標(biāo)函數(shù),它們均采用KL散度表征所有實例的真實分布與預(yù)測分布之間的差異。前者使用類似于改進(jìn)迭代縮放的策略作為其優(yōu)化方法,后者使用BFGS算法作為其優(yōu)化方法。該目標(biāo)函數(shù)缺少正則項,易導(dǎo)致欠擬合。

      表4 已有的4種流行的LDL算法及其目標(biāo)函數(shù)Table 4 Objective functions of four popular LDL algorithms

      LDLLC[16]在IIS-LLD算法的目標(biāo)函數(shù)基礎(chǔ)上增加了正則項和標(biāo)簽相關(guān)性項。如表4中第2行所示,等號右邊第2項為距離映射矩陣θ的F-范數(shù),以防止過擬合。第3項為符號函數(shù)與不同距離共同決定的標(biāo)簽相關(guān)性項,其中符號函數(shù)由皮爾遜相關(guān)系數(shù)決定。但皮爾遜相關(guān)系數(shù)存在“2個輸入向量間應(yīng)有線性關(guān)系”的約束條件,而距離映射矩陣θ中的任意2個向量要滿足該條件較為困難。

      EDL(emotion distribution learning from texts)[26]通過采用新散度公式表征所有實例的真實分布與預(yù)測分布之間的差異,并增加2個約束項。如表4中第3行所示,等號右邊第2項為距離映射矩陣θ的1-范數(shù),以防止過擬合。第3項用不同標(biāo)簽的特征向量之差的2-范數(shù),再乘以基于Plutchik的情緒輪得到的權(quán)重,表征不同標(biāo)簽之間的關(guān)系。該算法在情緒分類場景下表現(xiàn)較好。

      2 本文工作

      常見的LDL算法的輸入為特征矩陣X與實際標(biāo)簽分布矩陣D,輸出為預(yù)測標(biāo)簽分布矩陣P,構(gòu)建距離映射矩陣θ描述X和D之間的映射關(guān)系。為了得到更精準(zhǔn)的預(yù)測標(biāo)簽分布矩陣P,設(shè)計目標(biāo)函數(shù)是LDL算法工作的重點。本節(jié)重點介紹如何設(shè)計目標(biāo)函數(shù)以及本文提出的T-LDL算法。

      本文設(shè)計的目標(biāo)函數(shù)為

      式中:等號右側(cè)第1項用KL散度表征所有實例的真實分布與預(yù)測分布之間的差異;等號右側(cè)第二項為本文亮點,設(shè)計標(biāo)簽相關(guān)性項以獲得更好的預(yù)測結(jié)果。

      2.1 標(biāo)簽相關(guān)性

      本文的亮點為結(jié)合三元相關(guān)性和距離相關(guān)性來描述標(biāo)簽之間的相關(guān)性,如式(4)所示:

      式中:sgn(triangle(θi,θj))表征三元相關(guān)性,Dis(θi,θj)表征距離相關(guān)性。sgn(triangle(θi,θj))用三角距離來表征標(biāo)簽之間存在何種相關(guān)性,即正相關(guān)、不相關(guān)或負(fù)相關(guān);Dis(θi,θj)用Euclidean距離[19]表征標(biāo)簽之間的相關(guān)程度。

      由于使用皮爾遜相關(guān)系數(shù)時需要考慮任意2個向量是否存在線性關(guān)系,故提出一種不考慮該約束條件的新三角距離來衡量2個向量是否相關(guān)。這里,僅考慮2個向量θi、θj以及2個向量之差θi?θj,設(shè)計該三角距離,且使得其取值范圍為[?1,1],如式(5)所示:

      將該三角距離代入符號函數(shù),用于判斷標(biāo)簽之間存在何種相關(guān)性:正相關(guān)、不相關(guān)或負(fù)相關(guān)。式中,sgn(·)為1、0、?1分別表示標(biāo)簽之間為正相關(guān)、不相關(guān)或負(fù)相關(guān)。

      由于上述部分只能判斷標(biāo)簽之間存在何種相關(guān)性,并不能判斷標(biāo)簽之間的相關(guān)程度,故引入Euclidean距離[19]表示標(biāo)簽之間的相關(guān)程度:

      2.2 本文提出的T-LDL算法

      T-LDL描述見算法1。首先將距離映射矩陣θ(0)和逆擬Hessian矩陣B(0)初始化為單位矩陣,再通過式(3)計算初次目標(biāo)函數(shù)的梯度?T(θ(0))。進(jìn)入迭代,收斂條件為||?T(θ(l))||2<ξ。當(dāng)不滿足收斂條件時,采用L-BFGS方法[27]優(yōu)化并更新θ和B。當(dāng)滿足收斂條件時,計算標(biāo)簽yj對xi的預(yù)測表征度p(yj|xi;θ)。

      算法1 T-LDL算法

      輸入X,D,ξ;

      輸出p(y|x;θ)。

      1)初始化距離映射矩陣θ(0)和逆擬Hessian矩陣B(0);

      2)通過式(3)計算梯度 ?T(θ(0));

      3)如果||?T(θ(l))||2>ξ,使用L-BFGS方法[27]優(yōu)化更新θ和B;

      4)end if;

      5)l←l+ 1;

      6)通過式(1)計算p(yj|xi;θ)。

      3 實驗及結(jié)果分析

      本節(jié)首先介紹實驗使用的8個數(shù)據(jù)集和6個評價指標(biāo),再將本文提出的T-LDL算法與LDLLC[16]、PT-Bayes[1]、PT-SVM[1,17]、AA-kNN[1,4]、AA-BP[1]、SA-IIS[1,16]、SA-BFGS(specialized algorithm effective quasi-newton)[1,2]和EDL[26]8種主流的LDL算法進(jìn)行比較,最后對實驗結(jié)果進(jìn)行討論。

      3.1 數(shù)據(jù)集

      表5列出了從芽殖酵母的8個生物學(xué)實驗中收集得到的8個真實數(shù)據(jù)集[28]。實例為2 465個酵母基因,特征是長度為24的系統(tǒng)發(fā)育譜,標(biāo)簽為不同生物實驗中的離散時間點,數(shù)量范圍為4~18。

      表5 數(shù)據(jù)集Table 5 Datasets

      Alpha數(shù)據(jù)集記錄在α因子的影響下酵母在有絲分裂期間的基因表達(dá)情況;Cdc數(shù)據(jù)集記錄酵母在細(xì)胞分裂期間停滯的cdc-15基因表達(dá)情況;Elu數(shù)據(jù)集記錄酵母經(jīng)離心淘洗后的基因表達(dá)情況;Diau數(shù)據(jù)集記錄酵母在雙峰轉(zhuǎn)換過程中的基因表達(dá)情況;Heat數(shù)據(jù)集記錄酵母在經(jīng)過高溫沖擊后的基因表達(dá)情況;Spo數(shù)據(jù)集記錄酵母在孢子形成過程中的基因表達(dá)情況;Cold數(shù)據(jù)集記錄酵母經(jīng)低溫處理后的基因表達(dá)情況;Dtt數(shù)據(jù)集記錄酵母經(jīng)還原劑處理后的基因表達(dá)情況[28]。

      3.2 評價指標(biāo)

      表6列出了評估LDL算法的6個評價指標(biāo)的名稱和公式。其中,pij是標(biāo)簽yj對xi的預(yù)測表征度;dij是標(biāo)簽yj對xi的實際表征度;“↓”表示“越小越好”;“↑”表示“越大越好”。

      表6 LDL算法的評價指標(biāo)Table 6 Evaluation measures for the LDL algorithms

      3.3 實驗結(jié)果

      表7~14的第1~6列列出了10次實驗的平均結(jié)果±標(biāo)準(zhǔn)差(當(dāng)前方法性能的排名),末列為前6列平均性能排名。首先比較表7~14中的平均值,如果平均值相同,再比較標(biāo)準(zhǔn)差。

      表7 Alpha數(shù)據(jù)集上的實驗結(jié)果Table 7 Experimental results on the Alpha dataset

      對于數(shù)據(jù)集Elu和Cold,本文提出的方法在所有評價指標(biāo)上都比其他8種方法表現(xiàn)更好。對于數(shù)據(jù)集Alpha、Cdc和Heat,本文提出的方法在大多數(shù)評價指標(biāo)上排名第一。對于其余3個數(shù)據(jù)集,本文提出的方法排在第二或者第三。

      表8 Cdc數(shù)據(jù)集上的實驗結(jié)果Table 8 Experimental results on the Cdc dataset

      表9 Elu數(shù)據(jù)集上的實驗結(jié)果Table 9 Experimental results on the Elu dataset

      表10 Diau數(shù)據(jù)集上的實驗結(jié)果Table 10 Experimental results on the Diau dataset

      表11 Heat數(shù)據(jù)集上的實驗結(jié)果Table 11 Experimental results on the Heat dataset

      續(xù)表11

      表12 Spo數(shù)據(jù)集上的實驗結(jié)果Table 12 Experimental results on the Spo dataset

      表13 Cold數(shù)據(jù)集上的實驗結(jié)果Table 13 Experimental results on the Cold dataset

      續(xù)表13

      表14 Dtt數(shù)據(jù)集上的實驗結(jié)果Table 14 Experimental results on the Dtt dataset

      3.4 討論

      各種算法通常在不同的數(shù)據(jù)集上具有不同的排名,表明每種算法都有其合適的應(yīng)用場景,如EDL算法更適用于文本情緒分類場景。不同評價指標(biāo)下同一算法的不同排名,反映了6項評價指標(biāo)的多樣性。在比較不同方法對新數(shù)據(jù)集的預(yù)測效果時,應(yīng)綜合考慮多個評價指標(biāo)。

      與同樣考慮標(biāo)簽相關(guān)性的LDLLC算法相比,T-LDL算法在絕大多數(shù)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于LDLLC算法。LDLLC算法基于皮爾遜相關(guān)系數(shù)表征標(biāo)簽相關(guān)性,而T-LDL算法基于本文設(shè)計的三角距離。皮爾遜相關(guān)系數(shù)要求輸入的2個向量滿足線性相關(guān),而本文設(shè)計的三角距離無該約束條件。實驗證明在本文場景中,三角距離更加合適。

      4 結(jié)束語

      為了進(jìn)一步提高標(biāo)簽分布學(xué)習(xí)算法的預(yù)測性能,本文提出了三角距離相關(guān)性的標(biāo)簽分布學(xué)習(xí)算法。新的三角距離可以充分考慮向量本身和向量之差,能更好地描述標(biāo)簽之間的相關(guān)性。實驗結(jié)果表明,本文的方法比大多數(shù)現(xiàn)有的方法表現(xiàn)更好。

      未來的工作將嘗試從以下幾個方面提高標(biāo)簽分布學(xué)習(xí)方法的性能:1)采用屬性約簡以降低算法的時間復(fù)雜度;2)使用其他度量取代作為目標(biāo)函數(shù)基礎(chǔ)的KL散度;3)利用新的距離映射函數(shù)表示標(biāo)簽的相關(guān)性。

      猜你喜歡
      集上實例酵母
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復(fù)扇形指標(biāo)集上的分布混沌
      酵母抽提物的研究概況
      酵母魔術(shù)師
      人CyclinD1在畢赤酵母中的表達(dá)
      生物量高的富鋅酵母的開發(fā)應(yīng)用
      完形填空Ⅱ
      完形填空Ⅰ
      幾道導(dǎo)數(shù)題引發(fā)的解題思考
      宁夏| 库伦旗| 合作市| 都匀市| 龙江县| 武邑县| 东丰县| 新余市| 成安县| 天水市| 陇川县| 车致| 丹巴县| 延寿县| 江西省| 磐安县| 澄城县| 平安县| 青阳县| 多伦县| 文昌市| 忻城县| 余干县| 海原县| 永宁县| 西峡县| 林西县| 乐至县| 阿城市| 抚州市| 巴塘县| 沁源县| 荃湾区| 遂平县| 钦州市| 额敏县| 丹凤县| 广昌县| 嘉鱼县| 井陉县| 建昌县|