劉天時 吳瓊
摘 ?要: 本文提出一種魯棒低秩近似算法(ROLA)來學習標注者之間潛在的相似性,進而解決標注數(shù)據(jù)集中的噪聲。ROLA通過構(gòu)造一個低秩矩陣模型,來捕獲標簽中的潛在相關信息,與問題的潛在特征向量。實驗結(jié)果表明,ROLA在四個數(shù)據(jù)集上的準確率最高。并且與現(xiàn)有算法相比,在優(yōu)化時間上也存在相應優(yōu)勢。
關鍵詞: 低秩近似;矩陣填充;眾包學習
中圖分類號: TP311.13 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.034
本文著錄格式:劉天時,吳瓊. 基于矩陣填充的眾包學習模型研究[J]. 軟件,2019,40(4):159161
【Abstract】: This paper proposes a robust low rank approximation algorithm (ROLA) to learn the potential similarity between annotators and to solve the noise in annotated data sets. ROLA constructs a low rank matrix model to capture latent correlation information in tags and latent eigenvectors of problems. The experimental results show that ROLA has the highest accuracy on four data sets. Compared with existing algorithms, it also has corresponding advantages in optimization time.
【Key words】: Low rank approximation; Matrix filling; Crowdsourcing learning
0 ?引言
近年來在機器學習和計算機視覺方面廣泛應用。然而由于雇主發(fā)布的標注任務差異,導致收集到來自于不同自由職業(yè)者的標注結(jié)果,含有大量噪聲。如何甄別噪聲,提高眾包學習的質(zhì)量是目前面臨的問題[1]。
本文提出基于矩陣填充的數(shù)據(jù)去噪方法:低秩近似流形優(yōu)化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。以矩陣填充的視角看待眾包學習問題,認為矩陣的低秩結(jié)構(gòu)既標注著之間的潛在相關關系,以此為依據(jù),將惡意或者具有相似不良標注習慣的標注者的噪聲刪去。而針對無噪聲的標簽矩陣,LRAMO算法直接進行黎曼優(yōu)化的矩陣分解,獲得完整的標簽矩陣,能快速進行眾包學習。
1 ?低秩矩陣模型
眾包學習獲得數(shù)據(jù)的成本比較低廉,但是存在大量噪聲[2-5]。而標簽數(shù)據(jù)之間具有低秩結(jié)構(gòu),本文根據(jù)數(shù)據(jù)的低秩結(jié)構(gòu),將眾包學習理解成矩陣填充問題。因此本文提出基于矩陣填充的低秩近似流形優(yōu)化算法,刪除惡意標注者的標注噪聲,并對惡意和有不良標注習慣的標注者進行標記,優(yōu)化了后續(xù)的眾包學習過程。
也就是說,少數(shù)惡意和不良習慣的標注者帶來噪音,當眾包任務發(fā)出去后,多數(shù)認真對待任務的標注者的標簽是相似的,都試圖給出正確答案。由于得到的眾包數(shù)據(jù)具有低秩結(jié)構(gòu),可轉(zhuǎn)換成一個低秩的矩陣和一個噪聲矩陣相加。這樣做的目的是:(1)接受標注任務的標注者得到的數(shù)據(jù)可以分成準確標注和噪聲標注。而噪聲是稀疏的,根據(jù)數(shù)據(jù)的低秩結(jié)構(gòu)可以輕易的推斷出真實的標注。(2)噪聲標注導致的偏差可以用l2,1范數(shù)表示,而矩陣的低秩結(jié)構(gòu)說明標注者之間存在潛在關系[6-10]。
2 ?LRAMO優(yōu)化算法
本節(jié)將眾包學習看成矩陣填充問題,提出低秩近似流形優(yōu)化算法(Low-Rank Approximation Manifold Optimization,LRAMO)。通過黎曼優(yōu)化求解矩陣填充,不僅降低了矩陣填充的時間復雜度,而且收斂速度也有所提升。構(gòu)建眾包學習的矩陣填充模型,將眾包學習得到的數(shù)據(jù)矩陣Z,分解成低秩矩陣X即從標注數(shù)據(jù)中采樣得到的標簽,和噪聲矩陣E,其中E是稀疏噪聲。
上式中‖?‖*表示核范數(shù),是給定是正則參數(shù)。由于眾包學習被形式化為低秩矩陣填充問題,由于矩陣填充求解秩函數(shù)是NP問題,因此這里用核函數(shù)最小化進行凸松弛。在模型中與標注者相關的噪聲用l2,1范數(shù)刻畫,最小化噪聲矩陣E的l2,1范數(shù)對噪聲進行約減。
2.1 ?標簽矩陣的低秩問題
由于標注者的目的都是盡可能正確的完成任務,除去個別標注者粗心導致的錯誤,大部分標注者的標注習慣比較相似,因此無噪聲的標注矩陣滿足低秩結(jié)構(gòu)。也就是說,無噪聲標簽的矩陣是可靠標注者,由他們得到的標簽數(shù)據(jù)往往是正確的,且具有低秩結(jié)構(gòu)。那么用X表示無噪聲標簽的低秩矩陣,其最小化問題為:
這里用黎曼流形構(gòu)建解空間,求解X時E固定,交替迭代求解將上式轉(zhuǎn)化成子問題,減少了迭代次數(shù)和直接求解核函數(shù)帶來的高復雜度。
2.2 ?噪聲的稀疏子問題
由于眾包學習發(fā)布任務后,接受任務的標注者存在少部分的惡意標注,和部分由于粗心大意導致的錯誤標注。因此得到的標簽矩陣往往含有少數(shù)噪聲,而這些噪聲與少數(shù)標注者相關,本文利用噪聲標簽的特點,用l2,1范數(shù)進行約束。文獻[3]指出,l2,1范數(shù)通過相應的數(shù)學計算得到最優(yōu)解。這里將惡意標注者導致的噪聲標簽表示為矩陣E,且E時稀疏的。將噪聲標簽矩陣分離,即得到真實標注的矩陣。求解噪聲標簽矩陣E的子問題為:
2.3 ?基于投票機制的聚合策略
LRAMO優(yōu)化算法將帶有冗余信息標簽的采樣矩陣,分解成噪聲矩陣E和干凈標簽矩陣X。由于接受標注任務的標注者來自各行各業(yè),有各自的認知能力和專業(yè)知識,這里基于具有專業(yè)知識的標注者推測出真實無噪聲的標簽。采用多數(shù)投票的聚合機制:投票策略的計算復雜度遠低于推理策略,當處理大規(guī)模問題時,優(yōu)勢更明顯;LRAMO優(yōu)化算法得到的干凈標簽矩陣X|,是由大部分可靠標注給出的結(jié)果,因此多數(shù)投票推測得到的標注結(jié)果更具說服力,且簡單快速。
3 ?實驗
本節(jié)將LRAMO算法與四種目前認可度高的眾包算法在真實的眾包數(shù)據(jù)集上進行比較:Majority Voting(MV),Dawid&SkeneModel(DS)[4],Difficulty- Ability-Response(DARE)[2]以及SpEM。數(shù)據(jù)集來自于Amazon MechanicalTurk; RTE(Recognizing Textual Entailment),TEMP(Temporal event recognition),Duchenne以及Bluebird。
這四個數(shù)據(jù)集的相關信息見表1,m和n代表標注者和問題數(shù)量,“RCL”表示正確標簽準確率,“AP”表示標注者最大問題數(shù)。
實驗將LRAMO算法在每個數(shù)據(jù)集上測試10輪,其顯著水平為95%。通過對所有問題從問題一到問題10的統(tǒng)計平均,計算四個數(shù)據(jù)集的結(jié)果。結(jié)果表明,大多數(shù)情況下LRAMO算法的結(jié)果比其他算法更準確。
4 ?總結(jié)
本文提出的低秩近似流形優(yōu)化算法,以矩陣填充的角度看待眾包學習問題,利用矩陣的低秩結(jié)構(gòu),找出具有潛在相關關系的標注者,進而刪去噪聲標注。最后將低秩近似流形優(yōu)化算法與目前主流的眾包學習算法比較,在準確度和運行時間上,均有所提高。
參考文獻
[1] Li Q, Wang Z, Li G, et al. Learning Robust Low-Rank Approximation for Crowdsourcing on Riemannian Manifold [J]. Procedia Computer Science, 2017, 108: 285-294.
[2] Jagabathula S, Subramanian L, Venkataraman A. Identifying unreliable and adversarial workers in crowdsourced labeling tasks[J]. The Journal of Machine Learning Research, 2017, 18(1): 3233-3299.
[3] Liu J, Ji S, Ye J. Multi-task feature learning via efficient l 2, 1-norm minimization[C]. Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 2009: 339-348.
[4] Dawid A P, Skene A M. Maximum likelihood estimation of observer error‐rates using the EM algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 20-28.
[5] 張網(wǎng)娟, 許國艷, 李敏佳, 等. 基于卷積神經(jīng)網(wǎng)絡的缺失數(shù)據(jù)填充方法[J]. 微電子學與計算機, 2019, 36(03): 48-52+57.
[6] 牛明航. 不完備數(shù)據(jù)的反饋式極限學習機填充算法[J]. 電子技術(shù)與軟件工程, 2019(03): 145.
[7] 李敬華, 李倩茹, 袁春霞. 數(shù)據(jù)可用性基本問題研究[J]. 電信快報, 2018(10): 43-46.
[8] 郭新東, 楊華, 孫瑜. 基于AOP的數(shù)據(jù)填充在教學診改系統(tǒng)中的應用[J]. 現(xiàn)代電子技術(shù), 2018, 41(14): 150-153.
[9] 余云, 王本勝, 姚麗莎. 融合項目屬性和云填充的計算機智能圖像識別算法[J]. 遵義師范學院學報, 2018, 20(03): 81-83.
[10] 滕睿, 尚慶學, 鐘湘, 等. 基于試驗數(shù)據(jù)的砌體填充墻易損性研究[J]. 世界地震工程, 2018, 34(02): 96-103.