孫承杰,林 磊,劉秉權(quán)
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
隨著Web2.0技術(shù)的發(fā)展,現(xiàn)實(shí)社會(huì)中的各種知識(shí)和活動(dòng)正大量被移植到互聯(lián)網(wǎng)上,例如,各種社交網(wǎng)絡(luò)、論壇和在線教育等。其中論壇是一種重要的交流形式和信息載體,它被廣泛應(yīng)用于在線客戶服務(wù)、在線社區(qū)和在線教育中。某些經(jīng)過(guò)多年發(fā)展的論壇中已經(jīng)積累了豐富的知識(shí),這些知識(shí)在一般網(wǎng)站中是很難找到的,這使得論壇成為一個(gè)獨(dú)特而重要的知識(shí)寶藏。但是由于論壇是一個(gè)自由交流的交互性平臺(tái),因而其中包含了太多的噪音。海量信息和包含其中的噪音讓論壇用戶越來(lái)越難找到他們需要的信息。
論壇中的每個(gè)線索可以看作是一個(gè)對(duì)話過(guò)程,每個(gè)帖子對(duì)應(yīng)著提問(wèn)、回答和確認(rèn)等不同的對(duì)話行為。論壇帖子對(duì)話行為分類可以看作是論壇線索結(jié)構(gòu)分析的子任務(wù)。論壇線索結(jié)構(gòu)分析可以把按時(shí)間順序線性排列的帖子變成按對(duì)話關(guān)系排列的樹(shù)形結(jié)構(gòu),從而提高論壇信息的訪問(wèn)效率,例如,文獻(xiàn)[1]表明論壇結(jié)構(gòu)分析可以提高針對(duì)論壇信息的檢索系統(tǒng)的效果。因此,對(duì)論壇的線索結(jié)構(gòu)進(jìn)行分析有重要意義。在論壇線索結(jié)構(gòu)之上,可以進(jìn)行問(wèn)答對(duì)抽取[2]、基于不同級(jí)別的論壇檢索[3]和專家發(fā)現(xiàn)[4]等研究。
不同功能的論壇,其對(duì)話行為可以有不同的類別劃分,本文主要針對(duì)為用戶解答問(wèn)題的論壇的線索。目前,論壇帖子對(duì)話行為分類主要采用的還是有監(jiān)督的機(jī)器學(xué)習(xí)方法,這類方法因?yàn)樾枰獦?biāo)注訓(xùn)練數(shù)據(jù),因而成本較高,可移植性較差。本文的主要貢獻(xiàn)是提出了一種基于弱監(jiān)督學(xué)習(xí)的論壇帖子對(duì)話行為分類方法,該方法可以利用由先驗(yàn)知識(shí)指定的特征約束來(lái)進(jìn)行機(jī)器學(xué)習(xí)模型參數(shù)的訓(xùn)練,具有很好的移植性。在CNET和edX數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出方法的有效性。
文獻(xiàn)[5-6]把論壇帖子對(duì)話行為分類作為論壇結(jié)構(gòu)分析的子任務(wù),對(duì)比了條件隨機(jī)域(CRF)模型、SVM-HMM和最大熵模型在不同特征集上的分類效果,實(shí)驗(yàn)結(jié)果表明CRF模型能夠更好地利用帖子所在的上下文特征,效果較好。文獻(xiàn)[7]提出了用threadCRF模型來(lái)尋找一個(gè)線索中帖子間的reply-to關(guān)系,把一個(gè)線索從線性結(jié)構(gòu)轉(zhuǎn)換成樹(shù)狀結(jié)構(gòu),但沒(méi)有對(duì)reply-to關(guān)系的類型進(jìn)行區(qū)分。對(duì)話行為分類還常被用到對(duì)話摘要、電子郵件分析[8]和短消息分析等應(yīng)用中。目前論壇帖子對(duì)話行為分類主要采用的還是有監(jiān)督的機(jī)器學(xué)習(xí)方法,無(wú)監(jiān)督的方法研究較少。
論壇帖子對(duì)話行為分類與貼子所在線索的類型相關(guān),文獻(xiàn)[9]利用機(jī)器學(xué)習(xí)的方法對(duì)一個(gè)在線教育論壇中的線索進(jìn)行了分類,具體的類別包括公告、問(wèn)題和解釋等。主題信息對(duì)論壇對(duì)話行為分類也具有一定幫助,屬于同一個(gè)主題的帖子更有可能形成對(duì)話關(guān)系。論壇是一種交互式異步對(duì)話方式,一個(gè)線索中經(jīng)常會(huì)包含多個(gè)主題,文獻(xiàn)[10]利用論壇結(jié)構(gòu)和LDA模型對(duì)論壇中的線索進(jìn)行主題分割和標(biāo)注。
由于在線論壇中蘊(yùn)含著豐富的知識(shí),因此針對(duì)在線論壇的信息抽取也吸引了很多研究者,跟本文比較相關(guān)的研究是問(wèn)答對(duì)信息的抽取。例如,文獻(xiàn)[11]研究了論壇中的問(wèn)答對(duì)抽取問(wèn)題,提出了基于模式匹配的問(wèn)題識(shí)別和基于圖傳播方法的答案識(shí)別方法。文獻(xiàn)[12]分析了在答案識(shí)別過(guò)程中文本相似度特征的作用,并提出了很多非文本特征。
除了細(xì)粒度的論壇信息抽取,還有很多研究者從宏觀上研究論壇數(shù)據(jù)。文獻(xiàn)[13]通過(guò)對(duì)大規(guī)模在線教育(MOOC)中的論壇數(shù)據(jù)分析學(xué)生的學(xué)習(xí)投入程度。Anderson等人[14]利用Stack Overflow論壇上的數(shù)據(jù)進(jìn)行問(wèn)題的回答速度與答案質(zhì)量之間的關(guān)系分析、答案和問(wèn)題的影響力預(yù)測(cè)等研究。微觀上的線索結(jié)構(gòu)分析也可以為宏觀分析提供特征,使宏觀分析的結(jié)論更有說(shuō)服力。
一個(gè)線索里的帖子組成了一個(gè)對(duì)話過(guò)程,這個(gè)過(guò)程中的每個(gè)帖子可以對(duì)應(yīng)到特定類別的對(duì)話行為。假設(shè)F={T0,T1,…,Tm}表示一個(gè)論壇中所有的線索集合;每個(gè)線索T由按時(shí)間順序排列的m個(gè)帖子{p0,p1,…,pm-1}組成。論壇帖子對(duì)話行為分析的目標(biāo)是為每個(gè)帖子pi指定一個(gè)對(duì)話行為類別標(biāo)記ci。本文采用的論壇帖子對(duì)話行為類別標(biāo)記集共包含5個(gè)大類,12個(gè)小類,如表1所示。每類標(biāo)記的具體含義可以參考文獻(xiàn)[5]。
表1 對(duì)話行為類別標(biāo)記
常用于論壇帖子對(duì)話行為分類的特征主要有4類: 詞特征、帖子在線索中的結(jié)構(gòu)特征、語(yǔ)義特征和發(fā)帖人特征。本文主要用到的每種特征的詳細(xì)描述如下。
詞特征(Word Feature)是指利用帖子中出現(xiàn)的詞來(lái)表示帖子。本文采用TFIDF值進(jìn)行特征選擇,選取了不同數(shù)量的詞特征來(lái)進(jìn)行實(shí)驗(yàn)。
帖子在線索中的結(jié)構(gòu)特征(Structure Feature)包含兩種: 1)帖子的作者是否是帖子所在線索的發(fā)起者(Initiator);2)帖子在線索中的位置(Position)。這些特征跟對(duì)話行為比較相關(guān),如線索的發(fā)起者所寫(xiě)的帖子的對(duì)話行為更可能是Question類別的。
本文的語(yǔ)義特征包括簡(jiǎn)單語(yǔ)義特征和語(yǔ)義相似度特征。帖子的簡(jiǎn)單語(yǔ)義特征(Post Characteristic Feature)有3種,分別是帖子含有URL鏈接、問(wèn)號(hào)和嘆號(hào)的數(shù)量。這些特征的類別區(qū)分性也比較強(qiáng)。例如,根據(jù)經(jīng)驗(yàn),URL鏈接經(jīng)常出現(xiàn)在Answer類別的行為中。語(yǔ)義相似度特征主要包括兩種: 1)帖子標(biāo)題之間的語(yǔ)義相似度特征(TitleSim);2)帖子內(nèi)容的語(yǔ)義相似度特征(PostSim)。本文采用基于詞頻的余弦相似度作為語(yǔ)義相似度的度量。一個(gè)帖子的TitleSim特征的值為位于該帖子之前并且與其具有最大標(biāo)題相似度的帖子與當(dāng)前帖子的相對(duì)位置。PostSim的定義與此類似。
發(fā)帖人特征(UserProfile)是指帖子的作者所具有的特征。例如,該發(fā)帖人的權(quán)威性,發(fā)帖人已經(jīng)發(fā)表的帖子的類別分布等。本文采用了發(fā)帖人的PageRank值來(lái)表示發(fā)帖人特征。利用回帖關(guān)系,所有的發(fā)帖人可以形成一個(gè)有向圖。利用這個(gè)圖,就可以計(jì)算出每個(gè)發(fā)帖人的PageRank值。Page-Rank 值大的發(fā)帖人更愿意回答別人的問(wèn)題。
弱監(jiān)督學(xué)習(xí)是介于無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)之間的一類學(xué)習(xí)方法。它可以在沒(méi)有標(biāo)注樣本的情況下,利用先驗(yàn)知識(shí)和未標(biāo)注樣本對(duì)機(jī)器學(xué)習(xí)的模型進(jìn)行參數(shù)估計(jì)。利用先驗(yàn)知識(shí)來(lái)進(jìn)行機(jī)器學(xué)習(xí)有很多框架,本文采用的是基于廣義期望準(zhǔn)則(General-ized Expectation Criteria)的框架。廣義期望準(zhǔn)則框架是由McCallum在2007年提出的[15-16],適合與判別式模型結(jié)合進(jìn)行弱監(jiān)督學(xué)習(xí),例如,文獻(xiàn)[17]使用基于最大熵模型的廣義期望準(zhǔn)則來(lái)進(jìn)行文本分類。
廣義期望準(zhǔn)則所需要的先驗(yàn)知識(shí)可以由以下方式獲?。?領(lǐng)域?qū)<胰斯ぶ付ǎ煌ㄟ^(guò)特征標(biāo)注獲取(相對(duì)于樣本標(biāo)注,特征標(biāo)注可以減少標(biāo)注的工作量);已有的標(biāo)注數(shù)據(jù)中獲取。缺少標(biāo)注數(shù)據(jù)是進(jìn)入新領(lǐng)域時(shí)經(jīng)常碰到的情形。很多情況下,相近的領(lǐng)域可能已有標(biāo)注數(shù)據(jù)。雖然兩個(gè)領(lǐng)域并不完全相同,但是存在某些同樣的特征,這些特征的約束可以從已有的標(biāo)注數(shù)據(jù)中獲取,然后用于指導(dǎo)新領(lǐng)域的模型學(xué)習(xí)。
由于廣義期望準(zhǔn)則只是定義了特征約束和模型期望之間的數(shù)值函數(shù),并沒(méi)有涉及具體的模型,因此需要和具體的機(jī)器學(xué)習(xí)模型相結(jié)合來(lái)解決實(shí)際問(wèn)題。在線論壇帖子的對(duì)話行為類別受其所在的線索的對(duì)話歷史影響,因此對(duì)一個(gè)帖子的對(duì)話行為分類必須考慮其所在的線索。這樣,論壇帖子對(duì)話行為分類問(wèn)題就轉(zhuǎn)化成為一個(gè)論壇線索的序列標(biāo)注問(wèn)題,因此條件隨機(jī)域模型是比較合適的選擇。所以,本文采用了基于廣義期望準(zhǔn)則的條件隨機(jī)域模型(GE-CRF),模型的目標(biāo)函數(shù)如式(2)所示。
在式(2)中,θ是條件隨機(jī)域模型的參數(shù),logp(θ)是正則化項(xiàng),用來(lái)約束θ的大小。logp(yL|x;θ)用來(lái)計(jì)算標(biāo)注數(shù)據(jù)的對(duì)數(shù)似然度,在沒(méi)有標(biāo)注數(shù)據(jù)的情況下,可以去掉這一項(xiàng)。GE-CRF模型可以采用梯度下降方法來(lái)求解參數(shù),本文使用了Mal-
let工具包*http://mallet.cs.umass.edu/來(lái)實(shí)現(xiàn)求解過(guò)程。
本文主要采用了從已有的標(biāo)注數(shù)據(jù)中獲取特征約束的方式。采用這種方式雖然增加了對(duì)標(biāo)注數(shù)據(jù)的要求,但是依然可以說(shuō)明本文提出弱監(jiān)督學(xué)習(xí)方法的有效性,而且便于提高本文結(jié)果的可重復(fù)性。在實(shí)際應(yīng)用中,為了減少對(duì)訓(xùn)練數(shù)據(jù)的依賴,可以采用專家指定的方式獲取特征約束。表2給出了本文所用的特征約束示例。表2中的第1列表示特征名字,如1@Initiator表示該帖子的作者是帖子所在線索的發(fā)起者;表2中的第2列表示第1列的特征名字對(duì)應(yīng)的特征對(duì)應(yīng)的特征約束,其實(shí)質(zhì)是每個(gè)特征在每個(gè)對(duì)話行為類別上的概率分布。如第1行第2列表示如果某個(gè)論壇帖子具有1@Initiator特征,那么它是Question-question類別的概率為0.45,是Question-add類別的概率為0.3。
表2 特征約束示例
為每個(gè)類別都指定準(zhǔn)確的概率分布是很難做到的,GE-CRF并不要求完全準(zhǔn)確的概率分布約束,只要是一個(gè)大概的估計(jì),甚至可以指定一個(gè)概率范圍。此外,GE-CRF也不需要為每個(gè)特征的每個(gè)類別都指定約束,只需要給出那些比較容易估計(jì)的特征約束就可以了,因此在表2中第2列的特征約束只給出了幾個(gè)類別的概率分布。這些性質(zhì)極大地降低了GE-CRF的使用難度。
本文采用了兩個(gè)數(shù)據(jù)集來(lái)進(jìn)行實(shí)驗(yàn)。分別是CNET數(shù)據(jù)集和edX數(shù)據(jù)集。CNET數(shù)據(jù)集的數(shù)據(jù)來(lái)自CNET論壇* http://forums.cnet.com/,包含320個(gè)線索,1 332個(gè)帖子[5]。數(shù)據(jù)集的標(biāo)注采用了表1中的類別體系,其中數(shù)量最多的類別標(biāo)記是Answer-answer,占40.3%,各個(gè)類別的具體數(shù)量分布如圖1所示。從圖1中可以看出,各個(gè)類別的數(shù)量分布極不平衡,很多類別的數(shù)量比較少, Answer-correction類別甚至都沒(méi)有出現(xiàn)。
edX數(shù)據(jù)集來(lái)自MOOC網(wǎng)站edX*https://www.edx.org/上2013年春季課程“7.00x: Introduction to Biology—The Secret of Life”的課程論壇。共包含561個(gè)線索,1 977個(gè)帖子。該數(shù)據(jù)集是采用Amazon的Mechanical Turk用眾包的方式進(jìn)行標(biāo)注的。標(biāo)注集與CNET數(shù)據(jù)集相同,數(shù)量最多的類別標(biāo)記也是Answer-answer,占31.9%。
圖1 CNET和edX數(shù)據(jù)集各類別數(shù)量分布
為了便于與他人工作比較,在計(jì)算實(shí)驗(yàn)結(jié)果時(shí),本文采用了按照線索數(shù)量劃分的10-fold交叉驗(yàn)證的平均結(jié)果。評(píng)價(jià)指標(biāo)采用了整體精確率(Accuracy)。對(duì)于全部測(cè)試樣本而言,分類的整體精確率與整體微平均F值(Micro-F)是相等的,因此本文的結(jié)果可以直接與文獻(xiàn)[5]中的對(duì)話行為分類結(jié)果對(duì)比。
與有監(jiān)督學(xué)習(xí)的CRF模型相比,GE-CRF的訓(xùn)練過(guò)程不需要標(biāo)注樣本,只需要有特征約束就可以了。為了在方便在訓(xùn)練過(guò)程中構(gòu)造GE-CRF模型訓(xùn)練所需的標(biāo)記轉(zhuǎn)移矩陣,本文隨機(jī)給出了每個(gè)論壇帖子對(duì)應(yīng)的對(duì)話行為類別。
本文利用最小平方差損失函數(shù)(L2)作為廣義期望項(xiàng)的得分函數(shù)。采用最小平方差損失函數(shù)的好處是在指定特征約束時(shí),不需要對(duì)所有的類別進(jìn)行指定,這對(duì)于標(biāo)記比較多的任務(wù)來(lái)說(shuō)非常方便。如果采用KL距離,則需要為每個(gè)特征對(duì)應(yīng)的所有類別指定特征約束。本文采用了Mallet工具包中實(shí)現(xiàn)的GE-CRF模型。
實(shí)驗(yàn)的任務(wù)主要有3個(gè): 1)測(cè)試不同特征組合的分類效果;2)比較GE-CRF和其他方法的分類效果;3)測(cè)試GE-CRF方法在不同數(shù)據(jù)集上的效果。為了完成任務(wù)1,實(shí)驗(yàn)中采用了不同的特征組合方式,每種特征組合的具體實(shí)驗(yàn)結(jié)果如表3所示。表3中的實(shí)驗(yàn)都是在CNET數(shù)據(jù)集上進(jìn)行的。表3中的詞特征是根據(jù)TFIDF值進(jìn)行特征選擇的。由于很難直接判斷某個(gè)詞的對(duì)話行為類別偏好,因此沒(méi)有對(duì)詞特征指定特征約束。
從表3中可以看出,結(jié)構(gòu)特征對(duì)的分類效果最為明顯;語(yǔ)義相似度對(duì)分類效果有提升作用;沒(méi)有特征約束的詞特征對(duì)分類效果也有幫助。詞特征對(duì)分類效果的提升說(shuō)明了GE-CRF模型在訓(xùn)練過(guò)程中,可以利用已有的特征約束,自動(dòng)優(yōu)化沒(méi)有約束的特征,使他們發(fā)揮作用。表3中,發(fā)帖人特征沒(méi)有對(duì)分類效果起到促進(jìn)作用,可能是因?yàn)镃NET數(shù)據(jù)集中的帖子數(shù)量較少,因而算出的發(fā)帖人的PageRank值不夠準(zhǔn)確。
表3 CNET數(shù)據(jù)集上不同特征組合的對(duì)話行為分類實(shí)驗(yàn)結(jié)果對(duì)比
為了評(píng)價(jià)GE-CRF模型的效果,本文對(duì)比了在采用同樣特征集時(shí),不同方法的實(shí)驗(yàn)結(jié)果。表4中前兩行是兩種基準(zhǔn)方法: 第1行對(duì)應(yīng)采用大數(shù)投票(Majority voting)的方法,把所有的類別都分成Answer-answer;第2行是一種基于帖子在線索中的位置(Position-conditioned baseline)的分類方法,把每個(gè)線索中的第1個(gè)帖子分成Question-question,把其他所有的帖子都分類成Answer-answer。 從表4中可以看出,GE-CRF的分類效果超過(guò)了兩個(gè)基準(zhǔn)方法,甚至好于有監(jiān)督的CRF模型的分類效果。
表4 不同方法的對(duì)話行為分類實(shí)驗(yàn)結(jié)果對(duì)比
在edX數(shù)據(jù)集上,機(jī)器學(xué)習(xí)的方法的效果和第二種基線方法相差不大,分析可能的原因有: 1)edX數(shù)據(jù)集是采用眾包方式標(biāo)注的,標(biāo)注質(zhì)量不夠高。經(jīng)過(guò)與專家標(biāo)注的少量數(shù)據(jù)比較,kappa值只有0.51*Kappa值是通過(guò)計(jì)算每類標(biāo)記的Kappa值然后通過(guò)平均得到的。;2)MOOC上的論壇的學(xué)習(xí)者背景多樣化,這種多樣化使MOOC論壇表達(dá)方式和用詞習(xí)慣比較多樣化,因而較難分析。
本文提出了一種基于弱監(jiān)督學(xué)習(xí)的在線論壇帖子對(duì)話行為分類方法。該方法以條件隨機(jī)域模型為基礎(chǔ),可以利用多種方式獲得特征約束,具有很好的可移植性。本文測(cè)試并分析了不同組合的特征分類效果。在CNET和edX兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示了本文提出的基于最大期望準(zhǔn)則的弱監(jiān)督學(xué)習(xí)方法的有效性。
本文只是利用弱監(jiān)督學(xué)習(xí)方法對(duì)一個(gè)線索中的帖子的對(duì)話行為進(jìn)行了分類,還沒(méi)有確定每個(gè)帖子的鏈接目標(biāo)。因此,未來(lái)工作包括如何利用弱監(jiān)督學(xué)習(xí)尋找每個(gè)帖子的鏈接目標(biāo)。此外,本文采用的特征約束比較簡(jiǎn)單,只考慮了單個(gè)特征的類別分布約束,探索更復(fù)雜的特征約束表示方法,也是未來(lái)的工作之一。
[1] Wang L, Kim S, Baldwin T. The Utility of Discourse Structure in Forum Thread Retrieval[C]//Proceedings of 9th Asia Information Retrieval Societies Conference. 2013: 284-295.
[2] 王寶勛, 劉秉權(quán), 孫承杰等. 基于論壇話題段落劃分的答案識(shí)別[J]. 自動(dòng)化學(xué)報(bào), 2013, 39(1): 11-20.
[3] Seo J, Croft W, Smith D. Online community search using thread structure[C]//Proceedings of the 18th ACM conference on Information and knowledge management. 2009: 1907-1910.
[4] Riahi F, Zolaktaf Z, Shafiei M, et al. Finding expert users in community question answering[C]//Proceedings of the 21st international conference companion on World Wide Web-WWW ’12 Companion. New York, New York, USA: ACM Press, 2012(i): 791-798.
[5] Kim S, Wang L, Baldwin T. Tagging and linking web forum posts[C]//Proceedings of the Fourteenth Conference on Computational Natural Language Learning. 2010: 192-202.
[6] Wang L, Lui M, Kim S N, et al. Predicting thread discourse structure over technical web forums[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. 2011: 13-25.
[7] Wang H, Wang C, Zhai C, et al. Learning online discussion structures by conditional random fields[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. 2011: 435-444.
[8] Lampert A, Dale R, Paris C. The nature of requests and commitments in email messages[C]//Proceedings of the AAAI 2008 Workshop on Enhanced Messaging. 2008: 42-47.
[9] Lin F-R, Hsieh L-S, Chuang F-T. Discovering genres of online discussion threads via text mining[J]. Computers & Education, Elsevier Ltd, 2009, 52(2): 481-495.
[10] Joty S, Carenini G, Ng R T. Topic Segmentation and Labeling in Asynchronous Conversations[J]. Journal of Artificial Intelligence Research, 2013, 47: 521-573.
[11] Cong G, Wang L, Lin C-Y, et al. Finding question-answer pairs from online forums[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. New York, New York, USA: ACM Press, 2008: 467-474.
[12] Gangadhar R, Kar R. Does Similarity Matter?? The Case of Answer Extraction from Technical Discussion Forums[C]//Proceedings of COLING 2012: Posters. 2012, 1: 175-184.
[13] Ramesh A, Goldwasser D. Modeling Learner Engagement in MOOCs using Probabilistic Soft Logic[C]//Proceedings of NIPS Workshop on Data Driven Education. 2013: 1-7.
[14] Anderson A, Huttenlocher D, Kleinberg J. Discovering Value from Community Activity on Focused Question Answering Sites?: A Case Study of Stack Overflow[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012: 850-858.
[15] Mccallum A, Mann G, Druck G. Generalized expectation criteria[R]. 2007.
[16] Mann G, Mccallum A. Generalized expectation criteria for semi-supervised learning with weakly labeled data[J]. The Journal of Machine Learning Research, 2010(11): 955-984.
[17] Druck G, Mann G, Mccallum A. Learning from labeled features using generalized expectation criteria[C]//Proceedings of the 31st annual international ACM SIGIR conference on research and development in information retrieval. 2008: 595-602.