孫啟蘊(yùn)
(南京烽火軟件科技有限公司,南京 210019)
(武漢郵電科學(xué)研究院 通信與信息專業(yè),武漢 430073)
隨著人們對(duì)互聯(lián)網(wǎng)的使用量逐漸增大,互聯(lián)網(wǎng)進(jìn)入了大數(shù)據(jù)時(shí)代.新浪微博作為一個(gè)公開社交平臺(tái),使人們能夠有獲取最新最熱門的新聞、了解話題輿論、展現(xiàn)自我觀點(diǎn)、尋找志趣相投的朋友等途徑.截止到2017年第一季度,新浪微博約有2.97億日?;钴S用戶,每天新增的微博數(shù)量約4億條.而新浪微博用戶性別這一基本屬性在不同領(lǐng)域都有著重要影響,如微博推薦系統(tǒng)會(huì)根據(jù)性別的不同給男性推薦車、體育相關(guān)的微博,而給女性推薦美妝、衣服相關(guān)的微博等等.因此對(duì)新浪微博用戶的性別做判斷很有意義.
目前國(guó)內(nèi)外有不少研究人員對(duì)社交平臺(tái)中的用戶性別判斷進(jìn)行研究.文獻(xiàn)[1]對(duì)twitter中非英文用戶性別的特征進(jìn)行探索;文獻(xiàn)[2]利用用戶間的評(píng)論信息文本推測(cè)出交互雙方的性別;文獻(xiàn)[3]通過(guò)一個(gè)分類器尋找兩個(gè)博客之間的關(guān)系,從關(guān)聯(lián)來(lái)獲取未標(biāo)注樣本中的分類信息;文獻(xiàn)[4]采用半監(jiān)督學(xué)習(xí)方法,通過(guò)博客文本和博客評(píng)論兩個(gè)視圖對(duì)用戶性別進(jìn)行分類,取得了不錯(cuò)的分類性能.文獻(xiàn)[5]從兩性表達(dá)情緒的差異出發(fā),利用微博發(fā)布文本內(nèi)容中的情緒特征進(jìn)行性別判斷;文獻(xiàn)[6]將用戶興趣標(biāo)簽分成若干概念類來(lái)區(qū)分用戶性別,但這兩篇文獻(xiàn)在實(shí)踐過(guò)程中都需要大量人工標(biāo)記樣本,且準(zhǔn)確度不高.
本文從新浪微博爬取真實(shí)的用戶數(shù)據(jù),經(jīng)過(guò)前期數(shù)據(jù)清洗過(guò)濾之后,利用微博文本信息、微博用戶標(biāo)簽、微博用戶昵稱三個(gè)可以刻畫微博用戶性別的方向作為三個(gè)不同的視圖,采用tri-training算法對(duì)三個(gè)不同的分類器進(jìn)行互相訓(xùn)練學(xué)習(xí).實(shí)驗(yàn)結(jié)果表明,在只用少量已標(biāo)注訓(xùn)練集的情況下,多視圖tri-training學(xué)習(xí)能有效的提高分類器的性別分類效果.
在傳統(tǒng)的機(jī)器學(xué)習(xí)分類問(wèn)題中,一般分為有監(jiān)督和無(wú)監(jiān)督兩類學(xué)習(xí)方法[7].隨著大數(shù)據(jù)時(shí)代的發(fā)展,我們往往獲得的是大量未標(biāo)記數(shù)據(jù)和少量已標(biāo)記過(guò)的數(shù)據(jù).在訓(xùn)練時(shí),如果不考慮大量未標(biāo)記的數(shù)據(jù)將會(huì)造成有用信息的丟失,同樣,如果只用少量已標(biāo)記數(shù)據(jù)訓(xùn)練,很難保證訓(xùn)練器的準(zhǔn)確性.半監(jiān)督學(xué)習(xí)[8]利用大量未標(biāo)記數(shù)據(jù)和少量已標(biāo)記數(shù)據(jù)對(duì)訓(xùn)練器進(jìn)行訓(xùn)練,省去了人工打標(biāo)的時(shí)間同時(shí)提高了分類器的性能.
在主流的半監(jiān)督學(xué)習(xí)算法中,最具代表性的就是協(xié)同訓(xùn)練(co-training),它提出[9]如果數(shù)據(jù)集中有兩個(gè)充分冗余的視圖,那么分別用兩個(gè)視圖上已記數(shù)據(jù)各自訓(xùn)練處一個(gè)分類器然后在協(xié)同訓(xùn)練時(shí),每個(gè)分類器從未標(biāo)記數(shù)據(jù)中選擇置信度較高的數(shù)據(jù)進(jìn)行標(biāo)記,這樣另一分類器就可以根據(jù)這些新標(biāo)記的數(shù)據(jù)重新進(jìn)行訓(xùn)練.這樣兩個(gè)分類器能通過(guò)互相訓(xùn)練未知信息,使得自身準(zhǔn)確性更高.
本文采用半監(jiān)督學(xué)習(xí)中的tri-training算法,通過(guò)三個(gè)不同的分類器之間相互學(xué)習(xí)訓(xùn)練來(lái)處理未知類別分類問(wèn)題.與co-training不同,tri-training算法采用了非顯示投票來(lái)處理置信度,在最初的分類器分類準(zhǔn)確還很低的時(shí)候,輔助分類器對(duì)未打標(biāo)數(shù)據(jù)的判斷可能會(huì)同時(shí)判斷成其他的類別,從而引入噪音[10].噪音學(xué)習(xí)理論[11]中提到,如果輔助分類器能正確的判斷大部分未標(biāo)記訓(xùn)練數(shù)據(jù),那么噪聲所帶來(lái)的錯(cuò)誤率會(huì)被抵消.因此在不斷重復(fù)訓(xùn)練分類器時(shí),只要保證下一次的分類誤差率小于本次的分類誤差率就認(rèn)為訓(xùn)練過(guò)程正常.直到下一次的分類誤差率大于本次的分類誤差率,那么分類器訓(xùn)練結(jié)束.
4)將Cu、Cn分類結(jié)果相同的Ui中的Uwi和Lw組合成新的訓(xùn)練樣本Lw’;
輸入:
盡管半監(jiān)督學(xué)習(xí)已經(jīng)研究了十幾年,但是仍有其局限性,他們研究的數(shù)據(jù)只有一個(gè)特征集,忽略了大數(shù)據(jù)的異構(gòu)性,會(huì)造成信息的丟失[13].現(xiàn)實(shí)情況中對(duì)象存在多個(gè)視圖,刻畫一個(gè)事物能通過(guò)不能的角度或者通過(guò)不同的工具[14].通??梢杂?xi,yi)來(lái)表示用單視圖描述的對(duì)象,其中xi是一個(gè)對(duì)象,yi是確定類別的標(biāo)簽.而我們用([xi1,xi2,xi3],yi)來(lái)表示一個(gè)多視圖的對(duì)象,其中[xi1,xi2,xi3]是用一些不同視圖來(lái)刻畫同一個(gè)對(duì)象(比如多媒體數(shù)據(jù),xi1為文本視圖,xi2為圖像視圖,xi3為視頻視圖).雖然在進(jìn)行協(xié)同訓(xùn)練的時(shí)候并不一定需要多視圖,但是多視圖往往有錦上添花的能力.文獻(xiàn)[15]指出,在冗余的多視圖上,由于視圖之間有著有用信息,即使只用一個(gè)已標(biāo)記數(shù)據(jù)作為起始訓(xùn)練樣本,半監(jiān)督學(xué)習(xí)也能順利的進(jìn)行下去.
本文采用基于多視圖tri-training學(xué)習(xí)的途徑來(lái)判斷性別.
山藥可以有性繁殖(山藥子),也可以無(wú)性繁殖(山藥苗頭和塊莖),但生產(chǎn)上以無(wú)性繁殖為主。苗頭一般長(zhǎng)15-25 cm,重量在50 g以上,不能過(guò)小。段塊比苗頭出苗遲15-20天,但產(chǎn)量比苗頭的高,可采用育苗方法彌補(bǔ)出苗遲的缺點(diǎn)。一般每個(gè)段塊75-100 g重。
圖1 微博用戶性別判斷流程圖
微博文本信息在一定程度上能反映出用戶的性別,男性用戶在表達(dá)感情上更喜歡用表達(dá)憤怒厭惡的情緒相關(guān)的詞匯.而女性微博的發(fā)言更可能會(huì)出現(xiàn)“嗨皮啊![親親][親親]希望男神的新專輯大麥!小女子支持到底!”包含“男神”、“小女子”以及連續(xù)重復(fù)表情符“[親親]”等詞匯.
本文在處理微博文本信息上先進(jìn)行分詞、去停用詞的操作,然后采用向量空間模型(VSM)把文本轉(zhuǎn)換成空間向量.未做任何處理的空間向量由文本切分的所有詞組成,如果不降維會(huì)產(chǎn)生維度災(zāi)難.因此需要對(duì)微博文本信息進(jìn)行降維處理,本文采用信息增益(IG)來(lái)進(jìn)行特征選擇.
3)將Ui中的用戶標(biāo)簽Uui、Uni分別放入分類器Cu、Cn進(jìn)行分類;
首先,在大學(xué)英語(yǔ)課堂教學(xué)設(shè)計(jì)和實(shí)施中,教師通過(guò)對(duì)“教”與“學(xué)”在時(shí)間、空間上的布局.通過(guò)對(duì)任務(wù)型教學(xué)活動(dòng)的設(shè)計(jì)、組織,促進(jìn)教學(xué)過(guò)程中的交互性.提升學(xué)生的參與度,確保課堂教學(xué)的有效性。
我們先對(duì)三個(gè)視圖(微博文本信息視圖、微博用戶標(biāo)簽信息視圖、微博用戶昵稱視圖)建立維度特征,然后對(duì)這三個(gè)不同的視圖分別訓(xùn)練三個(gè)不同的分類器并使它們互相學(xué)習(xí)訓(xùn)練未標(biāo)記的樣本數(shù)據(jù),最后將已經(jīng)訓(xùn)練好的三個(gè)分類器進(jìn)行集成,來(lái)對(duì)測(cè)試樣本進(jìn)行分類.微博用戶性別判斷流程圖如圖1所示.
微博用戶標(biāo)簽是微博用戶根據(jù)喜好或者自身屬性而打上的標(biāo)簽,這些標(biāo)簽?zāi)芊从吵鲇脩粼诋?dāng)前階段的興趣、關(guān)注點(diǎn)和自身情況.據(jù)統(tǒng)計(jì),約有53%的用戶會(huì)添加自己的標(biāo)簽.
從表1微博用戶標(biāo)簽信息舉例可以看出:女性用戶的標(biāo)簽信息中往往會(huì)帶有透露自己性別的字眼,如“妞兒”、“女金牛”等,且往往標(biāo)簽不止一個(gè)興趣詞來(lái)描述自己,而是會(huì)增加一些形容詞如“能吃的”、“不腦殘的”,或者表示程度的副詞“很”等等.而男性用戶的標(biāo)簽大多僅為簡(jiǎn)短的興趣詞匯,并未出現(xiàn)同表達(dá)程度和感情的形容詞或者副詞.因此在特征選擇時(shí),加入程度詞頻率及標(biāo)簽平均長(zhǎng)度這兩個(gè)維度.
表1 微博用戶標(biāo)簽信息舉例
微博用戶昵稱并非實(shí)名制,用戶可以按照自己的喜好和興趣或者情緒來(lái)創(chuàng)建昵稱.雖然沒(méi)有限制條件,但是用戶在取名的時(shí)候仍會(huì)受到性別的影響.如“葉仁琛”、“老男孩不加V”、“HelloWorld天真浪子”等男性化的詞匯更可能為男性用戶的昵稱,而女性用戶的昵稱更可能出現(xiàn)“沐雪瑩瑩”、“高姿態(tài)的妞兒”、“搗蛋_女孩”等女性化詞匯.
與微博文本信息不同,由于微博用戶昵稱字?jǐn)?shù)較短,使用分詞可能會(huì)造成昵稱無(wú)法被正確切分,因此在對(duì)用戶昵稱的提取上采用n-Gram來(lái)提取特征來(lái)避免切詞障礙.我們選擇n-Gram中n=1和n=2,即unigram和bigram兩種特征提取方式.其中unigram為一元字特征,bigram為二元字特征.表2列舉了微博用戶昵稱“高姿態(tài)的妞兒”和“葉仁琛”分別用unigram、bigram、unigram+bigram和結(jié)巴中文分詞進(jìn)行特征提取的結(jié)果.
本教研室在開展醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)時(shí)采用板書教學(xué)方式,調(diào)查中有182名(50.42%)學(xué)生認(rèn)為板書教學(xué)對(duì)于理解統(tǒng)計(jì)學(xué)知識(shí)效果很好,154名(42.66%)學(xué)生認(rèn)為板書教學(xué)效果一般,25名(6.93%)學(xué)生認(rèn)為板書教學(xué)不適合或不清楚是否適合。
表2 微博用戶昵稱文本特征舉例
三個(gè)視圖分別為微博文本信息、微博用戶標(biāo)簽信息、微博用戶昵稱,經(jīng)過(guò)tri-training算法后生成三個(gè)不同的分類器,分別為微博文本分類器Cw、用戶標(biāo)簽分類器Cu、用戶昵稱分類器Cn.由于傳統(tǒng)tri-training訓(xùn)練的基分類器均為同一類型的監(jiān)督學(xué)習(xí)分類,泛化效果不理想[16],而且多視圖的內(nèi)容各不相同,如果使用同一種類型的分類器,可能對(duì)于某幾個(gè)視圖該種分類器相比于其他類型分類器的分類性能弱.因此本文在傳統(tǒng)算法的基礎(chǔ)上,針對(duì)每個(gè)視圖的特征特點(diǎn)來(lái)選取不同的監(jiān)督學(xué)習(xí)分類器.由于SVM分類器能很好的解決在小樣本情況下高維模型的問(wèn)題,本文在用戶標(biāo)簽視圖分類器Cu選擇SVM分類器;而最大熵分類器融合信息的能力較好,可以解決較復(fù)雜的問(wèn)題,因此在微博文本視圖分類器Cw和在用戶昵稱視圖分類器Cn選擇最大熵分類器.
2)紙地膜成本較高是限制大規(guī)模推廣應(yīng)用的重要原因[4,20]。目前也有研究表明,紙地膜的成本可以有效降低,如專利00125308.5[11]采用較為低廉的普通農(nóng)作物秸稈纖維,可以降低成本,使其成本低于聚乙烯地膜成本,從而有利于紙地膜的推廣應(yīng)用。
算法流程如下:
當(dāng)滿足表達(dá)式(1)的時(shí)候,就能保證下一次的分類誤差率小于本次的分類誤差率,未標(biāo)記數(shù)據(jù)集可以作為訓(xùn)練樣本對(duì)分類器進(jìn)行訓(xùn)練,使得大量新樣例加入到初始訓(xùn)練集對(duì)分類器進(jìn)行重復(fù)的訓(xùn)練,從而使引入噪聲所帶來(lái)的負(fù)面影響被大量的未標(biāo)記數(shù)據(jù)所帶來(lái)的好處抵消[12].
美國(guó)國(guó)家科學(xué)基金會(huì) (NSF)很早就實(shí)行了間接費(fèi)用政策。一般來(lái)說(shuō),NSF會(huì)通過(guò)與各個(gè)高校進(jìn)行談判,來(lái)確定間接經(jīng)費(fèi)在整個(gè)資助經(jīng)費(fèi)中所占的比例。通常,談判學(xué)??蒲兴皆礁?,所在地區(qū)經(jīng)濟(jì)發(fā)展水平越高,間接經(jīng)費(fèi)所占比例就會(huì)相對(duì)較高?!蛾P(guān)于調(diào)整國(guó)家科技計(jì)劃和公益性行業(yè)科研專項(xiàng)經(jīng)費(fèi)管理辦法若干規(guī)定的通知》借鑒美國(guó)等發(fā)達(dá)國(guó)家的通行做法,結(jié)合我國(guó)科研管理實(shí)際,正式建立了項(xiàng)目間接成本補(bǔ)償機(jī)制,將項(xiàng)目資金按照直接費(fèi)用、間接費(fèi)用進(jìn)行了劃分。這一做法符合科研活動(dòng)規(guī)律,體現(xiàn)了科學(xué)化管理的要求。通過(guò)提取一定比例的間接費(fèi)用,補(bǔ)償依托單位的管理成本,有利于促進(jìn)科研機(jī)構(gòu)的良性發(fā)展。
原始已標(biāo)記數(shù)據(jù)集L={微博文本Lw、用戶標(biāo)簽Lu、用戶昵稱Ln}
根據(jù)此算法以及該3×750 t/d項(xiàng)目的實(shí)際運(yùn)行數(shù)據(jù),多次迭代計(jì)算后得出,焚燒爐出口煙氣溫度最低為900℃,否則不能滿足環(huán)保要求。
原始未標(biāo)記數(shù)據(jù)集U={微博文本Uw、用戶標(biāo)簽Uu、用戶昵稱Un}
輸出:
總之,高考中鈉及其化合物考查難度并不大,通過(guò)對(duì)鈉及其化合物的總結(jié)歸納,我們可以全方位認(rèn)識(shí)“鈉”,系統(tǒng)地掌握鈉及其化合物的知識(shí)結(jié)構(gòu),另外還要注重鈉與其他元素之間的綜合應(yīng)用,學(xué)會(huì)對(duì)知識(shí)進(jìn)行遷移,舉一反三、提綱挈領(lǐng),對(duì)相關(guān)知識(shí)適當(dāng)拓展,這樣就可以對(duì)元素及其化合物的知識(shí)融會(huì)貫通,取得理想的效果。
關(guān)鍵核心技術(shù)永遠(yuǎn)是等不來(lái)、靠不來(lái)、要不來(lái)的,必須找準(zhǔn)方向,自力更生,通過(guò)供給側(cè)結(jié)構(gòu)性改革,尋求關(guān)鍵技術(shù)突破的理論、方法和措施,努力從加強(qiáng)基礎(chǔ)研究和應(yīng)用基礎(chǔ)研究、加強(qiáng)大平臺(tái)大裝置等科學(xué)基礎(chǔ)設(shè)施建設(shè)、加強(qiáng)知識(shí)產(chǎn)權(quán)保護(hù)、聚集和釋放人才紅利等方面進(jìn)行全方位布局。
微博文本分類器Cw、用戶標(biāo)簽分類器Cu、用戶昵稱分類器Cn
步驟:
2)對(duì)每個(gè)分類器分別進(jìn)行以下步驟直到滿足指定條件時(shí)停止(下面以Cw為例);
1)使用Lw、Lu、Ln分別對(duì)初始分類器進(jìn)行訓(xùn)練,得到Cw、Cu、Cn;
為倡導(dǎo)優(yōu)良學(xué)風(fēng),規(guī)范學(xué)術(shù)行為,凈化學(xué)術(shù)空氣,凡向本刊投稿的作者均須嚴(yán)格遵守《中華人民共和國(guó)著作權(quán)法》等國(guó)家有關(guān)法律、法規(guī),杜絕學(xué)術(shù)不端行為。
IG的重要衡量條件就是判斷該特征能帶來(lái)多大的信息量,信息越多則表明該特征越重要.如一個(gè)特征f,有該特征的信息量與沒(méi)有該信息的信息量差值即為f的信息增益.另外,在降維處理的幅度上,若減少的維度過(guò)多,會(huì)影響分類器的準(zhǔn)確性,若特征數(shù)仍過(guò)多,會(huì)存在很多噪音.本文的特征選擇IG最高的前5000個(gè).
l為訓(xùn)練循環(huán)了第l次,el為第l次訓(xùn)練過(guò)程中的誤差,Ll為第l次訓(xùn)練過(guò)程中已打標(biāo)樣本和另兩個(gè)分類器對(duì)未打標(biāo)樣本分類相同的集合.
5)使用Lw’重新訓(xùn)練分類器Cw;
6)將Uwi重新放回Uw中進(jìn)行下一輪的分類;
7)當(dāng)新分類器的迭代指定次數(shù)時(shí)或者原始未標(biāo)記數(shù)據(jù)集U為空時(shí)終止.
傳統(tǒng)分類器的集成往往通過(guò)簡(jiǎn)單投票法[17],比如三個(gè)中如果有2個(gè)分類器的結(jié)果相同那么就判定為該類別.但是這種方法在融合的時(shí)候沒(méi)有考慮到三個(gè)分類器自身分類強(qiáng)弱特性,當(dāng)其中一個(gè)較強(qiáng)分類器判斷正確,另兩個(gè)分類器判斷錯(cuò)誤時(shí),會(huì)出現(xiàn)較大偏差導(dǎo)致最后的結(jié)果分類錯(cuò)誤.因此本文在使用tri-training訓(xùn)練結(jié)束生成三個(gè)視圖的分類器后,以準(zhǔn)確率作為權(quán)重對(duì)這三個(gè)分類器進(jìn)行集成,準(zhǔn)確度越高的分類器的權(quán)重就越大.這樣能在分類器的分類性能存在差異的時(shí),使判斷的結(jié)果更加準(zhǔn)確.
本文實(shí)驗(yàn)數(shù)據(jù)均來(lái)自真實(shí)新浪微博用戶數(shù)據(jù),使用python腳本爬蟲爬取15 000名用戶的微博文本、用戶標(biāo)簽和用戶昵稱.并對(duì)內(nèi)容做出限制,篩選出微博文本條數(shù)大于30條,用戶標(biāo)簽大于4個(gè)的非企業(yè)認(rèn)證(藍(lán)V)用戶共6841名.
1.小結(jié):要想把一件事或一個(gè)活動(dòng)寫具體,方法是次要的,關(guān)鍵是要細(xì)心觀察,用心感受,把自己的見聞和獨(dú)特感受大膽地寫出來(lái)。
由于6841名微博用戶是隨機(jī)爬取,因此在實(shí)驗(yàn)前先人工對(duì)這些微博用戶進(jìn)行打標(biāo),根據(jù)其微博文本、標(biāo)簽、昵稱、相冊(cè)和評(píng)論來(lái)判定其性別,最后選出男女用戶各2500名,共計(jì)5000名.本文選取20%的數(shù)據(jù)(1000名用戶)作為測(cè)試樣本集,80%的數(shù)據(jù)(4000名用戶)作為訓(xùn)練樣本集.其中選取訓(xùn)練樣本的30%作為已打標(biāo)數(shù)據(jù),剩下70%作為未打標(biāo)數(shù)據(jù).
本文比較單一視圖下使用有限標(biāo)記樣本進(jìn)行監(jiān)督學(xué)習(xí)的分類器和使用多視圖tri-training學(xué)習(xí)后三個(gè)分類器的檢測(cè)準(zhǔn)確度的差異,并比較了利用本文算法集成后的分類器準(zhǔn)確度,實(shí)驗(yàn)結(jié)果如圖2所示.從圖2可以看出基于多視圖tri-training學(xué)習(xí)后的分類器判斷效果更好,并且按照準(zhǔn)確度權(quán)重進(jìn)行集成后的分類器準(zhǔn)確度提高了1%.
圖2 單一分類器和多視圖tri-training準(zhǔn)確性比較
另外,在三個(gè)視圖的分類器選擇上,和傳統(tǒng)的tritraining采用同一種分類器不同,本文在比較多種分類器組合后選擇使用一個(gè)SVM分類器和兩個(gè)最大熵分類器.多種分類器組合情況和比較的結(jié)果如表3和表4所示.
表3 多種分類器組合情況
表4 多種分類器組合準(zhǔn)確性比較
從對(duì)比可以看出,在對(duì)微博用戶性別進(jìn)行判斷時(shí),多視圖tri-training學(xué)習(xí)得到的分類器性能比單視圖分類器效果更好.而且在分類器的選擇上,三個(gè)視圖合各自特征選擇合適的分類器組合比三個(gè)視圖使用同一分類器準(zhǔn)確度更高.
資產(chǎn)評(píng)估如果在審計(jì)前進(jìn)行,那么審計(jì)的報(bào)告中需闡明:“我們?cè)趯?shí)施審計(jì)程序的同時(shí),委托方還委托企業(yè)資產(chǎn)評(píng)估機(jī)構(gòu)對(duì)被審計(jì)單位的實(shí)物資產(chǎn)進(jìn)行了評(píng)估,報(bào)告披露的上述資產(chǎn)的價(jià)值,均可采用評(píng)估報(bào)告的相關(guān)數(shù)據(jù)。”
本文結(jié)合多視角學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的方法,在大量新浪微博用戶性別數(shù)據(jù)打標(biāo)困難的情況下,通過(guò)少量人工打標(biāo)樣本和大量未標(biāo)記樣本,利用微博文本、用戶標(biāo)簽、用戶昵稱三個(gè)視圖對(duì)三個(gè)分類器相互學(xué)習(xí)訓(xùn)練.通過(guò)真實(shí)用戶數(shù)據(jù)實(shí)驗(yàn)后,發(fā)現(xiàn)多視圖學(xué)習(xí)后的分類器在對(duì)微博用戶性別進(jìn)行分類的準(zhǔn)確性上比單一視圖分類器效果更好.但本文在實(shí)驗(yàn)過(guò)程中只從三個(gè)視圖出發(fā)對(duì)用戶性別做判斷,而微博中的話題、評(píng)論、關(guān)注人等都能在一定程度上體現(xiàn)出用戶性別,今后可以嘗試從更多角度判斷用戶性別.
1Ciot M,Sonderegger M,Ruths D.Gender inference of twitter users in Non-English contexts.Stroudsburg.Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle,WA,USA.2013.1136-1145.
2Li SS,Wang JJ,Zhou GD,et al.Interactive gender inference with integer linear programming.Proceedings of the 24th International Conference on Artificial Intelligence.Buenos Aires,Argentina.2015.2341-2347.
3Ikeda D,Takamura H,Okumura M.Semi-supervised learning for blog classification.Proceedings of the 23rd National Conference on Artificial Intelligence.Chicago,IL,USA.2008.1156-1161.
4Wang JJ,Xue YX,Li SS,et al.Leveraging interactive knowledge and unlabeled data in gender classification with co-training.International Conference on Database Systems for Advanced Applications.Hanoi,Vietnam.2015.246-251.
5劉寶芹,牛耘.基于情緒特征的中文微博用戶性別識(shí)別.計(jì)算機(jī)工程與科學(xué),2016,38(9):1917-1923.
6錢鐵云,尤珍妮,陳麗,等.基于興趣標(biāo)簽的緘默用戶性別預(yù)測(cè)研究.華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(12):101-105.
7藍(lán)超,饒泓,浣軍.半監(jiān)督多視圖學(xué)習(xí)在大數(shù)據(jù)分析中的應(yīng)用探討.中興通訊技術(shù),2015,21(5):32-34.
8Yin CY,Xiang J,Zhang H,et al.A new SVM method for short text classification based on semi-supervised learning.Proceedings of International Conference on Advanced Information Technology and Sensor Application.Harbin,China.2015.100-103.
9郭翔宇,王魏.一種改進(jìn)的協(xié)同訓(xùn)練算法:Compatible Cotraining.南京大學(xué)學(xué)報(bào)(自然科學(xué)),2016,52(4):662-671.
10蘭霞.半監(jiān)督協(xié)同訓(xùn)練算法的研究[碩士學(xué)位論文].成都:四川師范大學(xué),2011.
11閆耀輝,臧洌,黃同心.基于協(xié)同訓(xùn)練的Co-Forest算法在入侵檢測(cè)中的應(yīng)用.2010通信理論與技術(shù)新發(fā)展——第十五屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(下冊(cè)).昆明,中國(guó).2010.305-309.
12Sun SL.A survey of multi-view machine learning.Neural Computing and Applications,2013,23(7-8):2031-2038.[doi:10.1007/s00521-013-1362-6]
13Xu C,Tao DC,Xu C.A survey on multi-view learning.arXiv:1304.5634,2013:1-49.
14于重重,劉宇,譚勵(lì),等.組合標(biāo)記的多視圖半監(jiān)督協(xié)同分類算法.計(jì)算機(jī)應(yīng)用,2013,33(11):3090-3093.
15Qian TY,Liu B,Chen L,et al.Tri-Training for authorship attribution with limited training data:A comprehensive study.Neurocomputing,2016,171:798-806.[doi:10.1016/j.neucom.2015.07.064]
16Chou CL,Chang CH,Huang YY.Boosted web named entity recognition via tri-training.ACM Transactions on Asian and Low-Resource Language Information Processing,2016,16(2):10.
17張榮榮.圖像分類中融合Bagging的Tri-Training算法研究[碩士學(xué)位論文].重慶:西南大學(xué),2016.