• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      半監(jiān)督學(xué)習(xí)的微博謠言檢測(cè)分析

      2021-07-19 09:37陳耿黃取治
      電腦知識(shí)與技術(shù) 2021年15期

      陳耿 黃取治

      摘要:謠言檢測(cè)是社交網(wǎng)絡(luò)謠言研究、監(jiān)測(cè)及整治的基礎(chǔ),其實(shí)施情況得到社會(huì)的廣泛關(guān)注,相伴隨的是微博謠言辨識(shí)的研究工作不斷增多。該文把微博謠言作為研究對(duì)象,搭建了微博謠言的檢測(cè)框架,其主要是由獲取數(shù)據(jù)、處理數(shù)據(jù)及謠言檢測(cè)三大步驟構(gòu)成,基于實(shí)驗(yàn)研究過(guò)程,對(duì)比了差異化數(shù)據(jù)已標(biāo)注比例時(shí)不同半監(jiān)督學(xué)習(xí)的性能和ImCo-Forest算法之間的差異,發(fā)現(xiàn)ImCo-Forest在謠言檢測(cè)方面更占優(yōu)勢(shì)。希望能和同行共同分享方法與經(jīng)驗(yàn),以期進(jìn)一步完善微博謠言檢測(cè)工作。

      關(guān)鍵詞:微博謠言;半監(jiān)督學(xué)習(xí);ImCo-Forest算法;謠言檢測(cè)系統(tǒng)

      中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2021)15-0012-02

      1 背景

      微博憑借自身在即時(shí)性、匿名性、廣泛性等方面占據(jù)的優(yōu)勢(shì),從根本上扭轉(zhuǎn)了傳統(tǒng)媒介下信息傳播的樣態(tài),塑造了去中心化的傳播局勢(shì),成為傳播社會(huì)輿論的新載體。

      微博平臺(tái)上每次只能發(fā)布長(zhǎng)度為140字符的文字信息,其不具有完整闡述事實(shí)的功能,外加微博用戶的草根性,使微博逐漸成為聚集、散播謠言的載體,頻繁轉(zhuǎn)播、評(píng)論虛假信息,不斷拓展負(fù)面影響的范圍,使用用戶主觀上生成強(qiáng)烈的“信任危機(jī)感”,不利于社會(huì)的和諧、平穩(wěn)發(fā)展。謠言檢測(cè)隸屬于網(wǎng)絡(luò)信息可信度研究的范圍,微博謠言檢測(cè)能凈化微博平臺(tái)環(huán)境,引導(dǎo)平臺(tái)健康運(yùn)作發(fā)展,創(chuàng)造出更大的效益。

      2 背景分析

      微博是現(xiàn)代生活中的一種常用社交網(wǎng)絡(luò)平臺(tái),廣大用戶可以利用瀏覽器、智能手機(jī)及他類智能聯(lián)網(wǎng)的客戶端傳送信息,進(jìn)而達(dá)到分享即時(shí)信息的目的。謠言是作為一種特別的語(yǔ)言現(xiàn)象,長(zhǎng)期以來(lái)是人們關(guān)注與研究的熱點(diǎn)之一。伴隨新媒體網(wǎng)絡(luò)的蓬勃發(fā)展,網(wǎng)絡(luò)謠言隨之產(chǎn)生與流傳,在社會(huì)上形成較大的影響。近些年中,因微博謠言泛濫引起的危害,使各級(jí)政府及學(xué)術(shù)領(lǐng)域?qū)Υ私o予高度重視,為對(duì)虛假話題傳播過(guò)程形成抑制,我國(guó)政府頒發(fā)了相應(yīng)的懲處法規(guī),針對(duì)網(wǎng)絡(luò)謠言制造及傳播者,公安機(jī)關(guān)加大了打擊力度。以上這些治理措施的實(shí)施,對(duì)維持微博傳播秩序有很大助益,明顯減少了微博謠言。通過(guò)觀察謠言數(shù)據(jù),不難發(fā)現(xiàn)微博內(nèi)的謠言數(shù)目明顯少于非謠言,精準(zhǔn)辨識(shí)謠言具有很大現(xiàn)實(shí)意義。

      3 ImCo-Forest算法

      Co-Forest是聚集了集成學(xué)習(xí)算法的一種算法類型,其不僅能處理協(xié)同訓(xùn)練算法中噪聲數(shù)據(jù)引進(jìn)相關(guān)問(wèn)題,還通過(guò)加強(qiáng)不同分類器之間的合作,對(duì)那些價(jià)值較高且無(wú)標(biāo)記數(shù)據(jù)的預(yù)測(cè)工作發(fā)出了挑戰(zhàn),強(qiáng)化了集成學(xué)習(xí)算法的分類功能。

      半監(jiān)督學(xué)習(xí)算法ImCo-Forest就是以Co-Forest算法為基礎(chǔ)提出的,應(yīng)用該算法的目的需要是通過(guò)優(yōu)化集中訓(xùn)練中少數(shù)類的分布狀態(tài),將偏高的誤分類代價(jià)賦予部分感興趣的少數(shù)類,進(jìn)而強(qiáng)化分類器的辨識(shí)能力。假定用[L={(x1,y1),……(xl,yc)}]去表示已標(biāo)注的數(shù)據(jù),[yl∈{1,……c}],[U={(x1,yu),……(xj,yu)}]表示沒(méi)有標(biāo)注數(shù)據(jù),且有l(wèi)

      該算法應(yīng)用階段,針對(duì)添加的新標(biāo)記數(shù)據(jù)的數(shù)據(jù)集,應(yīng)用了以正負(fù)類為基礎(chǔ)形成的分層抽樣法進(jìn)行抽樣操作,借此方式使類別平衡性得到更大保障,規(guī)避了由于樣本選擇不恰當(dāng)而引起的分類性能逐漸惡化的問(wèn)題。

      4 檢測(cè)框架

      從宏觀層面上,可以將微博謠言檢測(cè)細(xì)化為數(shù)據(jù)獲得、數(shù)據(jù)處置及謠言檢測(cè)三步驟,本文搭建的微博謠言檢測(cè)框架見(jiàn)圖1所示[2]。

      4.1 數(shù)據(jù)獲得

      參照新浪微博官方對(duì)外發(fā)布的數(shù)據(jù),到2017年年末時(shí),新浪微博月活躍、日活躍用戶分別是3.92億、1.65億,為現(xiàn)階段國(guó)內(nèi)應(yīng)用用戶數(shù)目最多、社會(huì)影響力最大的微博平臺(tái)類型。本課題選擇新浪微博作為研究對(duì)象去分析謠言檢測(cè)相關(guān)問(wèn)題。通過(guò)觀察新浪微博的信息結(jié)構(gòu),不難發(fā)現(xiàn)用戶個(gè)人信息、微博文案及傳播信息是一條微博的主要構(gòu)成。獲得數(shù)據(jù)是謠言檢測(cè)的基礎(chǔ),以新浪API為基礎(chǔ)的數(shù)據(jù)獲取方法是常用手段之一,流程可以做出如下概述:首先,創(chuàng)建賬號(hào)與運(yùn)用獲得研發(fā)者身份,能獲取專屬型的App Key與App Secret;其次,開(kāi)發(fā)者將授權(quán)請(qǐng)求傳送到授權(quán)地址,基于OAuth2.0認(rèn)證過(guò)程誘導(dǎo)Request Token授權(quán)返回過(guò)程,在確認(rèn)授權(quán)成功以后,開(kāi)發(fā)者再獲得Access Token;最后,調(diào)取使用接口,便能順利地獲取到JOSN數(shù)據(jù)流或XML文件,系統(tǒng)化分析后便預(yù)示著微博數(shù)據(jù)采集工作結(jié)束。利用該種方法采集數(shù)據(jù)有研發(fā)代價(jià)偏低、便于達(dá)成等優(yōu)點(diǎn),但官方設(shè)定的數(shù)據(jù)獲取頻次與方式會(huì)對(duì)其形成一定約束,很難保證謠言數(shù)據(jù)獲取的有效性、整體性。而相比之下,基于微博爬蟲(chóng)獲取數(shù)據(jù)的方法在應(yīng)用階段,能基于網(wǎng)絡(luò)抓包工具能構(gòu)建數(shù)據(jù)請(qǐng)求過(guò)程與各請(qǐng)求URL之間的關(guān)系,獲得kie并建立session,實(shí)現(xiàn)模擬登陸,利用HTTP協(xié)議、GET方法去采集與分析數(shù)據(jù)。

      4.2 數(shù)據(jù)處置

      謠言檢測(cè)的宗旨在于從批量化的微博消息內(nèi),基于分類算法對(duì)其作出合理判斷。處理數(shù)據(jù)是計(jì)算機(jī)“理解”數(shù)據(jù)的前提,這樣方能精準(zhǔn)辨別出微博謠言。本文把微博文本表示為向量這些適用于機(jī)器學(xué)習(xí)算法處理的數(shù)據(jù)[3]。1)過(guò)濾噪聲:去噪的目的以解除無(wú)用數(shù)據(jù)為主,這是提升后期檢測(cè)工效的基礎(chǔ),具體是當(dāng)微博用戶的粉絲數(shù)目在給定閾值之下時(shí),就將其微博數(shù)據(jù)刪除。2)分詞:從本質(zhì)上分析,對(duì)微博文本進(jìn)行分類就是細(xì)化短文本的所屬類型,對(duì)文本進(jìn)行分詞操作這是預(yù)處理階段需落實(shí)的第一要?jiǎng)?wù),當(dāng)下可供選擇的分詞方法較多,比如由統(tǒng)計(jì)學(xué)習(xí)形成的,或者以人工智能為基礎(chǔ)形成的分詞法等,合理使用如上方法,能將連貫的字符串序列轉(zhuǎn)變成組合式的成詞序列,并化繁為簡(jiǎn),獲得簡(jiǎn)單容易處理、向量化的文本數(shù)據(jù)。3)表示向量:即參照一定的特征項(xiàng),把微博文案信息轉(zhuǎn)變成特征性向量的方法,當(dāng)前在該環(huán)節(jié)中多采用空間向量模型(VSM),其應(yīng)用思想可以做出如下表述:將文本視為無(wú)序詞與其相對(duì)應(yīng)權(quán)重的集合體,統(tǒng)一映射至高維空間內(nèi),具體操作是把文案內(nèi)的各詞項(xiàng)作為唯一屬性用t1表示,測(cè)算出文檔內(nèi)各詞項(xiàng)的重要程度進(jìn)而獲取到權(quán)重W1,那么便可以將一個(gè)文檔表示成例如(t1,W1;t2,W2;……tn,Wn)的向量形式,而后通過(guò)測(cè)算文本相似度去對(duì)不同內(nèi)容之間的相關(guān)性作出科學(xué)判斷。

      4.3 選擇微博特征

      這是謠言檢測(cè)過(guò)程中的關(guān)鍵一環(huán),影響著檢測(cè)效果,當(dāng)下國(guó)內(nèi)外針對(duì)微博謠言檢測(cè)的研究主要聚集在選擇分類特征方面。也有人員通過(guò)系統(tǒng)分析與科學(xué)實(shí)驗(yàn)過(guò)程獲取到文本的基本特征,即內(nèi)容特征、用戶屬性信息與傳播特征,希望據(jù)此能提升微博謠言檢測(cè)效率,本文以此為基礎(chǔ),從多個(gè)維度分析微博謠言的特點(diǎn),構(gòu)建出用于檢測(cè)微博謠言的特征向量集合[4]。1)內(nèi)容特征:是微博消息內(nèi)的統(tǒng)計(jì)特征,可以將其看成是微博內(nèi)容的延展信息或不同用戶交流中形成的信息,影響著文本的可信度。2)用戶特征:由是否認(rèn)證、注冊(cè)時(shí)間、微博數(shù)等構(gòu)成,其呈現(xiàn)出的是廣大微博用戶自身的權(quán)威性與影響力。3)傳播特征:看中的主要是用戶上傳的文本信息的轉(zhuǎn)發(fā)及評(píng)論數(shù),這種特征主要是能表現(xiàn)出該用戶對(duì)其他網(wǎng)絡(luò)用戶產(chǎn)生的影響力。

      5 實(shí)證檢驗(yàn)

      5.1 實(shí)驗(yàn)步驟

      1)獲取和標(biāo)注數(shù)據(jù):把官方的辟謠信息及網(wǎng)絡(luò)材料作為憑據(jù),選擇5895條微博并進(jìn)行人工標(biāo)注處理。

      2)提獲特征:在該操作之前需要對(duì)獲得的微博數(shù)據(jù)進(jìn)行預(yù)處理,宗旨在于盡量解除噪聲數(shù)據(jù),將無(wú)用數(shù)據(jù)對(duì)后續(xù)檢測(cè)工作形成的負(fù)面影響降至最低。具體是刪減到粉絲數(shù)<5的用戶信息。預(yù)處理后參照特征去提獲數(shù)據(jù),構(gòu)建出微博文本數(shù)據(jù)的特征向量[5]。

      3)鑒于ImCo-Forest算法在微博謠言檢測(cè)領(lǐng)域中表現(xiàn)出的有效性,擬定于WEKA平臺(tái)上開(kāi)展謠言檢測(cè)的實(shí)驗(yàn)研究。針對(duì)各個(gè)數(shù)據(jù)集,通過(guò)十折交叉驗(yàn)證進(jìn)行測(cè)評(píng),把已標(biāo)注及未標(biāo)注集作為檢測(cè)算法的輸入項(xiàng),對(duì)分類器進(jìn)行規(guī)范訓(xùn)練后于測(cè)試集上進(jìn)行檢測(cè),獲得真正例、假負(fù)例、假正例及真負(fù)例。

      5.2 實(shí)驗(yàn)結(jié)果

      比較了不同數(shù)據(jù)已標(biāo)注比例時(shí)不同半監(jiān)督學(xué)習(xí)的性能和ImCo-Forest算法。對(duì)比分析后發(fā)現(xiàn),和其他半監(jiān)督學(xué)習(xí)算法相比較,在已標(biāo)注比例下ImCo-Forest算法的F-measure值和G-mean值更高,這表明ImCo-Forest算法在檢測(cè)微博謠言方面優(yōu)越性更大。并且通過(guò)讀圖發(fā)現(xiàn),在已標(biāo)注數(shù)據(jù)占比達(dá)到40%時(shí)Co-Forest算法的性能最優(yōu),當(dāng)數(shù)據(jù)占比為60%、80%時(shí)算法的性能卻有降低趨勢(shì),這主要是由Co-Forest算法自身的特點(diǎn)決定的,與既往很多研究形成的結(jié)論一致。

      為了能進(jìn)一步證實(shí)本文所設(shè)計(jì)的ImCo-Forest算法和現(xiàn)有研究所應(yīng)用的監(jiān)督學(xué)習(xí)算法更占據(jù)優(yōu)勢(shì),本文基于L[?]U,在μ=0%狀態(tài)對(duì)應(yīng)的數(shù)據(jù)集上對(duì)SVM、Bayes和J48分類器進(jìn)行系統(tǒng)化訓(xùn)練,將他們和已經(jīng)標(biāo)注數(shù)據(jù)比例為10%情景下的ImCo-Forest算法持有的性能進(jìn)行對(duì)比分析,選擇了“少女遭毀容”語(yǔ)料,統(tǒng)計(jì)了評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表1[6]。

      對(duì)表1內(nèi)的數(shù)據(jù)進(jìn)行比較分析,不難發(fā)現(xiàn)在"少女遭毀容"語(yǔ)料上,ImCo-Forest算法的與F-measure指標(biāo)都較好,提示該種算法在處理非平衡數(shù)據(jù)問(wèn)題方面和其他算法相比較表現(xiàn)出較好效能。在這里需另外關(guān)注的問(wèn)題是,SVM算法盡管在整體準(zhǔn)確率指標(biāo)上相對(duì)較高,達(dá)到了90.04%,但其G-mean和F-measure指標(biāo)數(shù)值均處于較低的水平,提示該算法對(duì)少數(shù)類的辨識(shí)性能偏差,說(shuō)明其不能精準(zhǔn)辨識(shí)出微博謠言[7]。

      還需要關(guān)注的內(nèi)容是,本次實(shí)驗(yàn)中對(duì)選用的三種監(jiān)督學(xué)習(xí)算法均采用了100%完全性標(biāo)注的理想化數(shù)據(jù)集進(jìn)行訓(xùn)練,統(tǒng)計(jì)結(jié)果后發(fā)現(xiàn),在整體準(zhǔn)確率指標(biāo)上,只有SVM、J48算法比ImCo-Forest更優(yōu)秀,提示為了獲得相對(duì)較高的總體準(zhǔn)確率,和ImCo-Forest算法相比較,其他算法需要數(shù)目更龐大的標(biāo)注數(shù)據(jù),這在很大程度上削弱了其在現(xiàn)實(shí)運(yùn)用領(lǐng)域中的可執(zhí)行性。

      6 結(jié)束語(yǔ)

      綜合分析以上實(shí)驗(yàn)過(guò)程產(chǎn)出的結(jié)果,可以認(rèn)定ImCo-Forest算法能在標(biāo)注數(shù)據(jù)少量的情景下,較好的檢測(cè)出謠言,這樣便能在微博謠言辨識(shí)階段明顯減少數(shù)據(jù)標(biāo)注過(guò)程中付出的代價(jià)。但是回顧研究歷程,筆者自知還存在著一定不足,比如沒(méi)有考慮到微博文本語(yǔ)義等因素形成的影響,故而后續(xù)工作中應(yīng)重視專研分析語(yǔ)義特征、傳播過(guò)程中用戶主體行為對(duì)信息可信度形成的影響,參照語(yǔ)義技術(shù)拓展對(duì)微博文本特征挖掘的深度性,借此方式進(jìn)一步提升半監(jiān)督學(xué)習(xí)算法在檢測(cè)微博謠言方面的精準(zhǔn)度,將自身價(jià)值發(fā)揮到最大化。

      參考文獻(xiàn):

      [1] 劉彤,魏靜,倪維健,等.基于半監(jiān)督學(xué)習(xí)與CRF的應(yīng)急預(yù)案命名實(shí)體識(shí)別[J].軟件導(dǎo)刊,2020,19(3):35-38.

      [2] 馮雨庭,張錦,肖斌.基于半監(jiān)督SVM的交通方式特征分析和識(shí)別[J].綜合運(yùn)輸,2019,41(9):57-63.

      [3] 金志剛,楊洋.基于用戶關(guān)聯(lián)度的半監(jiān)督情感分析模型[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2019,51(5):50-56.

      [4] 董哲瑾,王健,錢(qián)凌飛,等.一種用戶成長(zhǎng)性畫(huà)像的建模方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2019,54(3):38-45.

      [5] 陳珂,黎樹(shù)俊,謝博.基于半監(jiān)督學(xué)習(xí)的微博情感分析[J].計(jì)算機(jī)與數(shù)字工程,2018,46(9):1850-1855.

      [6] 李澤魁,李雪婷,趙妍妍.中文微博熱點(diǎn)事件情感分布的原因分析[J].中文信息學(xué)報(bào),2018,32(1):131-138.

      [7] 劉桂鋒,汪滿容,劉海軍.基于概率超圖半監(jiān)督學(xué)習(xí)的專利文本分類方法研究[J].情報(bào)雜志,2016,35(9):187-191,173.

      【通聯(lián)編輯:謝媛媛】

      武清区| 沾益县| 延长县| 晋宁县| 莱西市| 沁水县| 宁强县| 南乐县| 漠河县| 石嘴山市| 广河县| 大新县| 河间市| 焦作市| 板桥市| 江山市| 南江县| 昔阳县| 双牌县| 泾阳县| 江源县| 景德镇市| 澄城县| 屏南县| 广汉市| 漠河县| 合作市| 蓬莱市| 汶上县| 盐边县| 银川市| 龙泉市| 仁化县| 独山县| 昭通市| 托克逊县| 和林格尔县| 辛集市| 江西省| 新乐市| 阜新市|