• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向網(wǎng)絡(luò)社交媒體的少樣本新冠謠言檢測

      2022-03-10 01:25:20陸恒楊范晨悠吳小俊
      中文信息學(xué)報(bào) 2022年1期
      關(guān)鍵詞:謠言新冠樣本

      陸恒楊,范晨悠,吳小俊

      (1. 江南大學(xué) 江蘇省模式識別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇 無錫 214122; 2. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023; 3. 深圳市人工智能與機(jī)器人研究院,廣東 深圳 518129)

      0 引言

      新型冠狀病毒肺炎(COVID-19,以下簡稱新冠)在全球范圍內(nèi)持續(xù)爆發(fā),已成為一場全球性的流行病,造成的損失遍及民生、經(jīng)濟(jì)等多個(gè)領(lǐng)域。其中,與新冠相關(guān)的謠言也造成了大量負(fù)面影響,尤其在當(dāng)下發(fā)達(dá)的網(wǎng)絡(luò)環(huán)境下,在社交媒體上發(fā)布的謠言會在短時(shí)間內(nèi)大范圍傳播,造成公共資源的極大浪費(fèi),對社會產(chǎn)生惡劣的影響。例如,推特上有關(guān)“5G基站會傳播新冠”的謠言,就曾引起部分英國網(wǎng)友縱火燒基站的激進(jìn)行為。因此,高效、準(zhǔn)確地開展新冠謠言檢測對于政府和個(gè)人都具有重要的意義,對積極、正面的輿情引導(dǎo)也具有重要價(jià)值。

      謠言是指未經(jīng)證實(shí)或蓄意編撰的內(nèi)容,常見于社交媒體。由于社交媒體上的數(shù)據(jù)不間斷產(chǎn)生,近年來采用機(jī)器學(xué)習(xí)和人工智能技術(shù)進(jìn)行謠言檢測成為了熱門的研究方向。一類常見的研究分支將謠言檢測建模為二分類問題,預(yù)測文本樣例的真實(shí)性。相關(guān)研究經(jīng)歷了從早期的手工構(gòu)建文本特征到近期的基于深度學(xué)習(xí)的自動(dòng)特征表示方法[1-4],到結(jié)合社交媒體的傳播特性,也有一部分工作結(jié)合社交賬號間的互動(dòng)、轉(zhuǎn)發(fā)評論等信息傳播開展謠言檢測研究。[5]

      現(xiàn)有的謠言檢測任務(wù),通常假定各類已知事件有充足的有標(biāo)簽數(shù)據(jù)用于建模和訓(xùn)練,并且在測試階段,需要檢測的謠言也與訓(xùn)練所用的事件有關(guān)。然而,在新冠這一突發(fā)事件爆發(fā)之前,社交媒體從未出現(xiàn)過有關(guān)這一事件的信息,導(dǎo)致在初期可供訓(xùn)練的數(shù)據(jù)極其稀少,對現(xiàn)有謠言檢測模型帶來了巨大的挑戰(zhàn)。在少樣本場景下開展新冠謠言檢測研究,成為亟待解決的研究問題,具有重要的理論研究意義和社會應(yīng)用價(jià)值。

      少樣本學(xué)習(xí)作為一種熱門的機(jī)器學(xué)習(xí)方法,近幾年得到了飛速發(fā)展[6-9],為新冠謠言檢測任務(wù)提供了新的研究范式。少樣本學(xué)習(xí)可以訓(xùn)練一個(gè)有效的機(jī)器學(xué)習(xí)模型,該模型可通過極少量的有標(biāo)簽數(shù)據(jù)來快速學(xué)習(xí)新的任務(wù),使其能夠在該任務(wù)上預(yù)測識別其他大量的無標(biāo)簽數(shù)據(jù),尤其適用于新冠這類突發(fā)事件的謠言檢測。少樣本學(xué)習(xí)的基本思路可類比人類的認(rèn)知過程,僅通過對少量或者單個(gè)樣例的學(xué)習(xí),實(shí)現(xiàn)對這一類物體或者概念的識別。例如,只需要見過幾句范例,人類就可以熟練使用陌生的詞匯。針對社交媒體上有關(guān)突發(fā)事件的謠言,同樣可以采用這一思想,通過學(xué)習(xí)少量具有標(biāo)簽的謠言樣例,就可以實(shí)現(xiàn)這一類突發(fā)新事件的謠言檢測,從而在早期及時(shí)遏制謠言的傳播。

      本文關(guān)注少樣本謠言檢測這一重要且被長期忽視的研究問題,聚焦少樣本場景下社交媒體中的新冠謠言檢測問題,以新浪微博這一中國社交媒體平臺作為數(shù)據(jù)來源開展研究。新浪微博上的謠言通常圍繞不同的事件產(chǎn)生、傳播,已有工作一般將已發(fā)生的事件作為研究對象,這類事件通常用充分的有標(biāo)簽數(shù)據(jù)進(jìn)行模型訓(xùn)練,因此當(dāng)出現(xiàn)新冠這類突發(fā)事件時(shí),現(xiàn)有模型缺乏新事件相關(guān)的訓(xùn)練數(shù)據(jù),無法進(jìn)行有效預(yù)測。本文提出一種基于少樣本學(xué)習(xí)的謠言檢測模型(few-shot learning based rumor detection model,FRUDE),通過元學(xué)習(xí)方法構(gòu)造具備學(xué)習(xí)能力的謠言檢測模型,對突發(fā)事件相關(guān)的微博進(jìn)行有效的謠言預(yù)測,并依托新冠這一突發(fā)事件,進(jìn)行有效性和應(yīng)用性驗(yàn)證。

      本文的主要貢獻(xiàn)包括以下三個(gè)方面:

      (1) 提出了“少樣本謠言檢測”這一非常重要但被忽視的研究問題。該問題聚焦如何通過極少量的謠言和非謠言樣例,迅速檢測有關(guān)全新的、無先例突發(fā)事件的謠言信息。

      (2) 收集了一種來自新浪微博的謠言數(shù)據(jù)集,包含11個(gè)與新冠無關(guān)、3個(gè)與新冠有關(guān)的事件,共3 840條中文數(shù)據(jù)。該數(shù)據(jù)集有助于少樣本謠言檢測問題的進(jìn)一步發(fā)展。

      (3) 提出了一種結(jié)合字符級BERT預(yù)訓(xùn)練編碼和雙層雙向GRU上下文編碼的特征表示方法,并通過設(shè)計(jì)基于元學(xué)習(xí)的少樣本學(xué)習(xí)方法實(shí)現(xiàn)突發(fā)事件少樣本謠言的有效檢測,在中文新冠謠言數(shù)據(jù)集以及英文PHEME公共數(shù)據(jù)集上均取得了優(yōu)于主流謠言檢測模型的效果。

      1 相關(guān)工作

      本文研究內(nèi)容同時(shí)涉及謠言檢測和少樣本學(xué)習(xí),并使用預(yù)訓(xùn)練向量作為文本輸入,相關(guān)研究工作分別綜述如下:

      1.1 謠言檢測

      根據(jù)謠言數(shù)據(jù)的不同特點(diǎn),SemEval-2017論壇將謠言檢測分為兩類子任務(wù): 謠言立場分類(rumor stance classification),以及謠言真實(shí)性預(yù)測(rumor veracity prediction)[10]。其中,謠言立場分類任務(wù)面向樹形結(jié)構(gòu)的數(shù)據(jù)集,其一般結(jié)構(gòu)為一條源文本以及不同用戶對該條文本的回復(fù),分類目標(biāo)為四分類任務(wù),將每條文本分為支持(support)、反對(deny)、質(zhì)疑(query)以及評論(comment),簡稱SDQC任務(wù)[11]。謠言真實(shí)性預(yù)測任務(wù)面向單條文本的數(shù)據(jù)集,分類目標(biāo)為二分類任務(wù),可結(jié)合輔助信息預(yù)測輸入的謠言數(shù)據(jù)為真和假,也可以將該任務(wù)建模為三分類問題,即真、假和無法驗(yàn)證[12]。

      根據(jù)謠言檢測的不同研究思路,早期工作通?;诓煌愋偷氖止ぬ卣魍ㄟ^監(jiān)督學(xué)習(xí)構(gòu)建分類器。例如,從文本、用戶簡介中抽取出特征,使用支持向量機(jī)和決策樹等分類器對推特的可信度進(jìn)行預(yù)測[13-15]、基于情感詞典抽取情感和語義特征,進(jìn)行謠言檢測等[16]。這類方法高度依賴特征工程方面的經(jīng)驗(yàn),對數(shù)據(jù)集的結(jié)構(gòu)和特點(diǎn)要求較高,通用性一般。深度學(xué)習(xí)強(qiáng)大的特征表示能力則推動(dòng)了謠言檢測的發(fā)展,例如,基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)等設(shè)計(jì)的謠言檢測模型打破了手工構(gòu)造特征的限制,能夠從文本中自動(dòng)抽取出深層語義信息,通用性更強(qiáng)[4,17-19]。還有一類工作結(jié)合社交媒體的傳播特性、多模態(tài)特性等開展謠言檢測,例如,通過優(yōu)化傳播圖構(gòu)建新聞可信度預(yù)測模型、基于異構(gòu)用戶表示和建模方法找出可區(qū)分謠言的傳播模式、融合圖像、圖像內(nèi)嵌文本以及文本內(nèi)容開展謠言檢測等[20-22]。

      1.2 少樣本學(xué)習(xí)

      少樣本學(xué)習(xí)(few-shot learning)是一種基于極少量有標(biāo)簽數(shù)據(jù)進(jìn)行模型訓(xùn)練的機(jī)器學(xué)習(xí)方法,被廣泛應(yīng)用于解決未在訓(xùn)練數(shù)據(jù)中出現(xiàn)過的新任務(wù)[6-7,23-24]。針對一個(gè)新任務(wù),只需給定極少量的有標(biāo)簽數(shù)據(jù),少樣本模型就可以對該任務(wù)的無標(biāo)簽數(shù)據(jù)進(jìn)行有效預(yù)測。例如,在1-shot分類任務(wù)中,測試集中每一個(gè)新觀察到的類,只有一個(gè)有標(biāo)簽數(shù)據(jù),導(dǎo)致傳統(tǒng)基于數(shù)據(jù)驅(qū)動(dòng)的監(jiān)督學(xué)習(xí)難以應(yīng)用在少樣本學(xué)習(xí)情景中。近期,許多研究將深度學(xué)習(xí)模型應(yīng)用到少樣本學(xué)習(xí)中。其中,元學(xué)習(xí)(meta-learning)成為一種主流方法[6,25]。元學(xué)習(xí)旨在學(xué)習(xí)一種模型,該模型可以提取已有訓(xùn)練任務(wù)中可遷移的知識, 使得該知識可用于學(xué)習(xí)新的任務(wù)。其基本機(jī)理是,通過從少量有標(biāo)簽數(shù)據(jù)中提取可遷移的知識,模型能夠快速適應(yīng)全新的任務(wù),從而正確預(yù)測標(biāo)簽。主流的元學(xué)習(xí)方法可以分為兩個(gè)大類: 基于優(yōu)化方法的(optimization-based) 元學(xué)習(xí)和基于度量學(xué)習(xí)(metric-based)的元學(xué)習(xí)。

      模型無關(guān)元學(xué)習(xí)方法(MAML)是一種有代表性的基于優(yōu)化的元學(xué)習(xí)方法[6],提出了利用梯度下降使模型可以自適應(yīng)地學(xué)習(xí)如何在新任務(wù)上得到最佳性能。該方法通過一次梯度下降使模型參數(shù)調(diào)整為任務(wù)相關(guān),再利用一次梯度下降,使得在該任務(wù)上的損失信號可以回傳給模型來調(diào)整參數(shù)。Meta-SGD方法擴(kuò)展了MAML,可以自適應(yīng)地學(xué)習(xí)梯度下降的步長[25]。元遷移學(xué)習(xí)MTL提出了一種避免在少量任務(wù)數(shù)據(jù)上過擬合的方法[24],進(jìn)一步改善了基于優(yōu)化的元學(xué)習(xí)方法。

      基于度量學(xué)習(xí)的元學(xué)習(xí)方法旨在學(xué)習(xí)一個(gè)好的特征空間,使得標(biāo)簽相同的數(shù)據(jù)之間距離更短,而標(biāo)簽不同的數(shù)據(jù)之間距離更長[8-9,26-27]。例如,MatchingNet提出在1-shot少樣本學(xué)習(xí)中,使用余弦距離來衡量支持?jǐn)?shù)據(jù)和查詢數(shù)據(jù)間的相似度,從而使神經(jīng)網(wǎng)絡(luò)的特征提取器更好地區(qū)分不同標(biāo)簽的數(shù)據(jù)[8]。Prototypical網(wǎng)絡(luò)進(jìn)一步推廣MatchingNet到K-shot少樣本學(xué)習(xí),通過求類內(nèi)支持?jǐn)?shù)據(jù)的特征均值,對每一個(gè)類別構(gòu)建一個(gè)原型特征,實(shí)現(xiàn)使用多個(gè)支持?jǐn)?shù)據(jù)的相似度計(jì)算[9]。

      1.3 預(yù)訓(xùn)練詞向量

      預(yù)訓(xùn)練詞向量模型(word embeddings)的快速發(fā)展進(jìn)一步推動(dòng)了文本信息處理的研究,例如Word2Vec和GloVe模型的出現(xiàn),極大地提升了各類自然語言處理任務(wù)的性能[28-29]。早期詞向量模型的不足之處在于不同上下文中的同一個(gè)單詞僅有單一的向量表示,無法有效處理單詞多義性問題,因此后續(xù)的ELMo模型及BERT模型充分引入了單詞上下文信息,通過預(yù)訓(xùn)練得到能有效反映單詞上下文的預(yù)訓(xùn)練詞向量,進(jìn)一步提升各類下游任務(wù)的性能[30-31]。其中BERT模型為近來主流的預(yù)訓(xùn)練模型,采用多層雙向Transformer獲取更豐富的上下文信息,得到具有更強(qiáng)語義表示能力的預(yù)訓(xùn)練詞向量,并與各類循環(huán)神經(jīng)網(wǎng)絡(luò)模型等相結(jié)合,用于文本分類、情感分析等場景,展示出更顯著的效果。

      本文提出的基于少樣本學(xué)習(xí)的新冠謠言檢測方法,將謠言檢測建模為二分類問題,判斷每條微博是否為謠言,結(jié)合模型無關(guān)元學(xué)習(xí)方法構(gòu)建具有良好適應(yīng)性的突發(fā)事件謠言預(yù)測模型。不僅解決了新冠這類突發(fā)事件可訓(xùn)練數(shù)據(jù)稀少的問題,也提供了開展謠言檢測的新研究范式,擴(kuò)展了該研究任務(wù)可適用的場景。

      2 新浪微博中的新冠謠言檢測方法

      本節(jié)主要介紹少樣本謠言檢測的問題定義、面向社交媒體中少樣本新冠謠言檢測任務(wù)的數(shù)據(jù)集構(gòu)建以及基于少樣本學(xué)習(xí)的謠言檢測模型構(gòu)建方法。

      2.1 問題定義

      本文將新冠謠言檢測任務(wù)建模為少樣本二分類機(jī)器學(xué)習(xí)任務(wù),記為N-taskK-shotQ-query,N代表少樣本學(xué)習(xí)的任務(wù)數(shù)(將檢測某個(gè)事件中的微博為謠言、為非謠言記為兩個(gè)任務(wù))、K代表每一個(gè)任務(wù)抽樣的支持樣例(即訓(xùn)練數(shù)據(jù))數(shù)、Q代表每一個(gè)任務(wù)抽樣的查詢樣例(即測試數(shù)據(jù))數(shù)。記需要檢測的事件數(shù)為E,均包含謠言和非謠言兩類數(shù)據(jù),則有N=E×2,該任務(wù)如定義1所示。

      在新冠謠言檢測場景下,有關(guān)新冠的突發(fā)事件出現(xiàn)后,可獲取少量由平臺判斷的謠言數(shù)據(jù),作為支持樣例用于訓(xùn)練,從而得到能夠有效預(yù)測查詢集的少樣本新冠謠言檢測模型。2.2節(jié)中結(jié)合本文使用的新冠謠言數(shù)據(jù)集對定義1進(jìn)行了具體的解釋。

      2.2 新浪微博新冠謠言數(shù)據(jù)集構(gòu)建

      參考微博謠言檢測數(shù)據(jù)集常用的構(gòu)造方法[3,32-33],本文使用網(wǎng)絡(luò)爬蟲從“微博社區(qū)管理中心”(1)https://service.account.weibo.com/獲取由官方判定的不實(shí)信息,作為謠言數(shù)據(jù)的來源,并通過事件關(guān)鍵詞爬取指定事件的謠言微博;指定事件相應(yīng)的非謠言數(shù)據(jù)同樣通過使用該事件的關(guān)鍵詞進(jìn)行爬取,并遵循已有工作的一般做法,驗(yàn)證爬取的微博未被平臺標(biāo)注為“不實(shí)信息”,圖1為微博判定的謠言示例。

      圖1 新浪微博官方判定的謠言示例

      本文共選取14個(gè)來自新浪微博的事件用于實(shí)驗(yàn),其中3個(gè)事件均與新冠有關(guān)。由于數(shù)據(jù)集中存在大量重復(fù)或者轉(zhuǎn)發(fā)的微博,為避免重復(fù)微博對模型造成過擬合,本文采用文本去重常用的漢明距離進(jìn)行重復(fù)性文本的過濾,當(dāng)多條微博之間的漢明距離小于設(shè)定的閾值,則過濾重復(fù)微博。根據(jù)不同閾值設(shè)置得到去重后的微博數(shù)量如圖2所示。

      圖2 設(shè)置不同漢明距離閾值去重后微博數(shù)量統(tǒng)計(jì)

      漢明距離閾值過小,則無法有效過濾重復(fù)的微博,漢明距離閾值過大,則會誤刪非重復(fù)性的微博,根據(jù)圖2的統(tǒng)計(jì)信息,本文選用漢明距離閾值為8構(gòu)建新冠謠言數(shù)據(jù)集,通過該去重操作,數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)情況如表1所示。

      表1 新冠謠言數(shù)據(jù)集事件信息統(tǒng)計(jì)

      續(xù)表

      該數(shù)據(jù)集包含3個(gè)與新冠相關(guān)的突發(fā)事件,11個(gè)與新冠無關(guān)的歷史事件,各個(gè)事件的詳細(xì)描述如下所示:

      馬航: 該事件為微博上有關(guān)馬航MH370航班失事的討論;

      高考: 該事件為高考期間在微博上發(fā)布的有關(guān)準(zhǔn)考證丟失、高考招生錄用等高考相關(guān)信息;

      奧運(yùn)會: 該事件為微博上發(fā)布的有關(guān)奧運(yùn)會新聞及討論;

      城管: 該事件為微博上有關(guān)城管執(zhí)法的新聞及討論;

      可樂: 該事件為微博上發(fā)布的有關(guān)可口可樂食品添加劑的信息;

      拐賣: 該事件為發(fā)布在微博上的兒童拐賣信息及尋人信息;

      地溝油: 該事件主要為微博上關(guān)于地溝油這一食品安全問題的相關(guān)新聞和信息;

      事故: 該事件主要涵蓋了微博上發(fā)布的各類事故,主要包括交通事故等;

      地震: 該事件主要為微博上有關(guān)地震災(zāi)害的報(bào)道與討論;

      臺風(fēng): 該事件主要為微博上有關(guān)臺風(fēng)災(zāi)害的報(bào)道與討論;

      狂犬?。?該事件主要為微博上發(fā)布的有關(guān)狂犬病及其致死情況的信息和報(bào)道;

      封城: 該事件為新冠肺炎爆發(fā)初期,微博上發(fā)布的有關(guān)各地封城政策的信息;

      鐘南山: 該事件為新冠疫情出現(xiàn)后微博上有關(guān)抗疫專家鐘南山的相關(guān)新聞和討論;

      武漢: 該事件為新冠肺炎爆發(fā)后微博上有關(guān)武漢的新聞與信息。

      通過采用少樣本學(xué)習(xí)策略使用歷史數(shù)據(jù)訓(xùn)練謠言檢測模型,從而能夠在新冠這一突發(fā)事件出現(xiàn)時(shí),得到具備學(xué)習(xí)能力的、在新事件上具備較好預(yù)測能力的新模型。結(jié)合定義1,本文將該數(shù)據(jù)集上的新冠謠言檢測任務(wù)建模為6-task 5-shot 9-query,即每次從3個(gè)有關(guān)新冠的事件中分別采樣5條有標(biāo)簽的謠言和非謠言數(shù)據(jù)用于訓(xùn)練,各個(gè)事件隨機(jī)采樣9條未用于訓(xùn)練的無標(biāo)簽謠言和非謠言數(shù)據(jù)用于測試,則每個(gè)任務(wù)(如檢測“封城”事件的謠言是一個(gè)任務(wù))均由14條數(shù)據(jù)構(gòu)成。

      2.3 基于少樣本學(xué)習(xí)的謠言檢測模型

      本節(jié)主要介紹FRUDE模型的設(shè)計(jì)思想和模型細(xì)節(jié),F(xiàn)RUDE模型主要由三部分構(gòu)成: 首先通過預(yù)訓(xùn)練BERT模型獲取文本字符級詞向量嵌入層[31],然后將其輸入多層雙向GRU進(jìn)行上下文特征抽取,最后通過少樣本元學(xué)習(xí)模型實(shí)現(xiàn)任務(wù)適應(yīng)和新謠言的檢測,模型總體框架如圖3所示。

      圖3 FRUDE模型總體框架

      2.3.1 文本字符級特征提取

      預(yù)訓(xùn)練BERT模型在訓(xùn)練過程中使用了海量語料,具有較好的適用性,能夠有效提升自然語言處理任務(wù)的性能[34]。本文提出的FRUDE模型首先按字符粒度對輸入文本di進(jìn)行分割,然后使用預(yù)訓(xùn)練BERT模型得到di中每個(gè)字符的編碼向量[b1,b2,…],作為下一步文本上下文特征編碼的輸入。

      為避免在訓(xùn)練中產(chǎn)生過擬合現(xiàn)象,F(xiàn)RUDE模型在進(jìn)行上下文編碼前加入了隨機(jī)遮擋層,記隨機(jī)遮擋概率為r,該層共支持三種策略:

      策略1: 隨機(jī)選中遮擋概率為r的字符,并置選中字符的編碼向量所有維度為0。

      策略2: 隨機(jī)選中遮擋概率為r的字符編碼向量維度,并置所有字符編碼向量內(nèi)選中的向量維度為0。

      策略3: 隨機(jī)選中遮擋概率為r的字符和編碼向量維度,并將選中字符及被選中的向量維度置為0。

      2.3.2 少樣本模型的多層雙向GRU編碼器

      為獲取豐富的上下文信息,F(xiàn)RUDE模型采用帶門結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)對輸入文本進(jìn)行編碼[35],其定義如式(1)~式(3)所示。

      將上述過程簡化為ht=GRU(xt,ht-1), 其中,ht和ht-1分別為本輪和上一輪的隱式狀態(tài);xt為序列當(dāng)前的輸入,表示第t個(gè)字符的BERT編碼向量。按照時(shí)間展開并簡化為h=GRU(x,h0),h表示h1:T,x表示x1:T,T代表句子的長度,h0為初始隱式狀態(tài),通常為零向量。

      2.3.3 基于元學(xué)習(xí)的少樣本學(xué)習(xí)方法

      本節(jié)主要介紹基于元學(xué)習(xí)的少樣本謠言檢測方法。該方法旨在構(gòu)造一個(gè)具備快速學(xué)習(xí)和適應(yīng)新任務(wù)能力的謠言檢測模型,適用于在僅有極少量有標(biāo)簽樣例的情況下,判斷與該事件相關(guān)的微博是否為謠言,可應(yīng)用于新冠這類突發(fā)事件的謠言檢測任務(wù)。

      在機(jī)器學(xué)習(xí)領(lǐng)域,針對少樣本任務(wù)的元學(xué)習(xí)理論和方法快速發(fā)展。其核心思想是從訓(xùn)練數(shù)據(jù)中抽樣大量不同的任務(wù)組合,使模型學(xué)習(xí)到數(shù)據(jù)中可以遷移的知識來滿足不同的任務(wù)。其中目前最先進(jìn)的方法通過梯度下降方法找到一組最優(yōu)的預(yù)訓(xùn)練模型參數(shù)[6,23],使得該模型僅需通過幾個(gè)樣例就可以快速適應(yīng)新的未知任務(wù),并通過遷移預(yù)訓(xùn)練中得到的知識,得到較準(zhǔn)確的結(jié)果。

      對于謠言檢測任務(wù)來說,元學(xué)習(xí)框架可以幫助模型理解不同語境、事件的謠言和非謠言,學(xué)習(xí)到通用的區(qū)別謠言與非謠言的可遷移知識,例如謠言往往具有的夸大的語氣和大量出現(xiàn)的感嘆詞等。因此元學(xué)習(xí)模型具備了在全新的事件上對文本樣例進(jìn)行謠言檢測的能力,其訓(xùn)練流程如圖4所示。

      圖4 元學(xué)習(xí)訓(xùn)練流程

      元學(xué)習(xí)的訓(xùn)練任務(wù)是最小化訓(xùn)練損失函數(shù)。對于謠言檢測來說,給定一個(gè)batch的少樣本任務(wù)B={T1,…,TB},訓(xùn)練目標(biāo)是減少分類交叉熵L。總的損失函數(shù)L,如式(5)所示。

      (5)

      其中,模型參數(shù)w是2.3.2節(jié)定義的多層雙向GRU網(wǎng)絡(luò)。通過多次迭代,可獲得最優(yōu)化的模型w*。結(jié)合2.1節(jié)定義的N-taskK-shotQ-query少樣本任務(wù),本節(jié)提出以下元學(xué)習(xí)訓(xùn)練步驟。

      步驟 1: 抽樣從訓(xùn)練數(shù)據(jù)中抽取|B|個(gè)少樣本學(xué)習(xí)任務(wù)|T|,每一個(gè)任務(wù)包括了E個(gè)不同的事件,每一個(gè)事件分別抽樣選取K個(gè)謠言和非謠言文本來訓(xùn)練模型,以適應(yīng)這E個(gè)事件,記為支持集合T(s)。同時(shí)分別抽樣Q個(gè)謠言和非謠言文本用于模型優(yōu)化, 記為查詢集合T(q)。因此一個(gè)任務(wù)中包含了N×(K+Q) 條文本數(shù)據(jù)(其中N=E×2)。

      步驟 2: 新事件適應(yīng)為了讓模型適應(yīng)新事件,更好地學(xué)習(xí)新事件中的語義信息,在這一步驟使用梯度下降法(SGD)在少樣本支持?jǐn)?shù)據(jù)集T(s)上更新模型參數(shù),其步驟如式(6)所示。

      w′=w-α?wLT(s)(w)

      (6)

      其中,α是適應(yīng)步驟的學(xué)習(xí)速率,把w′記為事件適應(yīng)的模型參數(shù)。可利用w′來對查詢數(shù)據(jù)集中的文本數(shù)據(jù)進(jìn)行謠言檢測,并更新模型參數(shù)。

      步驟3: 模型優(yōu)化該步驟是衡量事件適應(yīng)模型w′在新事件上的表現(xiàn)。在訓(xùn)練階段,查詢數(shù)據(jù)集T(q)包含了該事件上是否為謠言的真實(shí)標(biāo)簽,可使用這些標(biāo)簽,通過SGD來更新原始模型參數(shù)w,如式(7)所示。

      (7)

      其中,γ是學(xué)習(xí)速率。優(yōu)化原始模型參數(shù)w需要通過中間變量w′,而w′也是關(guān)于w的函數(shù),這就導(dǎo)致上述計(jì)算過程需要求解關(guān)于w的Hessian矩陣,這無疑導(dǎo)致巨大的計(jì)算量。本文選擇忽略二階導(dǎo)數(shù)來直接估計(jì)w的梯度,相關(guān)研究顯示該方法對最終的模型性能影響很小,卻能大幅度減少計(jì)算量[6,23]。

      在模型測試階段,可直接使用事件適應(yīng)模型w′判別該事件中查詢文本是謠言的概率,即使用一個(gè)全連接層加上Sigmoid函數(shù)σ將隱狀態(tài)轉(zhuǎn)化輸出為謠言的概率p=σ(Wh+b)。

      3 實(shí)驗(yàn)與分析

      本節(jié)使用本文提出的少樣本謠言檢測模型開展實(shí)驗(yàn)與分析,分別在新浪微博數(shù)據(jù)集和推特PHEME數(shù)據(jù)集上開展對比實(shí)驗(yàn)。

      3.1 數(shù)據(jù)集

      為了展示模型在新冠謠言檢測上的效果,本文使用基于新浪微博采集的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。同時(shí),為了體現(xiàn)模型的通用性,本文也選取謠言檢測任務(wù)中常用的公共數(shù)據(jù)集開展實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集的描述如下:

      新冠謠言數(shù)據(jù)集針對少樣本學(xué)習(xí)任務(wù),該數(shù)據(jù)集由11個(gè)與新冠無關(guān)的事件以及3個(gè)與新冠有關(guān)的事件構(gòu)成,每個(gè)事件均包含多條謠言及非謠言微博,其中11個(gè)事件作為訓(xùn)練集和驗(yàn)證集訓(xùn)練模型,3個(gè)新冠相關(guān)事件作為測試集驗(yàn)證少樣本新冠謠言檢測效果,整個(gè)數(shù)據(jù)集由3 840條中文謠言和非謠言構(gòu)成。不失一般性地,11個(gè)與新冠無關(guān)的事件被隨機(jī)劃分為三個(gè)數(shù)據(jù)子集,每個(gè)子集分為訓(xùn)練集和驗(yàn)證集,分別命名為split 0、split 1和split 2。

      PHEME謠言數(shù)據(jù)集該公共數(shù)據(jù)集包含來自推特的謠言和非謠言數(shù)據(jù),共包含5個(gè)事件[36]。為了驗(yàn)證少樣本學(xué)習(xí)效果,本文將5個(gè)事件中最新發(fā)生的2個(gè)事件作為測試集,將剩余3個(gè)作為訓(xùn)練集和驗(yàn)證集訓(xùn)練模型,本文使用文獻(xiàn)中預(yù)處理后的數(shù)據(jù)集開展實(shí)驗(yàn)[37],整個(gè)數(shù)據(jù)集共有2 305條英文謠言和非謠言。其中用于訓(xùn)練的數(shù)據(jù)同樣劃分為三個(gè)數(shù)據(jù)子集,分別為split 0、split 1和split 2。

      3.2 基線模型

      本文使用如下三種基線模型開展對比實(shí)驗(yàn),以展示FRUDE模型在少樣本場景下的有效性:

      DT-EMB在早期決策樹算法常被用于謠言檢測任務(wù)中[15],該基線模型以決策樹為基分類器,每條樣例使用由預(yù)訓(xùn)練BERT模型編碼后得到的詞嵌入均值作為該樣例的特征向量。

      SEQ-CNN近年來,CNN常被用于深度謠言檢測模型中[4],該基線模型以卷積神經(jīng)網(wǎng)絡(luò)為基分類器,每條樣例的輸入與本文提出的模型一致,即由預(yù)訓(xùn)練BERT模型編碼后得到的詞嵌入序列。

      SEQ-GRU近年來,RNN常被用于深度謠言檢測模型中[3,17],該基線模型以雙向門循環(huán)神經(jīng)網(wǎng)絡(luò)為分類器,每條樣例的輸入與本文提出的模型一致,即由預(yù)訓(xùn)練BERT模型編碼后得到的詞嵌入序列。

      由于本文提出的模型基于少樣本場景提出,為了進(jìn)行公平比較,針對傳統(tǒng)機(jī)器學(xué)習(xí)方法DT-EMB,在訓(xùn)練集中加入少量采樣的新事件數(shù)據(jù)訓(xùn)練模型,采樣數(shù)量與FRUDE模型保持一致;針對深度學(xué)習(xí)方法SEQ-CNN和SEQ-GRU,使用訓(xùn)練集訓(xùn)練模型,采樣少量的新事件數(shù)據(jù)進(jìn)行模型微調(diào)后再進(jìn)行測試,采樣的新事件數(shù)量同樣與FRUDE模型保持一致。其中各模型在采樣時(shí)使用的隨機(jī)采樣種子相同,這不僅能保證數(shù)據(jù)的一致性,并且保證從新事件數(shù)據(jù)中采樣出的少樣本訓(xùn)練數(shù)據(jù)不出現(xiàn)在測試集中。

      3.3 實(shí)驗(yàn)及參數(shù)設(shè)置

      針對中文新冠謠言和英文PHEME公共數(shù)據(jù)集,本節(jié)分別使用由HuggingFace(2)https://s3.amazonaws.com/models.huggingface.co提供的中、英文BERT預(yù)訓(xùn)練模型及對應(yīng)詞表獲取輸入文本的字符向量,針對中文數(shù)據(jù),使用BERT-base-Chinese預(yù)訓(xùn)練模型,其詞匯表大小為21 128;針對英文數(shù)據(jù),使用BERT-base-uncased預(yù)訓(xùn)練模型,其詞匯表大小為20 644,預(yù)訓(xùn)練向量維數(shù)均為768。同時(shí),結(jié)合兩個(gè)數(shù)據(jù)集的特點(diǎn),新冠謠言數(shù)據(jù)集輸入文本長度統(tǒng)一截取為100,PHEME公共數(shù)據(jù)集輸入文本長度統(tǒng)一截取為32;由于新冠謠言數(shù)據(jù)集中有3個(gè)與新冠相關(guān)的事件作為測試集,由2.1節(jié)定義1中有關(guān)任務(wù)的定義可知,可將新冠謠言數(shù)據(jù)集建模為6-task,同理,PHEME公共數(shù)據(jù)集中有兩個(gè)事件作為測試集,因此該數(shù)據(jù)集可建模為4-task,本文實(shí)驗(yàn)統(tǒng)一以5-shot 9-query的設(shè)置開展比較實(shí)驗(yàn),因此新冠謠言數(shù)據(jù)集的少樣本學(xué)習(xí)任務(wù)為6-task 5-shot 9-query,PHEME謠言數(shù)據(jù)集的少樣本學(xué)習(xí)任務(wù)為4-task 5-shot 9-query,即每個(gè)任務(wù)僅采樣5條有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。在元學(xué)習(xí)階段,設(shè)置學(xué)習(xí)率α=0.001。在將字符向量輸入GRU模型前,本節(jié)比較了2.3.1節(jié)提出的三種隨機(jī)遮擋策略,圖5是新冠謠言數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

      圖5 使用不同隨機(jī)遮擋策略在新冠謠言數(shù)據(jù)集上的準(zhǔn)確率對比

      觀察圖5可知,無遮擋策略在三個(gè)實(shí)驗(yàn)數(shù)據(jù)子集中的準(zhǔn)確率最低,可見在對輸入文本進(jìn)行字符向量編碼后,需要隨機(jī)遮擋后再開展下一步的上下文特征編碼。其中遮擋策略1得到的效果最佳,因此在本節(jié)實(shí)驗(yàn)中,F(xiàn)RUDE模型的隨機(jī)遮擋層使用策略1,針對隨機(jī)遮擋概率這一參數(shù),本文同樣通過實(shí)驗(yàn)方式確定,不同遮擋概率下FRUDE模型的性能如圖6所示,可以觀察到,當(dāng)遮蓋概率為30%時(shí),模型取得最佳效果,因此在本實(shí)驗(yàn)中,遮擋概率設(shè)置為30%。此外,雙向GRU模型的隱藏層數(shù)設(shè)置為2,隱藏層維數(shù)設(shè)置為128。

      圖6 使用隨機(jī)遮擋策略1時(shí)不同遮擋概率對新冠謠言數(shù)據(jù)集謠言檢測準(zhǔn)確率的影響

      3.4 謠言檢測實(shí)驗(yàn)

      本實(shí)驗(yàn)使用分類準(zhǔn)確率(accuracy)進(jìn)行模型效果評估,準(zhǔn)確率越高,代表謠言檢測效果越好。為了不失一般性,分別在三個(gè)數(shù)據(jù)子集上開展謠言檢測的二分類實(shí)驗(yàn),其中每個(gè)數(shù)據(jù)子集的結(jié)果均為200次少樣本學(xué)習(xí)的準(zhǔn)確率均值。

      觀察表2、表3的實(shí)驗(yàn)結(jié)果可知: 僅采用傳統(tǒng)機(jī)器學(xué)習(xí)方法(如DT-EMB),在少樣本場景下謠言檢測的性能非常差,對于二分類問題的準(zhǔn)確率在56%左右,僅比隨機(jī)猜測的策略略好;使用深度神經(jīng)網(wǎng)絡(luò)的方法(SEQ-CNN和SEQ-RNN)由于采用微調(diào)的策略,可以在歷史數(shù)據(jù)訓(xùn)練好的模型上,通過使用少量有標(biāo)簽的新樣例數(shù)據(jù)進(jìn)行模型微調(diào),從而得到對于新事件有一定適用性的預(yù)測模型,這說明通過預(yù)訓(xùn)練+微調(diào)的方法可以在一定程度上提高模型性能;本文提出的FRUDE模型,采用了基于元學(xué)習(xí)的少樣本學(xué)習(xí)方法,能夠通過梯度下降的方式將歷史事件學(xué)習(xí)到的信息遷移到新事件的預(yù)測模型中,在謠言檢測的準(zhǔn)確率上,F(xiàn)RUDE模型高出預(yù)訓(xùn)練+微調(diào)方法3%~6%,這說明本文提出的基于元學(xué)習(xí)的方法,在訓(xùn)練數(shù)據(jù)僅存在極少量有標(biāo)簽樣例的場景下,具有更加顯著的優(yōu)勢。

      表2 新冠謠言數(shù)據(jù)集謠言檢測準(zhǔn)確率 (單位: %)

      表3 PHEME公共數(shù)據(jù)集謠言檢測準(zhǔn)確率 (單位: %)

      本文同時(shí)開展了不同shot數(shù)量下FRUDE模型在新冠謠言檢測任務(wù)上的性能實(shí)驗(yàn),分別設(shè)置為6-task 1-shot 9-query以及6-task 3-shot 9-query,實(shí)驗(yàn)結(jié)果如表4所示。

      表4 不同shot數(shù)設(shè)置下FRUDE模型在新冠謠言數(shù)據(jù) 集上開展謠言檢測的準(zhǔn)確率 (單位: %)

      觀察表4的實(shí)驗(yàn)結(jié)果可知: 參與任務(wù)適應(yīng)的少樣本數(shù)據(jù)量對于FRUDE模型的性能有直接的影響,分別使用1-shot、3-shot以及5-shot得到的新冠謠言檢測結(jié)果呈遞增趨勢,表明少量增加樣本數(shù)量能夠有效提升FRUDE模型的預(yù)測效果;此外,對比觀察表4中1-shot設(shè)定下的實(shí)驗(yàn)結(jié)果以及表2中三個(gè)基線模型的結(jié)果,表2中三個(gè)基線模型分別在訓(xùn)練過程中使用了5-shot樣本參與模型訓(xùn)練,而表4中僅使用1-shot樣本的FRUDE模型已得到高于所有基線方法的準(zhǔn)確率,展示出FRUDE模型在少樣本學(xué)習(xí)中的有效性,也說明針對新冠這一少樣本突發(fā)事件,其謠言檢測任務(wù)需要在現(xiàn)有方法基礎(chǔ)上引入少樣本學(xué)習(xí)的必要性和重要性。

      4 總結(jié)

      本文提出了一種基于少樣本學(xué)習(xí)的新冠謠言檢測模型。現(xiàn)有工作一般需要充足的有標(biāo)簽數(shù)據(jù)進(jìn)行模型訓(xùn)練,對于新冠這類突發(fā)事件,在謠言產(chǎn)生初期相關(guān)數(shù)據(jù)極少,已有方法的適用性存在局限性。因此本文結(jié)合當(dāng)前主流的深度神經(jīng)網(wǎng)絡(luò)建模方法,使用基于元學(xué)習(xí)的少樣本機(jī)器學(xué)習(xí)方法,提出適用于突發(fā)事件的新浪微博謠言檢測模型。實(shí)驗(yàn)結(jié)果表明,該模型在本文提出的新冠謠言數(shù)據(jù)集以及公共的PHEME謠言數(shù)據(jù)集上,在少樣本謠言檢測任務(wù)中準(zhǔn)確率均得到了顯著提升,本文提出的FRUDE模型可行有效。

      猜你喜歡
      謠言新冠樣本
      中國使館駁斥荒謬謠言
      新冠疫苗怎么打?
      您想知道的新冠疫苗那些事
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      寧愿死于新冠,也要自由?
      珍愛生命,遠(yuǎn)離“新冠”
      當(dāng)謠言不攻自破之時(shí)
      推動(dòng)醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      謠言
      柞水县| 庆阳市| 普洱| 连平县| 泽库县| 阿荣旗| 同心县| 萍乡市| 邹平县| 航空| 浏阳市| 长春市| 汉中市| 沭阳县| 称多县| 抚顺县| 资阳市| 农安县| 望奎县| 石阡县| 台南县| 邻水| 岳阳市| 通山县| 伽师县| 明星| 海城市| 绵阳市| 桂东县| 阿拉善右旗| 灵台县| 河间市| 宜川县| 佛坪县| 蒙城县| 南丰县| 光泽县| 绍兴县| 稻城县| 沁水县| 砚山县|