陳繼洪,田生偉,禹 龍
(1.新疆大學軟件學院,新疆 烏魯木齊 830000;2.新疆大學網(wǎng)絡中心,新疆 烏魯木齊 830046)
隨著互聯(lián)網(wǎng)的高速發(fā)展,人們廣泛的參與到社交網(wǎng)絡媒介的討論中,大量發(fā)表自己的言論,以此來表達自己對事態(tài)的觀點和看法。然而由于網(wǎng)絡缺乏監(jiān)管和網(wǎng)絡隱匿性的特點,部分網(wǎng)民會發(fā)表對他人挖苦、譏諷、甚至辱罵言論,使網(wǎng)絡中存在大量欺凌信息。這種利用網(wǎng)絡媒介發(fā)表對兩性不平等的偏見、歧視、諷刺,甚至是仇恨仇視言論,故意對受害者造成傷害的現(xiàn)象,稱之為網(wǎng)絡性別欺凌。性別欺凌一直是社會上重點關注的話題。京東一則文案寫到“不涂口紅的你,和男人有什么區(qū)別”;重慶公交墜江新聞,對“女乘客”、“女司機”的評論達十多萬條;以及社交網(wǎng)絡中的“直男癌”、“死基佬”、“女博士”等諸多性別欺凌詞匯。這些對于女性或男性權利的蔑視亦或者不尊重,無不對于男女平等的國際政策理念是一種侵蝕,不僅給社會帶來了負面影響,而且給受害人或群眾帶來心理和情感上的重大傷害。因此,如何運用現(xiàn)有技術,有效識別網(wǎng)絡性別欺凌言論,成為當前學術界研究的熱門課題。
近年,國內(nèi)外的研究人員對網(wǎng)絡欺凌展開了研究,取得了一定的數(shù)據(jù)資源和研究成果。李云心[1]通過分析以往的網(wǎng)絡欺凌案例,總結(jié)了網(wǎng)絡欺凌者的特點,為進一步研究網(wǎng)絡欺凌提供了有力的線索。Chen等人[2]以Youtube的攻擊性評論為語料,在利用詞袋的基礎上增加了詞匯句法特征,從句子和用戶兩個方面提取特征融合,檢測它是否具有攻擊性。Burnap等人[3]通過一種基于規(guī)則的方法,以相關術語為特征對Twitter上的敵對內(nèi)容進行分類。Djuric等人[4]基于詞向量模型,提出了用段落向量的神經(jīng)網(wǎng)絡算法,該算法中的段落向量內(nèi)部使用詞向量,相對于直接使用詞向量的方法有更好的性能。Silva等人[5]分析了推特等兩個社交平臺中網(wǎng)絡欺凌群體的特征,推斷出最容易受到欺凌的六個特征:性、種族、習性、品質(zhì)、性別和階層。Zeerak Waseem等人[6]以Twitter上種族歧視和性別歧視的仇恨言論語料,采用基于字符的n-gram方法,考慮了詞序信息,信息量更充分,F(xiàn)值達到73.93%。
以上表明,針對英文的研究取得了一定的成果,而中文對于性別欺凌的研究相對較少。傳統(tǒng)采用的基于詞法、規(guī)則、句法分析的方法,在欺凌詞匯識別上效果顯著,但是詞與詞之間的彼此依賴效果不明顯?;谠~向量的傳統(tǒng)深度神經(jīng)網(wǎng)絡,通過向量建立了詞序之間的聯(lián)系,在一定程度上提升了識別率。但是,忽略了上下文語境信息,不能深層次的挖掘語義特征。
因此,該文提出CASC算法模型,用于識別網(wǎng)絡性別欺凌文本。將富含上下文語境信息的詞向量,加入注意力機制,作為CapsNet和Srnn的輸入,從CapNet中獲取全局語義信息;通過Srnn多個層級輸入,獲取其詞級,句子級,段落級高級信息。兩個模型并行處理各自擅長的特征,減少特征在傳輸過程中的丟失。最后將兩者有效特征進行融合分類,完成對網(wǎng)絡性別欺凌文本的識別。
收集的語料包含新浪微博、天涯論壇和今日頭條的性別欺凌評論,總計1004條,作為實驗數(shù)據(jù)的正樣本。此外,還在其它平臺上收集了包含地域欺凌、人身欺凌、宗教欺凌和不含欺凌信息的評論,總計6024條,作為實驗數(shù)據(jù)的負樣本。表1列出了語料收集的詳細信息。
表1 語料收集詳細信息
在語言學中,語境即語言環(huán)境,它包括上下文的語言知識、背景知識、情景知識、說話人的特質(zhì)、說話人與被評價對象的關系等。研究語境的目的是為了更好的理解語義,把握各類語境的特點和作用,會對語義的正確理解起到很好的導向和指歸作用[7]。
目前,對于漢語語境的分類有了一定的研究。李長忠等人[8]認為受話人利用語境進行語義重構時對語境要素的選擇要求很高,因此按照語境因素,將語境分為從語言語境、情景語境、背景語境、文化語境和主觀語境;劉艦等人[9]對語境特征進行了多元化分析,在語境特征描寫時通過交流者,主題,交流手段、方式,正式、緊緩程度,時間空間五個方面來進行。為了更好的識別性別欺凌信息,在眾多學者的基礎上,該文建立了適合性別欺凌識別的語境分類體系[10],如圖1所示。
圖1 性別欺凌識別的語境分類體系
單詞語境是由句中喻體本身提供,帶有明顯侮辱性、仇恨性、攻擊性等性質(zhì)的欺凌詞匯。例如:八婆、綠茶婊、偽娘等。
上下句語境是指前部分內(nèi)容與后部分內(nèi)容之間存在一定的關系。例如,“那個女人真漂亮,開那么炫酷的車,品位真好,肯定是被包養(yǎng)的”。該句中前部分夸女性長得漂亮、有品位,是褒義;而后部分嘲諷女性是被包養(yǎng)的,是貶義。如果沒有上下句語境的關聯(lián),很難判斷為性別欺凌。
文化語境指言語交際雙方內(nèi)容,涵蓋地方性或民族性的社會文化,包括文化習俗、社會生活、民族心理、民族歷史等。例如,“夜店的女人都是潘金蓮”。句中“潘金蓮”一詞在中國歷史文化中富含貶義,一般指“輕浮”、“紅杏出墻”的女性形象。因此,此處是對夜店女性的一種偏見,屬于性別欺凌。
情景語境劃分為外部關系和內(nèi)部關系。外部關系包括時間、地點、場合、話題、談話對象關系等,內(nèi)部關系包括談話對象的身份、地位、地域、性別、階層等,內(nèi)部關系和外部關系相互提供線索,構成情景語境。例如,“夜晚,婦產(chǎn)科醫(yī)院樓道,婆婆對兒媳婦說,這科室怎么還有男醫(yī)生啊”。句中“婦產(chǎn)科醫(yī)院樓道”,屬于外部關系,被欺凌對象是句中“男醫(yī)生”,屬于內(nèi)部關系,在這種語境下,兩者相互聯(lián)系,可以分析出,這是對婦產(chǎn)科男醫(yī)生的一種歧視,屬于性別欺凌。
主觀語境往往帶有個人主觀意圖、當時心境、情感傾向等特點。例如,“彩蓮與男朋友分手后,回來就對我說,男人都是大豬蹄子”。句中“彩蓮”由于和男朋友的分手,受到主觀上的影響,對男性做出“大豬蹄子”的評價,是對男性的一種歧視,屬于性別欺凌。
背景語境是由背景知識、社會常識、專業(yè)知識等外部背景元素與被欺凌者或欺凌者之間構成的一種內(nèi)在聯(lián)系。例如,“繼上次重慶公交墜江事件,又多了一個女人搶方向盤”。句中“重慶公交墜江事件”是一種背景知識,與句中被欺凌對象女性存在內(nèi)在聯(lián)系,如果不了解事件是由于女乘客搶奪司機方向盤而引起墜江的背景,就難以判斷是對女性的歧視,是一種性別欺凌。
語料庫標注其結(jié)果是帶有標注信息的語料庫。為了更加準確、有效地描述性別欺凌文本,該文結(jié)合傳統(tǒng)標注體系結(jié)構和性別欺凌語境體系結(jié)構,對性別欺凌語料進行了標注。
2.3.1 欺凌角色及屬性標注
網(wǎng)絡欺凌往往都存在一些角色及角色屬性,實施欺凌的一方標注為欺凌者,受害的一方標注為被欺凌者,參與整個事件但未發(fā)起欺凌的角色標注為旁觀者。而這些欺凌角色往往具有明顯的群體特征,如一種膚色的群體攻擊另一種膚色的群體,一個宗教信仰的群體攻擊另一個宗教信仰群體等。為了完善欺凌語境,同時標注了民族、宗教、性別、職業(yè)、階層、教育層度、地域等欺凌角色屬性。
2.3.2 性別欺凌標注
通過手動標注“是”和“否”標簽,來確定每一條語料是否存在性別欺凌。在收集的語料中,除了包括帶有明顯欺凌詞匯的性別欺凌評論,還包括隱式性別欺凌評論,一般通過隱喻和反語的方式表達。例如,在圖4的語境下“優(yōu)良傳統(tǒng)”是褒義,而在圖5的語境下,則是貶義,是反語表述。
圖2
圖3
圖4
該文提出了Att_CapsNet_Srnn算法模型,用于識別網(wǎng)絡性別欺凌文本。模型分為三層:注意力矩陣輸入層,聯(lián)合處理層,融合分類層。首先,將語料訓練為詞向量,利用注意力機制計算詞向量的權重,將性別欺凌識別結(jié)果與詞向量建立某種關聯(lián),獲得基于詞向量的文本特征注意力矩陣,作為聯(lián)合處理層的輸入。然后,通過膠囊網(wǎng)絡挖掘全局語義信息,同時通過Srnn逐層獲得時序詞級、句子級和段落級深層語義高級信息。最后,將聯(lián)合處理層的兩個輸出進行特征融合和分類,完成性別欺凌識別任務。圖5為模型結(jié)構圖。
圖5 模型結(jié)構圖
將標注的語料放入Glove詞向量訓練模型,獲取全局的先驗統(tǒng)計信息,控制詞的相對權重,使欺凌語句映射為高維空間詞向量,通過計算矩陣向量來反映詞與詞之間的關系。再通過注意力機制計算權重,獲取特定語義信息并實現(xiàn)信息流整合,作為聯(lián)合處理層的輸入。
3.1.1 注意力機制
(1)
利用si的詞向量矩陣和得到的詞向量注意力特征矩陣運算,其中⊕表示拼接操作,即可以得到聯(lián)合處理層的輸入矩陣特征α
(2)
3.2.1 Srnn
切片循環(huán)神經(jīng)網(wǎng)絡(Sliced Recurrent Neural Networks)是由Zeping Yu等人[12]在2018年首次提出的算法模型,它可以并行化處理更長的序列,獲得序列的順序信息,通過多個層級獲得高級信息。故該文選取Srnn來處理輸入層特征α,得到富含上下文的深層語義特征β。
模型選取GRU作為循環(huán)單元。GRU是LSTM的變體模型,主要包含重置門和更新門。使用更新門替換了LSTM中的輸入門和遺忘門,取消了LSTM中的輸出門,增加了重置門,這樣使之達到LSTM相近的效果下,減少了訓練參數(shù),降低了訓練的計算開銷,提高了訓練速度。具體的計算公式如下
rt=σ(Wrxt+Urht-1+br)
(3)
zt=σ(Wzxt+Utht-1+bz)
(4)
其中x為輸入,h為隱藏狀態(tài),σ為邏輯sigmoid函數(shù),約束rt和zt從0到1的范圍取值。
(5)
(6)
3.2.2 CapsNet
膠囊神經(jīng)網(wǎng)絡(Capsule Network,CapsNet)是由Hinton等人[13]提出,初始用于圖像分類識別,它將傳統(tǒng)CNN中的每個神經(jīng)元標量輸出,替換為向量輸出,采用動態(tài)路由算法更新膠囊參數(shù),取代了最大池化,有效減少了池化層所拋棄的一些有用信息,獲取了更多全局語義信息。zhao等人[14]探索膠囊網(wǎng)絡,用動態(tài)路由算法進行文本分類,證明了膠囊網(wǎng)絡在文本分類中的有效性。馮國明等人[15]構造基于膠囊的長、短文本分類模型,相對于傳統(tǒng)深度學習模型,在準確率和收斂速度上都有所提升。故本該文引入膠囊網(wǎng)絡處理輸入層注意力特征矩陣α,得到富含全局語義信息的特征θ。
在膠囊網(wǎng)絡中,每一個膠囊神經(jīng)元都是向量,因此,每個膠囊神經(jīng)元相應的權重Wij也是一個向量。膠囊網(wǎng)絡的輸入線性加權求和類似于全連接神經(jīng)網(wǎng)絡,但在線性求和階段上,加上了一個耦合系數(shù)Cij,具體計算公式如下
(7)
(8)
耦合系數(shù)表示每一個低層膠囊與其相對應的高層膠囊之間的權重,Cij它由膠囊網(wǎng)絡中采用的動態(tài)路由算法softmax函數(shù)決定,計算公式如下
(9)
其中,bij表示膠囊i和膠囊j的對數(shù)概率,其初始值為0,不斷的迭代更新cij的值,bij更新計算公式如下
(10)
膠囊網(wǎng)絡采用了向量的新型非線性激活函數(shù)Squashing,該函數(shù)將輸入向量的??刂圃?到1之間,保留了輸入向量的方向,輸出的vj計算如下
(11)
本層將聯(lián)合處理層富含上下文的深層語義特征β和全局語義特征θ進行融合,然后將融合特征q輸入到一個全連接層,得到輸出n,最后通過sigmod函數(shù)完成分類,具體操作如下
q=β⊕θ
(12)
其中,⊕表示向量拼接,即將特征β拼接到特征θ之后
(13)
其中,S(n)的取值范圍為0到1,若S(n)的值大于閾值時,則取值為1,表示當前樣本為正例,判定該樣本是性別欺凌;若S(n)的值小于閾值時,則取值為0,表示當前樣本為負例,判定該樣本不是性別欺凌。
該文將提出的方法在中文性別欺凌語料庫上進行實驗,用以完成性別欺凌識別任務。將性別欺凌識別問題看作二分類問題,數(shù)據(jù)包含1004條正樣本和6024條負樣本,詳見表1。在實驗過程中,該文采用哈工大的LTP分詞工具進行分詞,然后對語料進行預處理。使用Glove模型算法生成詞典,詞典語料容量為88905條,通過詞典匹配樣本訓練詞向量,運用詞的全局統(tǒng)計信息和局部統(tǒng)計信息來生成語言模型,使詞得到向量化表示,每一個詞對應的詞向量維度為100維。最后,將實驗數(shù)據(jù)放入不同的神經(jīng)網(wǎng)絡模型進行實驗對比,驗證了CASC算法模型的有效性。
為了避免實驗過程中出現(xiàn)偶然現(xiàn)象,確保數(shù)據(jù)的隨機性,實驗采用了五折交叉法進行驗證,經(jīng)過反復實驗,在實驗結(jié)果中顯示,表2的模型為最優(yōu)參數(shù)設置,分類效果達到了最佳。
表2 實驗參數(shù)設置
為了探索不同角度下性別欺凌識別的效果,該文設計如下4個實驗:①CASC模型與其它模型的對比;②詞向量維度對性別欺凌識別性能的影響;③正負樣本比例對性別欺凌識別性能的影響;④Srnn模型算法改進對性別欺凌識別性能的影響。
4.3.1 CASC模型與其它模型的對比
為了驗證該文提出的CASC算法模型的有效性,將該文模型與傳統(tǒng)的CNN模型、LSTM模型、Srnn模型、CapsNet模型、Srnn與CapsNet組合模型做對比。表3給出了在最優(yōu)參數(shù)設置下不同模型的實驗性能。
表3 CASC模型與其它模型的對比
由表3可知,Srnn模型與傳統(tǒng)的LSTM和CNN相比,F(xiàn)值分別提高3.23%和1.66%,Acc分別提高0.43%和0.36%,這是由于Srnn更加擅長處理時序,通過多層循環(huán)單元捕獲了更深層次的上下文語義信息。同樣CapsNet模型與傳統(tǒng)的LSTM和CNN相比,F(xiàn)值分別提高6.94%和5.37%,Acc分別提高1.92%和1.85%,這是因為CapsNet獲取了更多全局語義信息,對于識別隱式性別欺凌更加有效。兩個單獨的模型組合在一塊,F(xiàn)值到達了94.98%,Acc值提高為98.5%,可以看出,CapsNet_Srnn模型,提升了模型識別性能,同時提取了深層次的語義信息和全局的語義信息。CASC模型與CapsNet_Srnn相比,加入了注意力機制,F(xiàn)值和Acc分別提高0.6%和0.28%,這是因為注意力機制,通過注意力概率權重分配機制,關注了欺凌語句中更關鍵的信息。結(jié)合組合模型和注意力機制的優(yōu)點,使實驗模型達到了最優(yōu)。
4.3.2 詞向量維度對性別欺凌識別性能的影響
詞向量反映了詞的功能和上下文語義信息,不同維度的詞向量,對實驗分類效果有影響。因此,該文分別訓練了10、50、100、150維的詞向量,生成詞向量特征矩陣,進行實驗。實驗結(jié)果如圖7所示。
圖6 詞向量維度對性別欺凌識別性能的影響
由圖4可知,詞向量維度由10維向量增加到50維向量時,F(xiàn)值和Acc提升最顯著,分別提高4.52%和1.64%,可以看出,隨著詞向量維度的增加,詞向量富含的語義信息越多,并在100維時F值和Acc達到最佳。當詞向量維度增加到150維時,F(xiàn)值和Acc分別下降2.53%和0.71%,這是由于,詞向量維度太高,捕捉了語料中的噪聲,從而過擬合,使實驗性能有所下降。
4.3.3 正負樣本比例對性別欺凌識別性能的影響
為了提高魯棒性,使模型性能更加穩(wěn)定,該文對語料的正負樣本比例進行了處理,保持正樣本數(shù)量不變,改變負樣本數(shù)量,分別在正負樣本比例為1∶2、1∶4、1∶6、1∶8的規(guī)模下進行了實驗。實驗結(jié)果如圖8所示。
圖8 正負樣本比例對性別欺凌識別性能的影響
由圖5可知,隨著語料負樣本數(shù)量的增加,F(xiàn)值和Acc逐漸提高,并在正負樣本比例為1:6時F值和Acc達到最高,但正負樣本例超過1:6之后,F(xiàn)值和Acc均有下降。說明當負樣本比例較小時,模型不能很好的識別數(shù)據(jù)中的負例,使得F值和Acc比較低;然而,隨著負樣本比例的不斷增加,超過一定值時,訓練數(shù)據(jù)中的正例樣本比例變小,模型不能很好的識別正例樣本,識別率也降低。因此,該文在調(diào)整實驗數(shù)據(jù)正負樣本比例時,控制在1:6的范圍,使實驗效果達到最佳。
4.3.4 改進的Srnn算法模型對性別欺凌識別性能的影響
Zeping等人提出的Srnn算法模型,是通過將序列切割成許多子序列,并通過多層GRU循環(huán)單元并行化處理,從而獲取序列的高級信息。但是,實驗過程中發(fā)現(xiàn),不切片的Srnn算法模型,對識別性別欺凌文本更加有效。實驗結(jié)果如表4所示。
表4 改進的Srnn算法模型對性別欺凌識別性能的影響
由表4可知,Srnn的算法模型,不切片的Srnn比切片的SrnnSliced的 F值和Acc分別提高2.53%和2.35%,這是因為,對序列切片后,再通過GRU循環(huán)單元,獲取多層級高級信息時,雖然提高了模型的訓練速度,但是丟失了原序列上下文的語義信息,使識別率降低。為了進一步驗證,將這兩種模型融入到組合模型中,可以看出,不切片的Att_CapsNet_Srnn比切片的Att_CapsNet_SrnnSliced性能更好,F(xiàn)值和Acc分別提高3.68%和1.21%。因此,該文采用了不切片的Srnn組合模型,使實驗效果達到了最佳。
如今,在識別網(wǎng)絡性別欺凌文本的任務中,大多傳統(tǒng)研究方法都是基于詞袋、規(guī)則、句法分析和基于詞向量的傳統(tǒng)深度神經(jīng)網(wǎng)絡等方式進行,這些方式往往依賴原始詞特征,忽略了詞與詞之間的依賴性和上下文語義關系?;谝陨喜蛔?,該文建立基于語境的性別欺凌語料庫,提出CASC并聯(lián)聯(lián)合算法模型。利用基于詞向量注意力機制的深度學習模型算法挖掘深層語義特征,通過膠囊網(wǎng)絡獲取全局語義信息,同時通過Srnn逐層挖掘時序詞級、句子級和段落級上下文語義高級信息,應用于隱式性別欺凌識別。實驗結(jié)果表明,該文提出的CASC算法模型對網(wǎng)絡性別欺凌文本識別任務更有效。