• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于神經(jīng)網(wǎng)絡中文短文本作者識別研究

      2020-07-04 13:22:12李孟林羅文華李紹鳴
      關鍵詞:短文卷積向量

      李孟林, 羅文華, 李紹鳴

      (1.中國刑事警察學院網(wǎng)絡犯罪偵查系, 遼寧沈陽 110854;2.沈陽航空航天大學人機智能研究中心, 遼寧沈陽 110136)

      0 引言

      文本作者的身份識別一直以來都是法庭科學的重點。通常情況下,文本作者的身份識別多數(shù)以筆跡鑒定的方式在法庭呈現(xiàn)。但是隨著信息技術在日常生活中的普及,犯罪分子為了便利和逃避偵查以電子書寫方式代替手寫方式來隱藏身份,如勒索信、暴恐信、詐騙信、舉報信等,在沒有筆跡的情況下,如何判斷文本作者顯得越發(fā)迫切和重要。

      隨著互聯(lián)網(wǎng)的發(fā)展,短文本大量涌現(xiàn)。短文本通常是指長度較短,一般在160個字符以內(nèi)的電子文本,包括了微博、電子郵件、手機短信(SMS)、即時聊天記錄(微信/QQ/MSN/Skype)等。由于短文本在日常生活中的普遍使用使得短文本作為電子數(shù)據(jù)證據(jù)的案例越來越多,法庭也亟需對大量的短文本進行作者識別。因此,基于短文本的犯罪嫌疑人寫作習慣乃至身份特征的分析成為法庭科學日益關注的熱點與難點。

      文本作者的身份識別來源于作品作者識別,國際上針對此類問題的研究已經(jīng)比較豐富,并積累了一定的成功經(jīng)驗。Shunichi Ishihara[1]借助語言模型工具,針對英文短信,利用似然比對作者進行判斷;Sarah R. Boutwell[2]則針對Twitter文本語料庫,為每名作者構建統(tǒng)計模型,實現(xiàn)對文本作者的識別;Monika Nawrot[3]提出了一種混合算法,通過函數(shù)為英文電子郵件的不同特征賦以不同的權重,進而識別出作者。

      國內(nèi)雖然對此起步較晚,但在文本作者識別方面已經(jīng)進行了大量探索。武曉春等[4]依據(jù)文體學理論,充分利用功能詞以外的其他詞匯,提出一種新的基于詞匯語義分析的相似度評估方法。年洪東等[5]使用以詞匯為基礎的多種統(tǒng)計量作為識別特征對現(xiàn)代文學作品進行了作者身份識別研究。祁瑞華等[6]探索性的建立了由詞匯特征、淺層句法特征、深層句法特征和結構特征組成的多層面文體風格特征模型,為網(wǎng)絡文本作者身份的自動識別提供了新的技術思路。廖志芳等[7]以HowNet為語料庫,以Standford為語法解析工具,結合中文語句語義相似性以及語法相似性,提出一種基于語法語義的短文本相似度算法。盧玲等[8]基于Word Embedding文本語義擴展方法,通過構造卷積神經(jīng)網(wǎng)絡(CNN)來提取擴展文本的特征,提高了中文新聞標題分類準確性。范亞超等[9]采用降噪自編碼器深度模型提取文本結構特征,通過支持向量機分類器完成作者識別,準確率最高達到了78.2%。米碩等[10]提出了一種新的基于循環(huán)神經(jīng)網(wǎng)絡(RNN)和卷積神經(jīng)網(wǎng)絡(CNN)的網(wǎng)絡架構,對電子郵件的作者識別取得了不錯的效果。

      現(xiàn)有模型研究多是針對長文本,無法直接應用于短文本中。而短文本的模型方法均是針對特定語料庫(新聞標題、微博、電子郵件),識別結果依賴于特征的選擇。此外,中文與英文的巨大差異,西方國家主要以英文為應用場景的研究成果在中文應用場景下并不能很好地適用,因此研究適合于中文應用場景的網(wǎng)絡短文本作者識別模型非常有現(xiàn)實意義。

      1 融合多屬性的作者識別系統(tǒng)

      為了克服短文本噪聲大、特征稀疏、特征提取困難等缺陷,提出融合多屬性的作者識別系統(tǒng)。該系統(tǒng)思想是通過提取主謂賓結構特征、語氣詞特征、附屬信息特征,為文本引入更多的外部特征,將短文本做一個特征延伸。利用卷積神經(jīng)網(wǎng)絡(CNN)特征提取能力強的特點,提取文本序列特征,進一步得到內(nèi)部特征和外部特征相融合的文本特征表示,并將其輸入雙向長短時記憶網(wǎng)絡(Bi-LSTM)[12],發(fā)揮Bi-LSTM對序列數(shù)據(jù)進行建模的優(yōu)勢,得到上下文關系特征的文本表示。通過注意力機制(Attention)對文本不同位置特征信息賦以不同權重,從而對短文本作者進行有效識別。融合多屬性的作者識別系統(tǒng)架構如圖1所示。

      圖1 融合多屬性的作者識別系統(tǒng)架構

      1.1 預處理與特征提取

      通過對短文本內(nèi)容進行分析,發(fā)現(xiàn)短文本中大量出現(xiàn)語氣詞和省略指代的情況,說明短文本雖然長度有限,但語言表達習慣卻因人而異。首先,有些人在表達時習慣帶上語氣詞,如“走,吃飯啦”,而有些人在表達時就不習慣使用語氣詞,如“走,吃飯”,同樣的表達,即使是都使用語氣詞,也可能有所不同,比如“走,吃飯呀”。其次,受地域影響,有些人不按常規(guī)的主謂賓方式表達,習慣省略某一結構,甚至出現(xiàn)倒裝,這在短文本中大量出現(xiàn),如“曉不得”“曉得不”和“不曉得”的表達。最后,除文本自身外,文本的附屬信息在一定程度上體現(xiàn)了作者的身份特征。因此,提取短文本語氣詞特征、短文本主謂賓特征、文本附屬信息特征進行作者識別。為了提取這些特征,首先就要對短文本進行預處理,主要包括中文分詞和詞性標注。

      中文分詞就是對短文本按詞切分的過程,目的是為了詞性標注。例如,“他去北京了呀”經(jīng)過中文分詞后變成“他/去/北京/了/呀”。

      詞性標注就是對分詞后的結果按照其上下文意思標記詞性。詞性包括名詞(n)、代詞(r)、動詞(v)、形容詞(a)、連詞(c)、助詞(u)等詞性。例句詞性標注后的結果如圖2所示,其中“r”表示代詞,“v”表示動詞,“ns”表示名詞中的地名,“u”表示助詞。

      提取短文本語氣詞。根據(jù)自己制定的語氣詞表提取出文本中語氣詞,語氣詞表如表1所示,從表1可以發(fā)現(xiàn),“了”不在語氣詞表里,而“呀”在語氣詞表里,因此提取“呀”作為語氣詞特征:

      表1 語氣詞表

      圖2 分詞后詞性標注的結果

      提取文本主謂賓特征。利用文獻[13]中使用的哈爾濱工業(yè)大學pyltp依存句法分析器提取文本的主語、謂語、賓語等文本主體結構。依存句法分析結果如圖3所示,其中“HED”表示核心關系,指整個句子的核心(Root);“SBV”表示主謂關系,指“他”和“去”是主謂關系;“VOB”表示動賓關系,指“去”和“北京”是動賓關系;“RAD”表示右附加關系,指“了”、“呀”和“去”是右附加關系。根據(jù)該依存句法關系,可以提取出主語“他”,謂語“去”,賓語“北京”。

      最終,例句“他去北京了呀”,經(jīng)過語氣詞提取得到語氣詞“呀”,經(jīng)過依存分析提取找到主語“他”,謂語“去”,賓語“北京”,最終將其轉化為D={他,去,北京,呀}。

      提取文本附屬信息特征。短文本除了文本自身以外,通常還包含有一定附屬信息,文本的附屬信息也更能反映出作者的書寫習慣和生活習慣,例如:文本發(fā)送頻率、發(fā)送地點、發(fā)送時間、性別、年齡、輸入法、系統(tǒng)版本號等,這里提取文本發(fā)送頻率、發(fā)送地點、發(fā)送時間作為文本附屬信息特征。

      1.2 多屬性融合

      由于雙向循環(huán)神經(jīng)網(wǎng)絡層是對序列數(shù)據(jù)進行建模,很難從短文本中學習到文本的有效特征,即使卷積神經(jīng)網(wǎng)絡自動提取特征能力很強,面對著長度較短的短文本也是力不從心,為此將文本的語氣詞特征、主謂賓結構特征、附屬信息特征融合進原始文本序列,在一定程度上延長了神經(jīng)網(wǎng)絡捕獲短文本特征的時間序列長度,從而能夠讓雙向循環(huán)神經(jīng)網(wǎng)絡更充分地捕獲文本特征。

      首先,將文本分詞并提取語氣詞后的短文本語義特征放入元組P中,然后將依存分析后提取的主謂賓結構特征放入元組D中,最后將短文本附屬信息特征放入元組C中,C可以簡單的表示為集合C={發(fā)送頻率,發(fā)送地點,發(fā)送時間}。作為對比實驗,一方面將該3組特征作為最大熵模型對文本進行作者識別的特征直接輸入。另一方面將提取的短文本語義特征P、主謂賓結構特征D和短文本附屬信息特征C做一個拼接,如公式(1):

      x=P⊕D⊕C

      (1)

      其中⊕代表相鄰兩個元素的連接符,x作為神經(jīng)網(wǎng)絡的輸入文本序列。通過引入文本的外部屬性特征,增加了短文本的文本結構長度,從而能夠讓神經(jīng)網(wǎng)絡學習到更多的文本特征。

      1.3 作者識別模型

      在將數(shù)據(jù)特征融合的基礎上,借鑒文獻[14]提出的問句分類方法架構圖,設置了詞向量層、卷積層、雙向長短時記憶網(wǎng)絡層、注意力機制層。如圖4所示,首先,將融合多屬性后的短文本序列以詞向量的形式來表示并輸入神經(jīng)網(wǎng)絡;接下來將進入卷積層,充分發(fā)揮卷積層特征提取能力強的優(yōu)勢,更好的提取句子的特征,將提取的特征和分詞后的文本放入循環(huán)神經(jīng)網(wǎng)絡層,循環(huán)神經(jīng)網(wǎng)絡能夠很好捕獲數(shù)據(jù)變化規(guī)律;接著利用注意力機制來識別文本主要特征;最后經(jīng)過分類器得出作者識別結果。

      圖4 基于Attention的CNN+Bi-LSTM模型圖

      1.3.1 詞向量層

      首先,對輸入層的中文短文本進行分詞,并通過Word2Vec[15]將文本中的詞轉化為詞向量形式,這些詞向量蘊含了文本的信息,將融合后的屬性信息同樣進行向量化表示。接下來,在詞向量層加入了文本更多的特征信息,假設文本Q包含n個單詞,Q={x1,x2,…,xn},xi代表文本中的第i個詞,在文本信息后邊加入該文本對應的發(fā)送時間、發(fā)送頻率、發(fā)送地點等特征信息。公式(2)所示,首先根據(jù)文本建立一個詞典Dic,初始化一個詞向量矩陣Ew來獲得詞向量,根據(jù)單詞在詞典中的位置vi,可以將詞轉變?yōu)樵~向量ei:

      ei=Ewvi

      (2)

      其中,vi是采用獨立熱編碼的形式,在模型訓練過程中不斷更新。經(jīng)過這個步驟,文本將以embeddingsQ={e1,e2,…,en}的形式進入下一層網(wǎng)絡。

      1.3.2 卷積層

      在經(jīng)過詞向量層后,每個文本t可以表示成如下形式,其中T為句子長度:

      t=[e1,e2,…,en]T

      (3)

      卷積過程中每次選取不同維度的卷積核提取文本中的特征,每次特征提取可以由卷積核在文本上進行一次卷積操作,每次選取窗口大小為m的核對文本t進行如下操作:

      ci=f(whi:i+m-1+b)

      (4)

      其中w是過濾器,hi:i+m-1是詞向量,b是一個偏置項,f是一個非線性函數(shù),文本最后被表示為:

      c*=[c0,c1,…,cn-m]

      (5)

      1.3.3 雙向長短時記憶網(wǎng)絡層

      長短時記憶網(wǎng)絡主要由3部分構成:(1)輸入門;(2)輸出門;(3)遺忘門。長短時記憶網(wǎng)絡通過“門”的結構讓信息有選擇性地影響循環(huán)神經(jīng)網(wǎng)絡中每個時刻的狀態(tài),使用sigmoid函數(shù)(σ)作為激活函數(shù)的全連接神經(jīng)網(wǎng)絡層會輸出一個0到1之間的數(shù)值,描述當前有多少信息量可以通過這個結構。輸入門決定哪些信息加入到當前狀態(tài)來生成新的狀態(tài)信息,遺忘門的作用是讓網(wǎng)絡“忘記”之前沒有用的信息,神經(jīng)網(wǎng)絡在得到新狀態(tài)后產(chǎn)生新的輸出是通過輸出門完成的。不妨設輸入門(it)的權重矩陣為Wxi、Whi、Wci、bi;遺忘門(ft)的權重矩陣為Wxf、Whf、Wcf、bf;輸出門(ot)的權重矩陣為Wxo、Who、Wco、bo;候選信息(gt)的權重矩陣為Wxc、Whf、Wcc、bc。在t時刻,當前時刻網(wǎng)絡的輸入值為xt,上一時刻LSTM的輸出值為ht-1,以及上一時刻的單元狀態(tài)為ct-1,而當前時刻LSTM輸出值是ht,bi、bf、bo、gt分是輸入門、遺忘門、輸出門以及候選信息的偏置項,具體每個“門”的公式定義如下:

      it=σ(Wxixt+Whiht-1+Wcict-1+bi)

      (6)

      ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

      (7)

      gt=tanh(Wxcxt+Whfht-1+Wccct-1+bc)

      (8)

      ct=itgt+ftct-1

      (9)

      ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

      (10)

      ht=ottanh (ct)

      (11)

      因此,當前結構單元狀態(tài)是由之前單元狀態(tài)的權重和當前單元所生成的當前信息決定。在經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡中,狀態(tài)的傳輸是從前往后單向傳遞,只考慮到上文中的信息,而忽略了下文中的信息。Bi-LSTM由兩個單向的循環(huán)神經(jīng)網(wǎng)絡結合,每一時刻的輸入會提供兩個相反的循環(huán)神經(jīng)網(wǎng)絡,這樣每一時刻的輸出,都考慮到上下文信息。

      1.3.4 注意力機制層

      為了更好的捕捉文本中的有效信息,抓住文本重點信息,本文在作者識別模型中加入了注意力機制,該注意力機制的權重矩陣通過如下公式得到:

      M=tanh (H)

      (12)

      α=softmax (wTM)

      (13)

      r=HαT

      (14)

      其中,H表示由上層Bi-LSTM網(wǎng)絡輸出向量所組成的矩陣,wT是一個參數(shù)向量。向量矩陣H通過tanh函數(shù)得到隱層表示M,M和wT通過softmax函數(shù)得到權重矩陣α。在向量矩陣H的基礎上乘以該權重矩陣,就得到了句子的文本的表示r。最后用于識別文本作者的向量c*表示如下:

      c*=tanh (r)

      (15)

      1.3.5 分類器

      這一層網(wǎng)絡結構,使用softmax分類器,在y中預測x所屬的作者,w是參數(shù)向量,b是偏置項,分類器利用隱藏狀態(tài)c*作為輸入:

      p(y|x)=softmax (Wc*+b)

      (16)

      y=arg maxp(y|x)

      (17)

      損失函數(shù)如下:

      (18)

      其中,t是one-hot表示,m是作者的數(shù)量,y代表估計每個作者的概率,θ表示正則化參數(shù)。

      2 實驗研究

      2.1 實驗數(shù)據(jù)

      研究采用新加坡國立大學收集的短信庫(NUS SMS Corpus),使用2015.03.09版本進行,該版本包含有31 465條中文短信,分別歸屬于594位作者。每條短信都伴隨有相應的附屬信息,例如:date(發(fā)送日期)、time(時間)、text(內(nèi)容)、UserID(發(fā)送人唯一識別號)、manufactuer(手機廠商)、age(年齡)、sex(性別)、city(發(fā)送短信時所在的城市)、experience(手機使用時間)、frequency(每天發(fā)送短信的數(shù)量)、inputMethod(輸入法)等。

      2.2 實驗設置

      為使實驗結果更具有普遍性,從實驗數(shù)據(jù)中隨機抽取80%作為訓練集,其余20%作為測試集,采用機器學習方法中最大熵模型作為對比模型。實驗設置2組對照實驗。第1組分別采用最大熵模型和神經(jīng)網(wǎng)絡模型進行對比,第2組對神經(jīng)網(wǎng)絡模型和融合后的神經(jīng)網(wǎng)絡模型進行對比。第1組設置4個模型,分別是最大熵模型、長短期記憶神經(jīng)網(wǎng)絡(LSTM)、卷積神經(jīng)網(wǎng)絡+長短期記憶神經(jīng)網(wǎng)絡(CNN+LSTM)、卷積神經(jīng)網(wǎng)絡+長短期記憶神經(jīng)網(wǎng)絡+注意力機制(CNN+LSTM+Attention)。第2組設置3個模型,這3個模型均是在融合多屬性情況下進行的,分別是LSTM、CNN+LSTM、CNN+LSTM+Attention。

      本次實驗最大熵模型選取7個特征,分別是短文本的主語、謂語、賓語、語氣詞、發(fā)送時間、發(fā)送頻率、發(fā)送地點,最大熵模型中的參數(shù)估計使用 GIS 算法,迭代100次后結束。由于文本長度較短,本次實驗在卷積層設置窗口大小為3,在訓練時使用隨機梯度下降算法,batch_size大小設置為50,droupout rate 設置為 0.5,epoch大小設置為1 000,使用的詞向量是谷歌通過Word2Vec預先訓練好的包含1 000億詞匯量的谷歌新聞語料。

      2.3 評價指標

      采用3個評價指標對本次實驗結果進行評價,即準確率(P)、召回率(R)、F1值(F1),計算公式如下:

      (19)

      (20)

      (21)

      2.4 結果分析

      相同數(shù)據(jù)集在融合多屬性前后對比實驗的準確率、召回率、F1值如表2、表3所示。

      表2 數(shù)據(jù)集在融合多屬性前各個模型實驗的準確率、召回率、F1值

      表3 數(shù)據(jù)集在融合多屬性后各個模型實驗的準確率、召回率、F1值

      (1)通過對比最大熵和Bi-LSTM模型的實驗結果可知,結合上下文信息的Bi-LSTM模型比傳統(tǒng)的最大熵模型更優(yōu),說明深度神經(jīng)網(wǎng)絡捕獲了更深層次文本特征,F(xiàn)1值提高了3.35%。

      (2)通過對比Bi-LSTM和CNN+Bi-LSTM模型的實驗結果可知,CNN層很大程度上獲取了短文本的內(nèi)部語義特征,F(xiàn)1值提高了30.86%。

      (3)通過對比CNN+Bi-LSTM和CNN+Bi-LSTM+Attention模型實驗結果可知,引入注意力機制,很大程度上獲取了句子不同位置的特征信息。F1值提高了1.93%。

      (4)通過對比Bi-LSTM和融合多屬性的Bi-LSTM模型實驗結果可知,融合多屬性的Bi-LSTM捕獲到了引入的文本外部特征,F(xiàn)1值提高了0.86%。

      (5)通過對比CNN+Bi-LSTM模型實驗結果可知,融合多屬性的CNN+Bi-LSTM,融合多屬性的CNN+Bi-LSTM模型聚焦于文本序列深層次的語義特征。盡管F1值僅提高了0.01%,但實驗的準確率提高了0.86%。

      (6)通過對比CNN+ Bi-LSTM +Attention和融合多屬性的CNN+ Bi-LSTM +Attention模型的實驗結果可知,通過引入外部屬性特征,文本序列融入了更多的特征信息,Attention機制的加入,讓模型更多聚焦于文本不同位置特征信息。模型的準確率、召回率、F1值分別提高了1.24%、1.62%、1.43%。

      3 結語

      本文提出了融合多屬性的神經(jīng)網(wǎng)絡中文短文本作者識別方法,通過對短文本語氣詞特征、主謂賓結構特征的提取,結合文本發(fā)送時間、發(fā)送位置、年齡、發(fā)送頻率等附屬信息特征,使用最大熵模型與傳統(tǒng)的神經(jīng)網(wǎng)絡模型進行作者識別的對比實驗,在此基礎上采用了融合多屬性的神經(jīng)網(wǎng)絡模型進一步提高了實驗的準確率,在實驗數(shù)據(jù)集上驗證了融合多屬性的神經(jīng)網(wǎng)絡方法的有效性。

      猜你喜歡
      短文卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      KEYS
      Keys
      基于傅里葉域卷積表示的目標跟蹤算法
      向量垂直在解析幾何中的應用
      向量五種“變身” 玩轉圓錐曲線
      一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
      電視技術(2014年19期)2014-03-11 15:38:20
      香格里拉县| 古蔺县| 常宁市| 锦屏县| 花莲县| 抚顺县| 筠连县| 泸州市| 临桂县| 临武县| 延寿县| 专栏| 曲阜市| 响水县| 满城县| 砚山县| 安阳市| 孝义市| 乡城县| 安阳县| 巴马| 泰和县| 铜鼓县| 汉阴县| 信丰县| 峨眉山市| 汉源县| 镇宁| 南昌市| 江油市| 棋牌| 肥西县| 全州县| 独山县| 张家港市| 临澧县| 日喀则市| 辛集市| 鞍山市| 中江县| 北京市|