• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合句子結(jié)構(gòu)特征的漢老雙語句子相似度計(jì)算方法

      2022-04-12 04:46:52李炫達(dá)周蘭江張建安
      中文信息學(xué)報(bào) 2022年2期
      關(guān)鍵詞:結(jié)構(gòu)特征雙語注意力

      李炫達(dá),周蘭江,張建安

      (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

      0 引言

      老撾與我國云南接壤,其語言老撾語屬漢藏語系,在機(jī)器翻譯中屬于資源稀缺型語言。漢老雙語句子相似度計(jì)算是指計(jì)算漢語和老撾語之間的句子語義相似程度,是抽取漢老雙語平行句對(duì)的重要方法,在老撾語研究中具有非常重要的地位。

      近年來,傳統(tǒng)方法和基于神經(jīng)網(wǎng)絡(luò)模型的方法在跨語言句子相似度計(jì)算任務(wù)中均取得了很好的效果,然而目前主流的傳統(tǒng)方法如基于雙語詞典匹配的方法[1-2]、基于特征工程的方法[3-4]等往往需要大規(guī)模的語料數(shù)據(jù)和提取大量的文本特征來表征句子相似度;基于神經(jīng)網(wǎng)絡(luò)模型的方法[5-8]雖然可以使用網(wǎng)絡(luò)結(jié)構(gòu)提取文本特征,通過計(jì)算特征向量間的距離來表征句子相似度,但在面對(duì)跨度較大的語言時(shí),其使用網(wǎng)絡(luò)結(jié)構(gòu)提取特征的效果較差,因此對(duì)于語言結(jié)構(gòu)差異性較大的語言,大多考慮在神經(jīng)網(wǎng)絡(luò)模型中融合傳統(tǒng)方法文本特征。

      目前已有的工作大多為使用基于特征工程的方法提取文本特征后,將其對(duì)應(yīng)的特征向量與句子的分布式表示進(jìn)行拼接以融合特征信息[9],通過神經(jīng)網(wǎng)絡(luò)模型表征句子的相似度。老撾語的基礎(chǔ)研究薄弱,目前還沒有成熟的句法分析工具,難以使用傳統(tǒng)方法提取特征,因此本文在研究了漢語和老撾語的句子結(jié)構(gòu)異同后,構(gòu)建了一種根據(jù)關(guān)鍵詞性和位置信息來獲取老撾語句子結(jié)構(gòu)特征的特征模板,提出一種融合句子結(jié)構(gòu)特征的漢老雙語句子相似度計(jì)算方法。不同于目前提取特征向量再進(jìn)行拼接的方法,由于本文特征模板提取句子結(jié)構(gòu)特征需要確定詞性和位置信息,因此需要先添加特征標(biāo)記,再將含有特征標(biāo)記的句子進(jìn)行分布式表示,并映射到共享的語義空間,最后通過帶有自注意力(self-attention)機(jī)制的雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)模型得到漢老雙語句子的相似度分?jǐn)?shù)。實(shí)驗(yàn)結(jié)果表明,與目前主流方法相比,本文方法在有限的語料下具有更優(yōu)的表現(xiàn),模型的F1值達(dá)到了70.24%。

      本文的主要貢獻(xiàn)如下:

      (1) 提出一種通過關(guān)鍵詞性和位置信息來獲取老撾語句子結(jié)構(gòu)特征的特征模板。

      (2) 將漢-老雙語詞嵌入映射到共享的語義空間,減少了漢、老語言間的差異性。

      (3) 在BiLSTM網(wǎng)絡(luò)中加入自注意力機(jī)制,有效提高跨語言句子相似度計(jì)算模型的效果。

      本文組織結(jié)構(gòu)如下: 引言部分介紹本文的研究背景及目的,第1節(jié)為相關(guān)工作,綜述雙語句子相似度計(jì)算的相關(guān)文獻(xiàn);第2節(jié)介紹漢語和老撾語句子結(jié)構(gòu)的異同;第3節(jié)介紹本文使用模型的結(jié)構(gòu);第4節(jié)為本文模型的設(shè)置與相關(guān)實(shí)驗(yàn)的結(jié)果;第5節(jié)為總結(jié)與展望。

      1 相關(guān)工作

      傳統(tǒng)的雙語句子相似度計(jì)算方法主要有以下三類方法。

      (1) 基于雙語詞典匹配的方法這類方法的思想是使用雙語詞典將源語言和目標(biāo)語言轉(zhuǎn)換為中間層語言,通過計(jì)算詞的相似度來衡量句子的相似性,如石杰等人[1]使用多語言版本的WordNet將漢語和泰語轉(zhuǎn)換為英語,通過轉(zhuǎn)換后文本的特征詞匹配來計(jì)算相似度;閆紅等人[2]通過HowNet的多義詞消歧對(duì)句子中的詞語進(jìn)行處理,以詞語相似度為基礎(chǔ)計(jì)算了句子的相似度。

      (2) 基于特征工程的方法這類方法的思想是通過抽取文本特征來表示句子的語義信息,從而計(jì)算句子間的相似度,如Tian等人[3]通過提取句子的序列特征、句法分析特征、句子對(duì)齊特征來表示句子語義信息,計(jì)算英語、阿拉伯語和西班牙語間的句子語義相似度;黃洪等人[4]利用依存句法分析方法得到句子中各成分的關(guān)系特征,以獲取句子的核心詞和關(guān)鍵詞,通過詞匹配的方法計(jì)算句子相似度。

      (3) 基于機(jī)器翻譯模型的方法這類方法的思想是將源語言翻譯成目標(biāo)語言來計(jì)算跨語言句子的相似度,如Erdmann等人[10]將雙語維基百科的文章翻譯為同一語言來計(jì)算文章的相似度,構(gòu)建了雙語詞典;Wu等人[11]將目標(biāo)語言翻譯為英語后,通過WordNet詞典中層次樹結(jié)構(gòu)的非重疊信息計(jì)算了英語、阿拉伯語和西班牙語間的句子語義相似度。

      傳統(tǒng)方法雖然取得了不錯(cuò)的效果,但基于雙語詞典匹配的方法仍需要大量的雙語詞典資源來解決未登錄詞問題,特征工程的方法需要人工抽取大量的文本特征以保證句子語義信息的準(zhǔn)確性,機(jī)器翻譯模型的方法依賴于翻譯的效果。隨著深度學(xué)習(xí)的興起,基于神經(jīng)網(wǎng)絡(luò)模型的跨語言句子相似度計(jì)算方法在無需傳統(tǒng)特征的基礎(chǔ)上取得了較好的結(jié)果[12-14]。Mueller等人[5]提出了一種連體LSTM網(wǎng)絡(luò)結(jié)構(gòu)(Siamese LSTM),通過將句子對(duì)輸入到共享參數(shù)的LSTM網(wǎng)絡(luò),得到特征向量后計(jì)算向量間的曼哈頓距離表征句子對(duì)的相似度;李霞等人[6]分別運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和注意力機(jī)制(attention mechanism)得到每個(gè)句子的局部語義信息和全局語義信息,將其拼接后傳輸?shù)饺B接網(wǎng)絡(luò)層,計(jì)算得到句子間的相似度分?jǐn)?shù);Chi等人[7]將改進(jìn)的連體LSTM網(wǎng)絡(luò)與注意力機(jī)制結(jié)合,得到更加準(zhǔn)確的句子語義向量,通過全連接網(wǎng)絡(luò)層計(jì)算向量間的相對(duì)差與相對(duì)積來獲得句子間的相似性分?jǐn)?shù)。Chien等人[8]通過學(xué)習(xí)轉(zhuǎn)換矩陣將訓(xùn)練好的漢語詞嵌入映射到英語詞嵌入語義空間,然后計(jì)算漢語和英語句子的平均逐詞相似度,從而獲取平行句子對(duì)。

      2 漢語-老撾語句子結(jié)構(gòu)異同

      老撾語的句子構(gòu)成分為主要成分和次要成分,主要成分指句子的主謂(或主謂賓)成分;次要成分指解釋句子主要成分的附加部分,即定語、狀語、補(bǔ)語等。漢語和老撾語的主要成分具有相同的順序結(jié)構(gòu),均為主謂賓順序(SVO),并且漢語和老撾語的主要成分通常由相同詞性的單詞構(gòu)成[15],如表1所示的例句為經(jīng)過詞性標(biāo)注和句子主要成分標(biāo)注處理的句子,其中,/p、/r、/v、/u、/m、/n、/a分別表示介詞、代詞、動(dòng)詞、助詞、數(shù)詞、名詞和形容詞性標(biāo)記;Subject,Verb,Object分別表示句子的主語、謂語和賓語。通過表1可知,具有完整主謂賓結(jié)構(gòu)的漢老雙語句子,其主謂賓在句子中具有相同或相近的位置,并且通常由相近詞性的單詞來構(gòu)成主謂賓成分;缺少賓語結(jié)構(gòu)的漢老雙語句子,其主語和謂語具有相同或相近的位置,并且同樣由相近詞性的單詞來構(gòu)成主謂成分。

      漢語和老撾語的主語都可以由名詞、代詞等詞性充當(dāng),并且在句子中處于相同的位置;謂語由動(dòng)詞、形容詞等詞性充當(dāng),并且謂語都位于主語之后;賓語構(gòu)成的詞類一致,并且都位于謂語之后。因此對(duì)于老撾語,可以通過句子中的名詞、代詞、動(dòng)詞和形容詞以及其在句子中對(duì)應(yīng)的位置來識(shí)別老撾語句子的主要成分,提取句子的結(jié)構(gòu)特征。

      表1 漢語-老撾語句子結(jié)構(gòu)示例

      3 融合句子結(jié)構(gòu)特征的漢老雙語句子相似度計(jì)算模型

      3.1 模型結(jié)構(gòu)

      本文構(gòu)建模型的基本思路如下: 首先對(duì)漢語和老撾語的平行句對(duì)進(jìn)行分詞和詞性標(biāo)注預(yù)處理,通過漢語句法分析工具和本文提出的老撾語句子結(jié)構(gòu)特征標(biāo)記模板分別獲取漢、老句子的句子結(jié)構(gòu)特征,加入特征標(biāo)記;其次,預(yù)訓(xùn)練含有特征標(biāo)記的漢語和老撾語詞向量分布式表示,使用雙語種子詞典將漢老雙語詞嵌入映射到共享的語義空間,通過帶有自注意力機(jī)制的雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)獲取含有長距離語義信息的雙語句子對(duì)特征向量表示;最后,分別計(jì)算雙語特征向量的相對(duì)差和相對(duì)積,將結(jié)果拼接后傳輸?shù)饺B接網(wǎng)絡(luò)層計(jì)算出相似度分?jǐn)?shù),模型的結(jié)構(gòu)如圖1所示。

      本文模型由以下部分構(gòu)成:

      (1)預(yù)處理層: 對(duì)給定的漢語、老撾語雙語句子進(jìn)行分詞和詞性標(biāo)注,分別使用CoreNLP工具和本文提出的特征模板對(duì)漢語和老撾語添加句子結(jié)構(gòu)特征標(biāo)記。

      (2)詞嵌入層: 輸入預(yù)處理好的具有句子結(jié)構(gòu)特征標(biāo)記的漢老雙語句子對(duì),利用預(yù)訓(xùn)練的方式映射在共享語義空間的雙語詞向量進(jìn)行轉(zhuǎn)換,得到對(duì)應(yīng)的詞向量序列。

      (3)BiLSTM層: 針對(duì)句子訓(xùn)練的問題,是一個(gè)典型的序列到序列的問題,BiLSTM可以較好地捕捉到句子之間的特征[16],將漢老雙語句子對(duì)應(yīng)的詞向量序列輸入到BiLSTM網(wǎng)絡(luò)中,得到含有雙向語義信息的特征向量。

      (4)自注意力層: 自注意力層可以有效捕獲長距離語義特征[17]。將含有雙向語義信息的特征向量傳輸?shù)阶宰⒁饬又?,得到含有長距離語義信息的漢老雙語句子特征向量。

      (5)全連接層: 將得到的漢老雙語句子特征向量分別進(jìn)行按位減和按位乘操作,把結(jié)果進(jìn)行拼接后傳輸?shù)饺B接網(wǎng)絡(luò)層中計(jì)算得到漢老句子對(duì)的相似度分?jǐn)?shù)。

      3.2 老撾語句子結(jié)構(gòu)特征標(biāo)記模板

      老撾語是一種缺少語料資源的稀缺語言,由于缺少成熟的句法分析工具,無法直接獲取句法特征向量。本文在對(duì)漢語和老撾語句子結(jié)構(gòu)進(jìn)行研究后,發(fā)現(xiàn)漢老雙語句子成分相似[15],并且具有相同的主謂賓結(jié)構(gòu)(SVO),因此可以通過關(guān)鍵詞性和位置信息在原句中添加句子成分標(biāo)記, 獲 取句子結(jié)構(gòu)特征。使用實(shí)驗(yàn)室開發(fā)的老撾語分詞工具[18]和詞性標(biāo)注工具[19]對(duì)老撾語句子進(jìn)行處理,保留句子中的名詞、動(dòng)詞、形容詞和代詞詞性,按以下規(guī)則構(gòu)建特征標(biāo)記模板來獲取老撾句子結(jié)構(gòu)標(biāo)記:

      圖1 融合老撾語句子結(jié)構(gòu)特征的漢老雙語句子相似度計(jì)算模型圖

      (1) 若老撾語句子保留的詞性中擁有除動(dòng)詞和形容詞詞性以外的其他詞性,則將句子中連續(xù)的動(dòng)詞和形容詞詞性視為一個(gè)成分,在末尾添加標(biāo)記verb;將老撾語句子中連續(xù)的名詞、代詞詞性視為一個(gè)成分,在末尾添加標(biāo)記func_tag;

      (2) 若句子僅有一個(gè)verb標(biāo)記且具有多個(gè)func_tag標(biāo)記,則verb前的func_tag標(biāo)記部分為主語成分,替換func_tag為sub標(biāo)記;verb后的func_tag為賓語成分,替換為obj標(biāo)記;

      (3) 若句子僅有一個(gè)verb標(biāo)記和一個(gè)func_tag標(biāo)記,且func_tag位于verb之前,則把句子視為缺少賓語的主謂句,func_tag為主語成分,將其替換為sub標(biāo)記;

      (4) 不滿足以上條件時(shí),句子多為成分不全的簡單句或具有從句的復(fù)雜句,使用特征標(biāo)記模板難以獲取句子結(jié)構(gòu)特征,因此不做處理。

      圖2 老撾語句子結(jié)構(gòu)標(biāo)記過程圖

      圖3 漢語句子結(jié)構(gòu)標(biāo)記過程圖

      圖3為使用CoreNLP對(duì)例句“他特別喜歡運(yùn)動(dòng)”進(jìn)行標(biāo)記的過程,首先經(jīng)過分詞和詞性標(biāo)記處理后,通過CoreNLP的句法分析得到句子的主謂賓成分,最后將多余句子成分標(biāo)記去除后,替換為和老撾語相同的標(biāo)記(sub)、(verb)、(obj)。

      通過以上處理,即可在漢語和老撾語句子中加入特征標(biāo)記。

      3.3 含有句子結(jié)構(gòu)特征的漢老雙語詞向量分布式表示

      詞向量分布式表示可以將單詞映射到低維空間中,不同的維度可以表征不同的語義信息。對(duì)于跨度較大的語言,通常將不同語言的詞嵌入映射到相同的向量空間中,保證單語言下的語義不變性,同時(shí)確保具有相同語義的詞非常接近。漢語和老撾語的語言差異性較大,因此在本模型中通過利用漢老雙語種子詞典映射的方式將漢語和老撾語映射到共享的語義空間。

      對(duì)于分別預(yù)訓(xùn)練好且?guī)в刑卣鳂?biāo)記的漢語和老撾語詞嵌入矩陣S、T,與Artetxe[20]等人的方法類似,引入雙語種子詞典M,通過SVD以自學(xué)習(xí)的方式和迭代算法學(xué)習(xí)線性轉(zhuǎn)換矩陣,得到最佳映射矩陣W*后對(duì)漢語詞嵌入矩陣進(jìn)行線性變換得到S′,即可將漢語和老撾語詞向量映射在共享的語義空間,如式(1)、式(2)所示。

      S′=SW*

      (1)

      (2)

      其中,Si表示第i個(gè)漢語的詞嵌入,Tj表示第j個(gè)老撾語的詞嵌入。隨機(jī)抽取100對(duì)漢老雙語詞向量,映射前和映射后的詞嵌入在二維空間下的分布如圖4、圖5所示。

      圖4 映射前的漢老雙語詞嵌入圖

      圖5 映射后的漢老雙語詞嵌入圖

      通過以上處理,即可將漢老雙語分布式表示映射到共享的語義空間,縮小語言的差異性。

      3.4 雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)層

      BiLSTM通過一個(gè)正向順序讀取句子的LSTM和一個(gè)反向順序讀取句子的LSTM來分別生成兩個(gè)隱藏狀態(tài),將其拼接得到含有雙向信息輸出的網(wǎng)絡(luò)結(jié)構(gòu)。LSTM的計(jì)算如式(3)~式(8)所示。

      其中,it表示LSTM的輸入門,ft表示遺忘門,ot表示輸出門,ht為LSTM網(wǎng)絡(luò)輸出的隱藏狀態(tài);Wi、Wf、Wo、Wu、Ui、Uf、Uo、Uu是權(quán)重?cái)?shù)據(jù);bi,bf,bo,bu為偏置量。

      (9)

      通過以上處理,即可分別得到含有雙向語義信息的漢老雙語句子特征向量表示。

      3.5 自注意力網(wǎng)絡(luò)(Self-Attention)層

      自注意力層是一般注意力機(jī)制(attention)的一種特殊情況[17],與一般的注意力機(jī)制相比,自注意力機(jī)制可以無視詞之間的距離而直接計(jì)算依賴關(guān)系,對(duì)于捕獲句子長距離依賴關(guān)系和學(xué)習(xí)句子內(nèi)部結(jié)構(gòu)的特點(diǎn)具有更好的效果。本文處理的對(duì)象為漢老雙語句子對(duì),使用自注意力機(jī)制可以得到更加準(zhǔn)確的句子特征表示。將BiLSTM網(wǎng)絡(luò)層得到的漢老雙語句子輸出狀態(tài)H1和H2分別輸入到自注意力層,通過自注意力層學(xué)習(xí)詞和特征的重要性,同時(shí)學(xué)習(xí)句子的序列信息,最終分別得到含有長距離語義信息的漢老雙語句子對(duì)特征向量。自注意力層的計(jì)算如式(10)所示。

      a=softmax(wl2tanh(wl1H))

      (10)

      圖6 自注意力機(jī)制計(jì)算過程

      自注意力層的計(jì)算過程如圖6所示,其中,H表示BiLSTM網(wǎng)絡(luò)層的輸出結(jié)果,H∈RT×j,T為句子長度,j為LSTM單元的輸出維度,wl1和wl2為自注意力網(wǎng)絡(luò)層學(xué)習(xí)得到的權(quán)重矩陣。通過將漢語和老撾語的輸出結(jié)果H1和H2輸出自注意力機(jī)制層,經(jīng)過第一層線性網(wǎng)絡(luò)層L1和第二層線性網(wǎng)絡(luò)層L2計(jì)算后分別得到句子中詞的特征權(quán)重分?jǐn)?shù)a1和a2,將其與對(duì)應(yīng)的向量和加權(quán)求和,得到含有長距離語義信息的漢老句子對(duì)特征向量C1和C2,計(jì)算如式(11)所示。

      Ci=ai⊕Hi

      (11)

      通過自注意力層的計(jì)算,即可分別得到含有長距離語義信息的漢老雙語句子特征向量表示。

      3.6 漢老雙語句子相似度表示

      對(duì)于漢老雙語句子對(duì)S1和S2,通過3.1~3.5節(jié)所描述的方法獲取含有長距離語義信息和句子結(jié)構(gòu)信息的漢老雙語句子語義表示向量C1和C2后,分別對(duì)其進(jìn)行按位減和按位乘操作,捕獲句子對(duì)間的匹配信息,將結(jié)果進(jìn)行拼接后傳輸?shù)饺B接網(wǎng)絡(luò)層,計(jì)算漢老雙語句子對(duì)的相似度分?jǐn)?shù)p。具體計(jì)算如式(12)~式(15)所示。

      其中,W1,W2,Ws,b,c為模型參數(shù),p為取值介于0至1之間的相似度分?jǐn)?shù)。模型采用交叉熵(cross entropy)作為目標(biāo)函數(shù),如式(16)所示。

      L=ylog(p)+(1-y)log(1-p)

      (16)

      通過以上公式,即可計(jì)算得到漢老句子對(duì)S1和S2的相似度分?jǐn)?shù)p。

      4 實(shí)驗(yàn)及分析

      4.1 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)

      4.1.1實(shí)驗(yàn)數(shù)據(jù)與模型設(shè)置

      表2 漢老雙語數(shù)據(jù)集

      實(shí)驗(yàn)在固定隨機(jī)種子數(shù)下使用10折交叉驗(yàn)證,將構(gòu)建的漢老雙語平行句對(duì)語料庫的90%作為訓(xùn)練集,剩余的10%作為測(cè)試集分別訓(xùn)練10次,取實(shí)驗(yàn)結(jié)果的均值,每次訓(xùn)練使用的數(shù)據(jù)集劃分如表3所示。

      表3 數(shù)據(jù)集劃分

      模型實(shí)現(xiàn)使用Python語言及Keras框架,表4 列出了模型的實(shí)驗(yàn)參數(shù)設(shè)置。

      表4 模型超參數(shù)

      4.1.2 評(píng)價(jià)指標(biāo)

      本文按照標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo),統(tǒng)計(jì)了各種方法的準(zhǔn)確率P和召回率R,在此基礎(chǔ)上將各方法的F1值作為衡量模型是否可以正確分類漢語-老撾語的平行句子的最終評(píng)價(jià)指標(biāo)。采用0.5作為句子相似的判別閾值,當(dāng)句子對(duì)的相似度分?jǐn)?shù)大于0.5時(shí)即將其分為相似句子對(duì)。準(zhǔn)確率P、召回率R、F1值的具體計(jì)算如式(17)~式(19)所示。

      4.2 模型對(duì)比實(shí)驗(yàn)

      本文使用的模型框架為帶有自注意力機(jī)制的BiLSTM模型,在此基礎(chǔ)上加入了句子結(jié)構(gòu)特征來豐富句子語義表示。為了驗(yàn)證自注意力機(jī)制對(duì)模型的有效性,在不同設(shè)定下訓(xùn)練了四個(gè)模型,每個(gè)模型的設(shè)定如下:

      (1) BiLSTM模型;

      (2) 帶有注意力機(jī)制(attention)的BiLSTM模型;

      (3) 帶有自注意力機(jī)制的BiLSTM模型;

      (4) 加入句子結(jié)構(gòu)特征(struct_tag)的帶有自注意力機(jī)制的BiLSTM模型,即本文方法。

      其中,設(shè)定(1)是本文的基準(zhǔn)模型(Base Model);設(shè)定(2)和設(shè)定(3)是為了比較不同注意力機(jī)制對(duì)模型性能的影響;設(shè)定(4)為本文方法。此外,與目前主流的3種跨語言句子相似度計(jì)算模型作了對(duì)比:

      (1)Siamese LSTM模型[5]: 將平行句對(duì)分別輸入共享參數(shù)的LSTM網(wǎng)絡(luò)提取句子對(duì)的特征向量,通過計(jì)算特征向量間的曼哈頓距離得到句子對(duì)的相似度分?jǐn)?shù)。模型結(jié)構(gòu)設(shè)置與超參數(shù)均與原文一致,LSTM隱狀態(tài)維度為50維,優(yōu)化算法選擇Adadelta。

      (2)CNN+Self-Attention模型[6]: 對(duì)輸入的平行句對(duì)分別運(yùn)用CNN和自注意力機(jī)制(self-attention)得到每個(gè)句子的局部語義信息和全局語義信息,將其拼接后計(jì)算特征向量間的相對(duì)差和相對(duì)積,將結(jié)果拼接后傳輸?shù)饺B接網(wǎng)絡(luò)層計(jì)算得到句子間的相似度分?jǐn)?shù)。模型結(jié)構(gòu)設(shè)置與超參數(shù)均與原文一致,其中,CNN卷積核設(shè)定為300,池化操作中的k設(shè)置為3,自注意力機(jī)制設(shè)置8個(gè)頭,每個(gè)頭的參數(shù)矩陣設(shè)置為16維,全連接層中第一層神經(jīng)元節(jié)點(diǎn)設(shè)置為900,第二層設(shè)置為6。

      (3)LSTM+ Attention模型[7]: 對(duì)輸入的句子對(duì)使用帶有注意力機(jī)制的LSTM提取句子對(duì)的特征向量,計(jì)算特征向量間的相對(duì)差和相對(duì)積,將結(jié)果拼接通過全連接網(wǎng)絡(luò)層計(jì)算相似度分?jǐn)?shù)。模型結(jié)構(gòu)設(shè)置與超參數(shù)均與原文一致,其中LSTM隱狀態(tài)維度為50,dropout設(shè)置為0.2,損失函數(shù)中L2正則設(shè)置為0.000 1,優(yōu)化算法使用Adam。

      以上7個(gè)模型均在相同訓(xùn)練語料下采用10折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),并且固定隨機(jī)種子數(shù),實(shí)驗(yàn)結(jié)果如表5所示。

      表5 不同模型對(duì)比結(jié)果

      續(xù)表

      由表5可知,加入注意力機(jī)制可有效提升模型性能,與基準(zhǔn)模型相比F1值提升了5.88%,這是由于注意力機(jī)制可以快速提取數(shù)據(jù)的重要特征,而自注意力機(jī)制作為注意力機(jī)制的改進(jìn),將注意力機(jī)制替換為自注意力機(jī)制后模型的F1值進(jìn)一步提升了1.02%,原因是自注意力機(jī)制減少了對(duì)外部信息的依賴,可以更有效地捕獲數(shù)據(jù)和特征的內(nèi)部關(guān)聯(lián)性。設(shè)定(2)和設(shè)定(3)訓(xùn)練的模型相比較,說明了自注意力機(jī)制在研究句子相似度任務(wù)上的有效性。此外,加入句子結(jié)構(gòu)特征使模型的F1值提升了3.07%,說明設(shè)定(4)的特征方法對(duì)于漢老雙語句子相似度的研究是有效的。

      另一方面,Siamese LSTM模型和CNN+Self-Attention模型與本文模型相比F1值分別低了10.75%及4.82%。分析原因后發(fā)現(xiàn)Siamese LSTM模型的框架雖然對(duì)于跨語言句子相似度計(jì)算具有較好的適應(yīng)性,并且LSTM網(wǎng)絡(luò)可以在一定程度上捕獲句子的特征信息,但對(duì)于高維度的特征向量,通過曼哈頓距離來度量相似性存在一定的誤差;而CNN+Self-Attention模型則是對(duì)同一語系或差異性較小的語言具有較好的效果,漢語-老撾語的語言跨度較大,雖然通過自注意力機(jī)制可以在一定程度上提取句子更加準(zhǔn)確的語義特征,但CNN提取的漢老雙語句子特征具有較大差異性,因此與本文方法相比該方法的實(shí)驗(yàn)結(jié)果較差。LSTM+Attention模型相比本文模型的F1值低了4.57%,并且與模型(2)相比F1值低了0.48%,出現(xiàn)這一結(jié)果的原因是BiLSTM網(wǎng)絡(luò)相比LSTM網(wǎng)絡(luò)可以更好地進(jìn)行句子建模,增加句子語義表示的準(zhǔn)確性。

      總結(jié)而言,在漢老雙語句子相似度計(jì)算任務(wù)中,由于語言差異性較大,BiLSTM網(wǎng)絡(luò)相比于LSTM網(wǎng)絡(luò)和CNN網(wǎng)絡(luò)可以更好地對(duì)句子進(jìn)行建模,并且加入自注意力機(jī)制和句子結(jié)構(gòu)特征可以進(jìn)一步提升模型效果。

      4.3 特征標(biāo)記方法對(duì)比實(shí)驗(yàn)

      由4.2小節(jié)設(shè)定(4)訓(xùn)練的模型可知,使用特征模板獲取句子結(jié)構(gòu)特征可以有效提升模型性能。為了驗(yàn)證本文提出的特征模板的有效性,探索特征模板的不同標(biāo)記方法對(duì)模型結(jié)果產(chǎn)生的影響,本節(jié)按以下設(shè)定額外訓(xùn)練了7個(gè)模型,并且與3.2節(jié)中的設(shè)定(3)和(4)做比較,具體設(shè)定如下:

      (1) 帶有自注意力機(jī)制的BiLSTM模型;

      (2) 在設(shè)定(1)的基礎(chǔ)上加入句子的主語特征標(biāo)記(sub);

      (3) 在設(shè)定(1)的基礎(chǔ)上加入句子的謂語特征標(biāo)記(verb);

      (4) 在設(shè)定(1)的基礎(chǔ)上加入句子的賓語特征標(biāo)記(obj);

      (5) 在設(shè)定(1)的基礎(chǔ)上加入句子的主語和謂語特征標(biāo)記(sub+verb);

      (6) 在設(shè)定(1)的基礎(chǔ)上加入句子的主語和賓語特征標(biāo)記(sub+obj);

      (7) 在設(shè)定(1)的基礎(chǔ)上加入句子的謂語和賓語特征標(biāo)記(verb+obj);

      (8) 在設(shè)定(1)的基礎(chǔ)上加入句子的詞性標(biāo)記(pos_tag);

      (9) 在設(shè)定(1)的基礎(chǔ)上加入完整的句子結(jié)構(gòu)特征標(biāo)記(sub+verb+obj),用struct_tag表示,即本文方法。

      在以上9個(gè)設(shè)定訓(xùn)練的模型中,設(shè)定(1)和設(shè)定(9)分別為4.2節(jié)中設(shè)定(3)和設(shè)定(4)訓(xùn)練好的模型。在本節(jié)中,設(shè)定(1)為驗(yàn)證特征標(biāo)記對(duì)模型影響的基準(zhǔn)模型;設(shè)定(2)、設(shè)定(3)、設(shè)定(4)和設(shè)定(5)、設(shè)定(6)、設(shè)定(7)是為了探索不同特征標(biāo)記對(duì)模型的影響,以及探索不同組合的特征標(biāo)記對(duì)提升模型性能的有效性;設(shè)定(8)和設(shè)定(9)則是比較了加入詞性特征標(biāo)記與句子結(jié)構(gòu)特征標(biāo)記對(duì)模型性能的影響。以上模型均使用同一訓(xùn)練語料采用10折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),并且固定隨機(jī)種子數(shù),實(shí)驗(yàn)結(jié)果如表6所示。

      表6 不同特征標(biāo)記對(duì)模型性能的影響

      續(xù)表

      由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),在加入一種特征標(biāo)記的模型中[設(shè)定(2)、設(shè)定(3)、設(shè)定(4)],加入主語標(biāo)記(sub)的設(shè)定(2)對(duì)模型效果提升最大,與設(shè)定(1)的F1值相比提升了1.19%;加入兩種特征標(biāo)記的模型中[設(shè)定(5)、設(shè)定(6)、設(shè)定(7)],加入主語和賓語標(biāo)記(sub+obj)的設(shè)定(6)對(duì)模型的性能提升最高,相比設(shè)定(1)的F1值提升了2.43%;而加入完整句子結(jié)構(gòu)特征(本文方法)的設(shè)定(9)取得了最好的效果,相比設(shè)定(1)的F1值提升了3.07%。設(shè)定(2)和設(shè)定(6)在兩組對(duì)比中得到了最好的效果,并且兩者均未含有謂語標(biāo)記(verb),分析后發(fā)現(xiàn)原因是由于在句子結(jié)構(gòu)中,謂語成分通常位于句子的中間或末尾,具有模糊的位置關(guān)系,通過本文提出的特征模板對(duì)老撾語的謂語成分進(jìn)行標(biāo)記存在一定的誤差;而主語和賓語成分通常位于句子的兩端,使用本文的特征模板可以較好地確定標(biāo)記位置,因此設(shè)定(6)在加入兩種特征標(biāo)記的模型中F1值提升最大。設(shè)定(8)在加入詞性特征標(biāo)記后相比未加入前的設(shè)定(1),模型的F1值反而降低了3.41%,得到這一結(jié)果的原因是由于漢語和老撾語雖然在句子的主要成分上具有一致的順序結(jié)構(gòu)(SVO),但句子的次要成分具有差異性。例如,漢語的定語通常在主語之前,狀語在主語之后,而老撾語則正好相反,僅添加詞性標(biāo)記反而使模型更難獲取句子的特征信息。

      總的來說,使用特征模板獲取的句子結(jié)構(gòu)特征對(duì)漢老雙語句子相似度計(jì)算任務(wù)是個(gè)十分有效的方法,可以彌補(bǔ)語料資源稀缺對(duì)模型性能的影響。

      4.4 詞嵌入映射方法對(duì)比實(shí)驗(yàn)

      為了減少漢老雙語的語言差異性,與 Artetxe[20]等人提出的方法類似,本文采用弱監(jiān)督映射方法將雙語詞嵌入映射到共享的語義空間。為了驗(yàn)證方法的有效性,本節(jié)與目前主要使用的無監(jiān)督和監(jiān)督映射的方法[23-24]做對(duì)比,其中無監(jiān)督映射方法指通過自學(xué)習(xí)方式學(xué)習(xí)線性變換矩陣進(jìn)行映射[24],監(jiān)督映射方法指使用較大雙語詞典學(xué)習(xí)映射矩陣的方法[25]。將未經(jīng)過詞嵌入映射的模型作為基準(zhǔn)模型(Base Model_2),分別使用unsupervised、supervised和semi_supervised代表無監(jiān)督、監(jiān)督和弱監(jiān)督映射方法,其中弱監(jiān)督映射方法即本文方法。實(shí)驗(yàn)結(jié)果如表7所示,模型均在同一數(shù)據(jù)集下采用10折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),并且固定隨機(jī)種子數(shù),超參數(shù)均使用原文中參數(shù),監(jiān)督映射方法和弱監(jiān)督映射方法使用的映射詞典為同一種子詞典(836對(duì)常用詞)。

      表7 不同詞嵌入映射方式對(duì)模型性能的影響

      由結(jié)果可知,在使用了詞嵌入映射后模型的性能均獲得了提升,與基準(zhǔn)模型相比,監(jiān)督映射方法(supervised)的提升最小,F(xiàn)1值僅提升了1.4%,而無監(jiān)督映射方法(unsupervised)的F1值提升了1.89%,得到這一結(jié)果的原因是監(jiān)督映射的方法需要在較大規(guī)模的雙語詞典下才能取得較好的效果,而由于老撾語資源稀缺,目前僅擁有小規(guī)模的詞典,因此效果較差;無監(jiān)督映射的方法不需要種子詞典,而是通過線性變換學(xué)習(xí)轉(zhuǎn)換矩陣,因此取得了一定的效果。弱監(jiān)督映射(semi_supervised)的方法取得了最好的效果,F(xiàn)1值提升了3.38%,原因是該方法僅需要較小的種子詞典即可學(xué)習(xí)到效果較好的轉(zhuǎn)換矩陣,并且由于漢語和老撾語的語言差異較大,僅通過無監(jiān)督映射學(xué)習(xí)存在一定的困難,因此與無監(jiān)督方法相比,弱監(jiān)督方法取得了最好的效果。

      綜上所述,對(duì)于漢語和老撾語的句子相似度計(jì)算,通過使用雙語詞嵌入映射的方法可以有效縮小語言間的差異性,提升模型的性能。

      5 結(jié)論

      本文根據(jù)漢語和老撾語句子結(jié)構(gòu)的特點(diǎn)提出一種融合句子結(jié)構(gòu)特征的漢老雙語句子相似度計(jì)算方法,在將雙語詞嵌入映射到共享語義空間縮小語言差異性的基礎(chǔ)上,通過加入句子結(jié)構(gòu)特征有效提高了漢老雙語句子相似度計(jì)算模型的性能。實(shí)驗(yàn)結(jié)果表明,本文方法在有限的訓(xùn)練樣本下效果明顯優(yōu)于目前的主流方法,F(xiàn)1值達(dá)到了70.24%。下一步將考慮利用該方法提取漢老雙語句子對(duì),融入機(jī)器翻譯和其他老撾語相關(guān)的自然語言處理工作中來提升效果。

      猜你喜歡
      結(jié)構(gòu)特征雙語注意力
      讓注意力“飛”回來
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      特殊環(huán)境下雙駝峰的肺組織結(jié)構(gòu)特征
      2012年冬季南海西北部營養(yǎng)鹽分布及結(jié)構(gòu)特征
      快樂雙語
      新晨(2013年7期)2014-09-29 06:19:50
      快樂雙語
      新晨(2013年5期)2014-09-29 06:19:50
      快樂雙語
      新晨(2013年10期)2014-09-29 02:50:54
      C-PRrpp半群的結(jié)構(gòu)特征
      阿霉素水溶液的結(jié)構(gòu)特征和氫鍵相互作用
      屏南县| 凤山县| 连江县| 黎城县| 三门峡市| 辽宁省| 岑巩县| 图片| 黎城县| 东乌珠穆沁旗| 黄山市| 鱼台县| 崇文区| 宝山区| 泰顺县| 六枝特区| 依安县| 大荔县| 青阳县| 建平县| 蒙自县| 正镶白旗| 陈巴尔虎旗| 雷山县| 万年县| 理塘县| 临漳县| 莱西市| 广宁县| 东乡族自治县| 英超| 元阳县| 青海省| 光泽县| 阳西县| 白玉县| 秦皇岛市| 淅川县| 恩施市| 永登县| 玉田县|