基于詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別研究

2022-06-21 08:30:32殷雅琦代達勱

中文信息學(xué)報 2022年5期

鄭婳,劉揚,殷雅琦 ,王悅,代達勱

(1. 北京大學(xué) 計算機學(xué)院，北京 100871;2. 北京大學(xué) 計算語言學(xué)教育部重點實驗室，北京 100871)

0 引言

漢語構(gòu)詞結(jié)構(gòu)的研究由來已久，從《馬氏文通》[1]開始，涉及語法、詞匯學(xué)的論著大都關(guān)注構(gòu)詞的話題，該問題對漢語語言學(xué)的重要性不言而喻。趙元任[2]、朱德熙[3]等學(xué)者指出，詞的結(jié)構(gòu)是影響詞義的一個重要因素。譚景春[4]、曹煒[5]等深入分析了漢語詞在結(jié)構(gòu)組配過程中的意義和貢獻。蘇寶榮[6]進一步指出結(jié)構(gòu)能夠從句法、詞法和新詞義生成三個層面對語言產(chǎn)生影響。

面向中文信息處理的需求，楊梅[7]給出了一套較為完善的構(gòu)詞結(jié)構(gòu)標(biāo)簽，并證明了采用構(gòu)詞進行計算處理的可操作性和優(yōu)越性。吉志薇和馮敏萱[8]、田元賀和劉揚[9]嘗試?yán)谜Z素信息和構(gòu)詞規(guī)則實現(xiàn)對未登錄詞的理解和語義預(yù)測。陳龍等[10]則以語素概念和構(gòu)詞結(jié)構(gòu)為基礎(chǔ)，實現(xiàn)了對具有隱喻和轉(zhuǎn)喻現(xiàn)象的漢語非字面義詞的表示和理解。Zheng等[11-12]在語義生成和詞義消歧任務(wù)中融入了構(gòu)詞結(jié)構(gòu)信息，并取得了良好的效果。

認(rèn)識到漢語構(gòu)詞結(jié)構(gòu)在理論和應(yīng)用上的重要性，信息處理領(lǐng)域的學(xué)者開始關(guān)注構(gòu)詞結(jié)構(gòu)的自動識別，但是迄今為止開展的計算性工作依然較少: 在已有的研究中，Li[13]以句法結(jié)構(gòu)標(biāo)簽表示對構(gòu)詞結(jié)構(gòu)進行識別，Zhang等[14]利用四種常見構(gòu)詞結(jié)構(gòu)幫助識別復(fù)合詞的主體部分，孫靜等[15]根據(jù)前綴與后綴結(jié)構(gòu)構(gòu)建計算模型。這類計算中大多沿用句法層面的粗粒度標(biāo)簽，缺乏相對明晰的語言學(xué)分類標(biāo)準(zhǔn)；此外，目前的構(gòu)詞結(jié)構(gòu)識別主要利用詞間信息[16-18]，忽略了語素義和詞義等具有較強指示性的詞內(nèi)信息。

基于楊梅[7]的構(gòu)詞研究成果和劉揚等[19]的語言知識工程基礎(chǔ)，我們構(gòu)建漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集，首次采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系開展計算，提出了一種基于Bi-LSTM和self-attention的模型，以此來探究詞內(nèi)(詞、字、詞義、語素義)、詞間(上下文)等多方面信息對構(gòu)詞結(jié)構(gòu)識別的影響。該預(yù)測方法與數(shù)據(jù)集將為中文信息處理的多種任務(wù)，如語素和詞結(jié)構(gòu)分析、詞義識別與生成、語言文字研究與詞典編纂等提供新的觀點和方案。

本文組織結(jié)構(gòu)如下: 引言部分介紹漢語構(gòu)詞結(jié)構(gòu)識別的需求、現(xiàn)狀和可能的發(fā)展；第1節(jié)對相關(guān)的理論問題、數(shù)據(jù)研發(fā)與計算方法作了梳理和評述；第2節(jié)介紹本文研發(fā)的漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集；第3節(jié)給出了一種基于多種詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別方法；第4節(jié)闡述實驗結(jié)果并進行了詳細的對比分析，進一步探討了模型的泛化能力；在結(jié)語部分，總結(jié)了本文工作以及未來可以深入展開的研究方向。

1 相關(guān)工作

1.1 漢語構(gòu)詞的研究與開發(fā)

對于漢語構(gòu)詞方式，語言學(xué)界目前有語法構(gòu)詞、語義構(gòu)詞等不同看法。語法構(gòu)詞的觀點以偏正、主謂等語法結(jié)構(gòu)對構(gòu)詞成分之間的關(guān)系進行分類。郭紹虞[20]、朱德熙[3]等認(rèn)為漢語句子的構(gòu)造原則與詞的構(gòu)造原則基本一致。陸志偉[21]、趙元任[2]、王洪君[22]等學(xué)者的研究，也支持復(fù)合詞內(nèi)部結(jié)構(gòu)和句法結(jié)構(gòu)類似這一觀點。語義構(gòu)詞的觀點則強調(diào)以主體、客體等語義標(biāo)簽分析構(gòu)詞成分[23-24]。劉叔新[25]、徐通鏘[26]等認(rèn)為字與字之間是按語義關(guān)系構(gòu)成字組?；谝陨嫌^點，考慮到計算的需求，傅愛平[27]指出，雖然語義構(gòu)詞在表示詞義時有天然優(yōu)勢，但其結(jié)構(gòu)產(chǎn)生依據(jù)過于復(fù)雜，難以達成統(tǒng)一的標(biāo)簽集，因此不利于計算處理。而語法構(gòu)詞的結(jié)構(gòu)體系簡單，標(biāo)準(zhǔn)統(tǒng)一，且詞法與句法結(jié)構(gòu)有天然相似性，更適合計算處理。在語言知識工程方面，苑春法和黃昌寧[28]利用語法結(jié)構(gòu)標(biāo)簽統(tǒng)計分析復(fù)合詞的結(jié)構(gòu)、構(gòu)建語素知識庫。劉揚等[19]、陳龍等[10]依據(jù)這些前期研究，建立了以語素概念為基礎(chǔ)語義單元、涵蓋十余種構(gòu)詞結(jié)構(gòu)的漢語概念詞典。

除構(gòu)詞方式外，語言學(xué)界的另一個關(guān)注點是構(gòu)詞單位。學(xué)界普遍認(rèn)為，語素是漢語中最小的音義結(jié)合體，也是構(gòu)詞的基本單位，能夠?qū)υ~相關(guān)信息的識別與研究起到關(guān)鍵作用[29]。徐樞[30]對《現(xiàn)代漢語詞典》中語素參與組詞的數(shù)量進行了統(tǒng)計，結(jié)果表明語素在構(gòu)詞中非?；钴S，處于重要的地位。苑春法和黃昌寧[28]的統(tǒng)計結(jié)果顯示，語素在構(gòu)成名、動、形三類主要詞匯后，語素義保持原本意義的比例均高于85.0%，說明了語素義研究對理解詞義的必要性。另一方面，在信息處理中，語素對詞的分析與表達提供了有效幫助。Qiu等[31]利用語素嵌入增強詞嵌入，為缺少上下文的新詞提供表達，并在類比推理任務(wù)和詞相似度任務(wù)中證明了語素嵌入的優(yōu)勢。Cao和Rei[32]將語素及其詞內(nèi)權(quán)重納入詞嵌入的生成過程，展現(xiàn)了語素信息對新詞理解的優(yōu)勢。Lin和Liu[33]建立基于構(gòu)詞分析的語素嵌入，在語義相似度等內(nèi)部任務(wù)中相比傳統(tǒng)方法取得顯著性能提升。

1.2 漢語構(gòu)詞信息的計算與應(yīng)用

目前的中文信息處理以利用及分析詞間信息為主[16-18]，對詞內(nèi)信息的關(guān)注相對較少。以往的詞內(nèi)信息研究大體上分為三類:

第一類研究將對詞的分析細化為對字的分析，進行字符級的研究。Zhao[34]用基于字依賴的表示代替詞向量。Dong等[35]先從字進行分析，再由字組詞來代替?zhèn)鹘y(tǒng)分詞模式。Zhang等[14]在設(shè)計字符級結(jié)構(gòu)樹標(biāo)簽時考慮了主謂、動賓、聯(lián)合、偏正四種結(jié)構(gòu)，將基于詞的依賴樹擴展為基于字的結(jié)構(gòu)。Zhang等[36]利用前文的標(biāo)注結(jié)果，整合詞間句法依賴和詞內(nèi)依賴。Li等[37]捆綁了字、詞的詞性標(biāo)簽及其依賴標(biāo)簽，將字符作為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的基礎(chǔ)單元，提出了字符級依賴解析器。字符級的研究是詞內(nèi)結(jié)構(gòu)研究的熱門方向，但在語言學(xué)的視域下，構(gòu)詞的基本單位為語素，而非字符。因此，忽略了語素的字符級研究，存在語義理解與計算上的局限性。

第二類對于詞內(nèi)結(jié)構(gòu)的研究，關(guān)注介于字和詞之間的聯(lián)系，即子詞的概念。對于提取子詞，Sennrich等[38]給出了雙字節(jié)BPE編碼算法，Schuster和Nakajima[39]則提出了WordPiece詞切分算法，以概率而非頻率提取新的子詞。Kudo[40]的一元語言模型以最大化句子分詞結(jié)果概率為目標(biāo)，同時輸出分詞結(jié)果與各詞概率。Yang等[41]利用BPE算法獲得中文子詞列表，再使用Lattice-LSTM模型將子詞嵌入與字符嵌入結(jié)合。Zhang等[42]結(jié)合詞嵌入與子詞嵌入，獲得子詞增強嵌入，從而增強文本理解任務(wù)的結(jié)果。Gong等[43]建立字、子詞、詞的樹狀結(jié)構(gòu)表示，組合成HiLSTM模型，應(yīng)用于命名實體識別任務(wù)。子詞的研究在近兩年得到了研究者的關(guān)注，介于字與詞之間的粒度讓其應(yīng)用更加靈活。但子詞在語言學(xué)上沒有確切的對應(yīng)概念，這類方法更偏向統(tǒng)計學(xué)計算，而非基于語言本體的研究。

第三類研究則將詞結(jié)構(gòu)分析作為獨立的自然語言處理任務(wù)。方艷和周國棟[44]定義了詞結(jié)構(gòu)分析任務(wù)，并提出了基于層疊CRF模型的詞結(jié)構(gòu)分析方法，即在傳統(tǒng)分詞方法后，利用層疊CRF識別詞的內(nèi)部結(jié)構(gòu)。孫靜等[15]提出了基于詞綴的詞結(jié)構(gòu)分析模型，考慮了前綴式與后綴式這兩種構(gòu)詞結(jié)構(gòu)。蔣萬偉和劉娟[45]在此基礎(chǔ)上針對未登錄詞的特點，設(shè)計了一般化的特征集，試圖識別構(gòu)詞層次結(jié)構(gòu)。但這類研究并未提供語言學(xué)視域下的細粒度構(gòu)詞結(jié)構(gòu)標(biāo)簽，而更多地關(guān)注詞內(nèi)切分的位置與層次。

2 漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集

在漢語構(gòu)詞結(jié)構(gòu)識別中，我們把構(gòu)詞結(jié)構(gòu)的影響因素分為兩大類: 詞內(nèi)信息與詞間信息。

2.1 漢語的詞內(nèi)信息

漢語的詞內(nèi)信息包括詞、構(gòu)詞結(jié)構(gòu)、字、語素義與詞義。其中，詞指的是詞型(word type)，字指的是構(gòu)成詞的字型，語素義指的是構(gòu)成詞的語素的釋義，詞義指的是詞的釋義。

考慮到詞典的權(quán)威性，同時為了保證數(shù)據(jù)的覆蓋度與細粒度，我們從《現(xiàn)代漢語詞典(第五版)》(以下簡稱《現(xiàn)漢》)中收集數(shù)據(jù)。包括《現(xiàn)漢》中全部45 311個有釋義和例句的漢語二字詞(雙音節(jié)詞)詞條，其中有8 684個多義詞。我們把不同的義項視為不同的詞條，并給了每個詞條唯一的ID。以“題字1”為例，其ID為“52061-01-01”，依次代表“該詞的ID-該詞在詞典中的第幾次條目出現(xiàn)-當(dāng)前是該詞的第幾個義項”。

對于漢語構(gòu)詞結(jié)構(gòu)的劃分，從語言學(xué)的視角出發(fā)，楊梅[7]給出了18種構(gòu)詞結(jié)構(gòu)；在此基礎(chǔ)上，為了中文信息處理的應(yīng)用需求，劉揚等[19]、陳龍等[10]提出并標(biāo)注了16種構(gòu)詞結(jié)構(gòu)。根據(jù)現(xiàn)有的前期工作，我們整理了一個包含構(gòu)詞結(jié)構(gòu)及其相關(guān)信息的數(shù)據(jù)集，在輔助構(gòu)詞結(jié)構(gòu)預(yù)測任務(wù)的同時，也為下游任務(wù)提供數(shù)據(jù)資源，具體的構(gòu)詞結(jié)構(gòu)解釋和使用實例如表1所示，即: 定中、聯(lián)合、述賓、狀中、單純、連謂、后綴、述補、主謂、重疊、方位、介賓、名量、數(shù)量、前綴與復(fù)量。注意到，一些多義詞的不同義項在構(gòu)詞結(jié)構(gòu)上存在著差異，如表2列舉的“題字”一詞，當(dāng)表示“為留紀(jì)念而寫上字”時，構(gòu)詞結(jié)構(gòu)為述賓，而表示“為留紀(jì)念而寫上的字”時，構(gòu)詞結(jié)構(gòu)為定中。

表1 構(gòu)詞結(jié)構(gòu)與用例(%表示該類型的百分比)

表2 “題字”的兩個義項及釋義例句

為了區(qū)分字的不同使用及意義，即語素的情況，接下來需要對構(gòu)詞結(jié)構(gòu)下的語素成分進行義項標(biāo)注。我們從《現(xiàn)漢》中收集了8 515個漢字和20 855個語素釋義，并賦予每個語素釋義唯一的ID。表3展示了“長”字的不同語素義及其ID編碼，其中“長1”的釋義為“兩點之間的距離大”，其ID為“長1-06-01”，依次代表“該字在詞典中的第幾次條目出現(xiàn)-該條目共有幾個語素義-當(dāng)前是該條目的第幾個語素義”。

表3 “長”字的三個語素及定義示例

在此基礎(chǔ)上，我們對每個詞條的構(gòu)詞結(jié)構(gòu)與語素義進行了標(biāo)注。標(biāo)注人員包括中文系兩位教授與六名研究生，他們根據(jù)詞條釋義為每一個詞條標(biāo)注構(gòu)詞結(jié)構(gòu)并綁定對應(yīng)的語素義ID(表4)。每個詞條由三位標(biāo)注人員獨立標(biāo)注并交叉驗證，每位標(biāo)注人員在標(biāo)注的同時也會給出一個置信度。如果三位標(biāo)注人員的標(biāo)注結(jié)果完全相同，則直接收入數(shù)據(jù)集，如果三位標(biāo)注人員的標(biāo)注結(jié)果不完全相同，則由另一位標(biāo)注人員進行審閱，依據(jù)之前三位標(biāo)注人員的標(biāo)注結(jié)果與置信度決定最終標(biāo)注并收入數(shù)據(jù)集。在全部45 311個詞條中，81.92%的詞條三位標(biāo)注人員的標(biāo)注完全相同，90.86%的詞條至少兩位標(biāo)注人員的標(biāo)注完全相同。

表4 語義構(gòu)詞知識示例

2.2 漢語的詞間信息

此外，影響漢語構(gòu)詞結(jié)構(gòu)的詞間信息主要是目標(biāo)詞的上下文。在前文中提到，不同義項的多義詞可能會表現(xiàn)為不同的構(gòu)詞結(jié)構(gòu)，這也有可能體現(xiàn)在上下文的差異中?！冬F(xiàn)漢》中的例句和義項是彼此對應(yīng)的，如表2所示，對于“題字”的兩個義項，《現(xiàn)漢》中均給出了對應(yīng)的釋義與例句。我們收集了《現(xiàn)漢》中所有二字詞的例句，作為數(shù)據(jù)集中的上下文信息。綜上所述，我們最終構(gòu)建的漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集包含了詞、構(gòu)詞結(jié)構(gòu)、字、語素義、詞義與上下文，如表5中呈現(xiàn)的例子所示。

表5 構(gòu)詞相關(guān)信息示例

3 結(jié)合詞內(nèi)和詞間信息的構(gòu)詞結(jié)構(gòu)識別方法

3.1 任務(wù)描述

本文中的構(gòu)詞結(jié)構(gòu)預(yù)測屬于多分類任務(wù)，輸入一個目標(biāo)詞w*及其詞內(nèi)和詞間信息，輸出該目標(biāo)詞的構(gòu)詞結(jié)構(gòu)類別。其目標(biāo)函數(shù)如式(1)所示。

(1)

其中，m表示預(yù)測的構(gòu)詞結(jié)構(gòu)，w*為目標(biāo)詞，Ch={ch1,ch2}為目標(biāo)詞中的字,Morph={morph1,morph2}為目標(biāo)詞中的語素義,Def為目標(biāo)詞的詞義，Con為目標(biāo)詞的上下文，f(·)為構(gòu)詞結(jié)構(gòu)識別的分類器。

3.2 基于Bi-LSTM的構(gòu)詞結(jié)構(gòu)識別

為了探究詞內(nèi)和詞間信息對漢語構(gòu)詞結(jié)構(gòu)識別的影響，我們的模型架構(gòu)如圖1所示，具體包含四個部分: ①信息輸入層； ②信息編碼層，用來編碼輸入的詞內(nèi)和詞間信息； ③信息交互層，用來融合編碼信息； ④輸出層，根據(jù)編碼的信息來進行分類，輸出預(yù)測的構(gòu)詞結(jié)構(gòu)。

圖1 模型結(jié)構(gòu)圖

3.2.1 信息輸入和編碼層

在信息編碼層，我們首先對五種輸入的信息進行編碼，分別是目標(biāo)詞、字、語素義、詞義和上下文。

對于目標(biāo)詞w*和詞中的字Ch={ch1,ch2}，我們采用預(yù)訓(xùn)練的詞和字向量來進行編碼，其中，整體的字向量ch*由兩個字向量[ch1;ch2]拼接得到，作為初始輸入。

詞內(nèi)信息中的語素義Morph={morph1,morph2}、詞義Def和詞間信息的上下文Con屬于長序列輸入。為了更加有效地捕捉到長距離信息，我們利用Bi-LSTM來分別對它們進行編碼，以獲得更豐富的語義信息。LSTM模型輸入向量矩陣，利用遺忘門ft、記憶門it和輸出門ot對隱層狀態(tài)hiddent和細胞狀態(tài)cellt進行更新，經(jīng)過下列步驟來獲得隱層向量的表示，如式(2)～式(7)所示。

(8)

其中，dk表示K的維度，用于縮放保持梯度穩(wěn)定。

通過對語素義Morph、詞義Def和上下文Con進行self-attention后得到語素義編碼，利用Bi-LSTM進行編碼得到輸入，如式(9)～式(12)所示。

mori=Bi-LSTM(Self-Attention([morphi]))

(9)

mor=Wmor([mor1;mor2])+bmor

(10)

con=Bi-LSTM(Self-Attention(Con))

(11)

def=Bi-LSTM(Self-Attention(Def))

(12)

其中;表示向量拼接。最終得到目標(biāo)詞w*、字ch*、語素義morph、上下文con和詞義def，共五種編碼后的詞內(nèi)詞間信息，進入信息交互和輸出層。

3.2.2 信息交互和輸出層

在信息交互層，我們使用線性層來融合信息編碼層中獲得的特征，最后通過輸出層計算每種構(gòu)詞結(jié)構(gòu)的概率分布，并輸出識別概率最高的構(gòu)詞結(jié)構(gòu)。計算如式(13)、式(14)所示。

k=wk[w*,ch*,mor,con,def]

(13)

α=softmax(k)

(14)

其中，k表示五種詞內(nèi)和詞間信息通過線性層信息融合的結(jié)果，α表示計算得到的構(gòu)詞結(jié)構(gòu)概率。

4 實驗結(jié)果與分析

4.1 實驗設(shè)置

4.1.1 實驗數(shù)據(jù)

我們采用第2節(jié)中的數(shù)據(jù)集，將其按照8:1:1的比例分為訓(xùn)練集、驗證集與測試集，其統(tǒng)計信息如表6所示。對于多義詞，我們視為不同的詞條，保證每個多義詞僅出現(xiàn)在一個子集里。

表6 數(shù)據(jù)集統(tǒng)計信息(語素義i表示第i個語素的釋義,長度按句子的平均漢字?jǐn)?shù)計算)

4.1.2 評價指標(biāo)

構(gòu)詞結(jié)構(gòu)預(yù)測是一種多分類任務(wù)，本文使用準(zhǔn)確率和F1值作為評價指標(biāo)。其中，用TP表示預(yù)測正確的正例數(shù)，TN表示預(yù)測錯誤的正例數(shù)，F(xiàn)P表示預(yù)測正確的負(fù)例數(shù)，F(xiàn)N表示預(yù)測錯誤的負(fù)例數(shù)，準(zhǔn)確率的計算如式(15)所示。

(15)

F1值的計算如式(16)～式(18)所示。

(16)

4.1.3 參數(shù)設(shè)置

本文使用fastText[48]在中文維基百科上預(yù)訓(xùn)練的詞向量對詞進行初始化，詞向量維度為300，Bi-LSTM隱藏層的維度為300。超參的最優(yōu)值通過驗證集的結(jié)果獲得，訓(xùn)練的批次大小為128。使用的優(yōu)化器是Adam，學(xué)習(xí)率設(shè)置為10-3。

4.2 實驗結(jié)果與分析

我們首次采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系進行預(yù)測，并重復(fù)進行三次實驗取輸出結(jié)果的平均值。在驗證集和測試集上的指標(biāo)如表7所示。

表7 實驗結(jié)果

根據(jù)表中數(shù)據(jù)，我們觀察得到如下結(jié)論:

(1) 五種詞信息(包括詞內(nèi)、詞間信息)都能在一定程度上捕捉構(gòu)詞結(jié)構(gòu)知識，其準(zhǔn)確率和F1值遠超隨機基準(zhǔn)模型。最佳模型(W+Ch+Def+Morph)取得了良好的構(gòu)詞結(jié)構(gòu)識別效果，準(zhǔn)確率達77.87%，F(xiàn)1值為78.36%，證明了自動構(gòu)詞結(jié)構(gòu)識別任務(wù)的可行性。

(2) 在詞內(nèi)和詞間信息中，對構(gòu)詞結(jié)構(gòu)識別效果提升最為明顯的是語素信息(Morph)，其次是字(Ch)信息，表現(xiàn)最弱的是上下文信息(Con)。其中，相較于字信息，語素信息在準(zhǔn)確率和F1指標(biāo)上分別有13.05%和12.47%的提升，證明了語素信息能最有效地捕捉到詞內(nèi)部的構(gòu)詞結(jié)構(gòu)知識。我們認(rèn)為上下文信息表現(xiàn)最弱的原因在于其主要包含了詞與詞之間的組合關(guān)系，而相對難體現(xiàn)詞內(nèi)部狀況，因此不容易準(zhǔn)確預(yù)測構(gòu)詞結(jié)構(gòu)。

(3) 把使用全部詞內(nèi)信息(W+Ch+Def+Morph)、使用全部詞間信息(Con)和使用所有詞信息(W+Ch+Def+Morph+Con)的三種模型作比較，結(jié)果顯示，僅用詞內(nèi)信息(W+Ch+Def+Morph)就能達到構(gòu)詞結(jié)構(gòu)預(yù)測的最佳效果。和使用所有詞信息(W+Ch+Def+Morph+Con)相比，使用詞內(nèi)信息(W+Ch+Def+Morph)在準(zhǔn)確率和F1指標(biāo)上分別有3.56%和2.35%的效果提升。這不僅證明了第2點結(jié)論，即上下文信息難以準(zhǔn)確識別構(gòu)詞結(jié)構(gòu)，而且表明了上下文會帶來額外噪聲。

我們根據(jù)測試集上的最佳結(jié)果制作混淆矩陣，顏色越深代表該類別的概率越高，如圖2所示。

由于不同構(gòu)詞結(jié)構(gòu)下的詞條的數(shù)量差異較大，我們對結(jié)果進行歸一化處理。根據(jù)圖中趨勢可知:

(1) 對于定中、述賓、聯(lián)合、述補、狀中、介賓、后綴、主謂和方位這九類構(gòu)詞結(jié)構(gòu)，模型的預(yù)測準(zhǔn)確率較高?！懊俊苯Y(jié)構(gòu)的預(yù)測準(zhǔn)確率最低，可能是由于該結(jié)構(gòu)下的詞條數(shù)量最少，在訓(xùn)練時難以有效捕捉到該構(gòu)詞結(jié)構(gòu)的特點，因此預(yù)測效果較差?！皢渭儭苯Y(jié)構(gòu)的預(yù)測準(zhǔn)確率次低，可能是該構(gòu)詞結(jié)構(gòu)代表“詞是獨立的語素”(表1)，因此模型同樣無法有效地捕捉到詞的內(nèi)部結(jié)構(gòu)。

(2) 我們注意到，“連謂”和“重疊”結(jié)構(gòu)經(jīng)常被錯誤預(yù)測為“聯(lián)合”結(jié)構(gòu)，這可能是因為“連謂”“重疊”和“聯(lián)合”這三種構(gòu)詞結(jié)構(gòu)在語言學(xué)上有很強的關(guān)聯(lián)和相似性，都隱含有“前后語素地位平等”的意思，而其中“聯(lián)合”結(jié)構(gòu)的詞條在訓(xùn)練數(shù)據(jù)中占比最高，因此“連謂”和“重疊”結(jié)構(gòu)容易被錯誤預(yù)測為“聯(lián)合”結(jié)構(gòu)。這一現(xiàn)象符合語言學(xué)預(yù)期，也從側(cè)面表明我們的方法能有效捕捉到構(gòu)詞結(jié)構(gòu)的隱含特點。

根據(jù)第2節(jié)前人工作的經(jīng)驗，以上下文為代表的詞間信息能有效輔助詞義消歧、詞義生成、詞義識別等常見語義任務(wù)。然而，對于語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)識別任務(wù)，上述的實驗結(jié)論表明上下文的貢獻較小。這種情況說明，語義構(gòu)詞識別任務(wù)和其他常見語義任務(wù)在性質(zhì)和特征體現(xiàn)方面有不同的狀況和趨向。

為了進一步探究上下文對于構(gòu)詞結(jié)構(gòu)識別的有效性，我們額外進行了針對上下文的穩(wěn)定性實驗。在實際下游任務(wù)應(yīng)用中，可能存在上下文的信息量有限、質(zhì)量難以保障的情況，因此我們設(shè)計了上下文替換模板，將訓(xùn)練集中的上下文替換成低信息量、低質(zhì)量的句子。我們使用jieba庫對上下文中的目標(biāo)詞標(biāo)注詞性，庫中包含名詞、形容詞、動詞、數(shù)詞、方位詞等28種詞性，并針對每種詞性設(shè)計了不同的替換模板。以部分詞性為例的上下文替換模板如表8所示。

表8 上下文替換模板(其中[w*]和舉例中下劃線的部分表示目標(biāo)詞)

實驗結(jié)果顯示，利用模板替換后，僅用上下文的漢語構(gòu)詞結(jié)構(gòu)識別在測試集上的準(zhǔn)確率為43.62%，F(xiàn)1值為51.38%，相較替換之前分別降低了4.07%和3.22%；用所有詞內(nèi)和詞間信息的漢語構(gòu)詞結(jié)構(gòu)識別在測試集上的準(zhǔn)確率為71.39%，F(xiàn)1值為73.20%，相較替換之前分別降低了3.80%和3.36%。上述結(jié)果表明，雖然上下文能夠提供一定的句法、詞義信息并輔助漢語構(gòu)詞結(jié)構(gòu)識別，但是其有效性嚴(yán)重依賴于上下文的信息量和質(zhì)量，而這些在實際下游任務(wù)應(yīng)用中無法保障。因此，對于構(gòu)詞結(jié)構(gòu)識別任務(wù)，上下文具有較強的不穩(wěn)定性，且容易帶來額外噪聲。

4.3 關(guān)于模型泛化能力的討論

為驗證本方法的泛化能力，我們進一步在新詞上展開實驗。

新詞的特殊性在于其催生出了新的詞型或義項，也可能衍生出了新的語素義，這些給構(gòu)詞結(jié)構(gòu)識別帶來了挑戰(zhàn)。為了評估本文方法在新詞構(gòu)詞結(jié)構(gòu)識別上的效果，我們構(gòu)建了一個小規(guī)模的新詞數(shù)據(jù)集。其中，新詞及詞義來源于中文維基百科(1)https://dumps.wikimedia.org/zhwiki。我們篩選了維基百科標(biāo)簽或釋義中帶有“新詞”或“流行語”且未收入《現(xiàn)漢》的詞條，最后選取了覆蓋不同領(lǐng)域的100個詞條。此外，考慮這里面缺少了“名量”等結(jié)構(gòu)的樣例，為了保證數(shù)據(jù)在構(gòu)詞結(jié)構(gòu)上的分布一致，我們從王鈞熙[49]的《漢語新詞詞典: 2005-2010》中挑選了特定結(jié)構(gòu)的部分詞條，也加入到數(shù)據(jù)集中去，共計得到108個新詞。新詞的上下文提取自微博(2)https://weibo.com，并經(jīng)過人工篩選以保證新詞在上下文中的語義與釋義一致。同時，我們對每個新詞的構(gòu)詞結(jié)構(gòu)進行了人工標(biāo)注。

最終，數(shù)據(jù)集中的每個詞條包含: ①新詞，②構(gòu)詞結(jié)構(gòu)，③新詞釋義，④語素義，⑤上下文。這些新詞的來源覆蓋了科技、經(jīng)濟、政治、生活、藝術(shù)、體育等多個領(lǐng)域。在表9中，給出了一個新詞的示例，其中“菜”的語素義標(biāo)注為“(空)”，這是因為目前的《現(xiàn)漢》中缺乏針對此類新衍生出的語素義的定義。

表9 新詞及構(gòu)詞相關(guān)信息示例

實驗結(jié)果顯示，使用詞、字、語素義、詞義和上下文信息的方法(W+Ch+Def+ Morph+Con)在新詞測試集上的準(zhǔn)確率為68.89%，F(xiàn)1值為67.93%?？紤]到上下文信息可能帶來噪聲，去除上下文后，在新詞測試集上的準(zhǔn)確率上升到69.92%，F(xiàn)1值上升到68.78%。這兩個實驗結(jié)果，遠高于隨機基準(zhǔn)模型的效果，且符合主實驗中以往漢語詞匯的表現(xiàn)趨勢，這說明本文方法可以進一步衍生到新詞的構(gòu)詞結(jié)構(gòu)識別中去。

對比主實驗中以往漢語詞匯上的最佳結(jié)果(表7)，新詞數(shù)據(jù)集上的結(jié)果分別降低了10.21%(準(zhǔn)確率)和12.23%(F1值)。我們猜想，導(dǎo)致這一現(xiàn)象的原因主要有兩方面: 1)大部分新詞存在隱喻、轉(zhuǎn)喻等非字面義[10]，例如，“社畜”表示“社會底層上班族”而非“社會的牲畜”，“巨嬰”表示“心理不成熟的成年人”而非“巨大的嬰兒”。這些非字面義削弱了詞和詞義之間的直接聯(lián)系，從而減低了算法中詞義信息表達的有效性； 2)此外，受限于新詞中語素義的新的衍生與發(fā)展，部分語素?zé)o法在《現(xiàn)漢》中找到對應(yīng)的語素義。例如，表9中的“菜”，表示“弱；差”的概念，“賣萌”中的“萌”，表示“可愛”的概念，但在目前的《現(xiàn)漢》中均沒有對應(yīng)的語素義。

這種情況表明，現(xiàn)有語素的語義空間劃分存在缺憾，無法覆蓋新詞中可能衍生出的語素義。在構(gòu)詞結(jié)構(gòu)識別之后，通過計算性手段，有可能推測出新衍生出的語素義，為漢語語言文字研究和詞典編纂提供幫助。

5 結(jié)語

本文旨在探究基于詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別，我們采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系，構(gòu)建漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集，提出了一種基于Bi-LSTM和self-attention的模型，以此來探究詞內(nèi)和詞間等多種信息對構(gòu)詞結(jié)構(gòu)識別的影響，其中，詞內(nèi)信息包括詞、構(gòu)詞結(jié)構(gòu)、字、語素義和詞義，詞間信息為上下文。

實驗取得了良好的預(yù)測效果，對比測試揭示，詞內(nèi)的語素義信息對構(gòu)詞結(jié)構(gòu)識別具有顯著的貢獻，而詞間的上下文信息貢獻較弱，且?guī)в休^強的不穩(wěn)定性。同時，為了證明模型的泛化能力，我們進一步將模型推廣到新詞的構(gòu)詞結(jié)構(gòu)識別任務(wù)，并取得了良好的效果。

在未來工作中，該預(yù)測方法與數(shù)據(jù)集，將為中文信息處理的多種任務(wù)，如語素和詞結(jié)構(gòu)分析、詞義識別與生成、語言文字研究與詞典編纂等提供新的觀點和方案。我們計劃將構(gòu)詞結(jié)構(gòu)識別融入中文信息處理的下游任務(wù)，以進一步提升應(yīng)用系統(tǒng)的性能。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看