• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別研究

      2022-06-21 08:30:32殷雅琦代達勱
      中文信息學(xué)報 2022年5期
      關(guān)鍵詞:構(gòu)詞詞條語素

      鄭 婳,劉 揚,殷雅琦 ,王 悅,代達勱

      (1. 北京大學(xué) 計算機學(xué)院,北京 100871;2. 北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京 100871)

      0 引言

      漢語構(gòu)詞結(jié)構(gòu)的研究由來已久,從《馬氏文通》[1]開始,涉及語法、詞匯學(xué)的論著大都關(guān)注構(gòu)詞的話題,該問題對漢語語言學(xué)的重要性不言而喻。趙元任[2]、朱德熙[3]等學(xué)者指出,詞的結(jié)構(gòu)是影響詞義的一個重要因素。譚景春[4]、曹煒[5]等深入分析了漢語詞在結(jié)構(gòu)組配過程中的意義和貢獻。蘇寶榮[6]進一步指出結(jié)構(gòu)能夠從句法、詞法和新詞義生成三個層面對語言產(chǎn)生影響。

      面向中文信息處理的需求,楊梅[7]給出了一套較為完善的構(gòu)詞結(jié)構(gòu)標(biāo)簽,并證明了采用構(gòu)詞進行計算處理的可操作性和優(yōu)越性。吉志薇和馮敏萱[8]、田元賀和劉揚[9]嘗試?yán)谜Z素信息和構(gòu)詞規(guī)則實現(xiàn)對未登錄詞的理解和語義預(yù)測。陳龍等[10]則以語素概念和構(gòu)詞結(jié)構(gòu)為基礎(chǔ),實現(xiàn)了對具有隱喻和轉(zhuǎn)喻現(xiàn)象的漢語非字面義詞的表示和理解。Zheng等[11-12]在語義生成和詞義消歧任務(wù)中融入了構(gòu)詞結(jié)構(gòu)信息,并取得了良好的效果。

      認(rèn)識到漢語構(gòu)詞結(jié)構(gòu)在理論和應(yīng)用上的重要性,信息處理領(lǐng)域的學(xué)者開始關(guān)注構(gòu)詞結(jié)構(gòu)的自動識別,但是迄今為止開展的計算性工作依然較少: 在已有的研究中,Li[13]以句法結(jié)構(gòu)標(biāo)簽表示對構(gòu)詞結(jié)構(gòu)進行識別,Zhang等[14]利用四種常見構(gòu)詞結(jié)構(gòu)幫助識別復(fù)合詞的主體部分,孫靜等[15]根據(jù)前綴與后綴結(jié)構(gòu)構(gòu)建計算模型。這類計算中大多沿用句法層面的粗粒度標(biāo)簽,缺乏相對明晰的語言學(xué)分類標(biāo)準(zhǔn);此外,目前的構(gòu)詞結(jié)構(gòu)識別主要利用詞間信息[16-18],忽略了語素義和詞義等具有較強指示性的詞內(nèi)信息。

      基于楊梅[7]的構(gòu)詞研究成果和劉揚等[19]的語言知識工程基礎(chǔ),我們構(gòu)建漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集,首次采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系開展計算,提出了一種基于Bi-LSTM和self-attention的模型,以此來探究詞內(nèi)(詞、字、詞義、語素義)、詞間(上下文)等多方面信息對構(gòu)詞結(jié)構(gòu)識別的影響。該預(yù)測方法與數(shù)據(jù)集將為中文信息處理的多種任務(wù),如語素和詞結(jié)構(gòu)分析、詞義識別與生成、語言文字研究與詞典編纂等提供新的觀點和方案。

      本文組織結(jié)構(gòu)如下: 引言部分介紹漢語構(gòu)詞結(jié)構(gòu)識別的需求、現(xiàn)狀和可能的發(fā)展;第1節(jié)對相關(guān)的理論問題、數(shù)據(jù)研發(fā)與計算方法作了梳理和評述;第2節(jié)介紹本文研發(fā)的漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集;第3節(jié)給出了一種基于多種詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別方法;第4節(jié)闡述實驗結(jié)果并進行了詳細的對比分析,進一步探討了模型的泛化能力;在結(jié)語部分,總結(jié)了本文工作以及未來可以深入展開的研究方向。

      1 相關(guān)工作

      1.1 漢語構(gòu)詞的研究與開發(fā)

      對于漢語構(gòu)詞方式,語言學(xué)界目前有語法構(gòu)詞、語義構(gòu)詞等不同看法。語法構(gòu)詞的觀點以偏正、主謂等語法結(jié)構(gòu)對構(gòu)詞成分之間的關(guān)系進行分類。郭紹虞[20]、朱德熙[3]等認(rèn)為漢語句子的構(gòu)造原則與詞的構(gòu)造原則基本一致。陸志偉[21]、趙元任[2]、王洪君[22]等學(xué)者的研究,也支持復(fù)合詞內(nèi)部結(jié)構(gòu)和句法結(jié)構(gòu)類似這一觀點。語義構(gòu)詞的觀點則強調(diào)以主體、客體等語義標(biāo)簽分析構(gòu)詞成分[23-24]。劉叔新[25]、徐通鏘[26]等認(rèn)為字與字之間是按語義關(guān)系構(gòu)成字組?;谝陨嫌^點,考慮到計算的需求,傅愛平[27]指出,雖然語義構(gòu)詞在表示詞義時有天然優(yōu)勢,但其結(jié)構(gòu)產(chǎn)生依據(jù)過于復(fù)雜,難以達成統(tǒng)一的標(biāo)簽集,因此不利于計算處理。而語法構(gòu)詞的結(jié)構(gòu)體系簡單,標(biāo)準(zhǔn)統(tǒng)一,且詞法與句法結(jié)構(gòu)有天然相似性,更適合計算處理。在語言知識工程方面,苑春法和黃昌寧[28]利用語法結(jié)構(gòu)標(biāo)簽統(tǒng)計分析復(fù)合詞的結(jié)構(gòu)、構(gòu)建語素知識庫。劉揚等[19]、陳龍等[10]依據(jù)這些前期研究,建立了以語素概念為基礎(chǔ)語義單元、涵蓋十余種構(gòu)詞結(jié)構(gòu)的漢語概念詞典。

      除構(gòu)詞方式外,語言學(xué)界的另一個關(guān)注點是構(gòu)詞單位。學(xué)界普遍認(rèn)為,語素是漢語中最小的音義結(jié)合體,也是構(gòu)詞的基本單位,能夠?qū)υ~相關(guān)信息的識別與研究起到關(guān)鍵作用[29]。徐樞[30]對《現(xiàn)代漢語詞典》中語素參與組詞的數(shù)量進行了統(tǒng)計,結(jié)果表明語素在構(gòu)詞中非?;钴S,處于重要的地位。苑春法和黃昌寧[28]的統(tǒng)計結(jié)果顯示,語素在構(gòu)成名、動、形三類主要詞匯后,語素義保持原本意義的比例均高于85.0%,說明了語素義研究對理解詞義的必要性。另一方面,在信息處理中,語素對詞的分析與表達提供了有效幫助。Qiu等[31]利用語素嵌入增強詞嵌入,為缺少上下文的新詞提供表達,并在類比推理任務(wù)和詞相似度任務(wù)中證明了語素嵌入的優(yōu)勢。Cao和Rei[32]將語素及其詞內(nèi)權(quán)重納入詞嵌入的生成過程,展現(xiàn)了語素信息對新詞理解的優(yōu)勢。Lin和Liu[33]建立基于構(gòu)詞分析的語素嵌入,在語義相似度等內(nèi)部任務(wù)中相比傳統(tǒng)方法取得顯著性能提升。

      1.2 漢語構(gòu)詞信息的計算與應(yīng)用

      目前的中文信息處理以利用及分析詞間信息為主[16-18],對詞內(nèi)信息的關(guān)注相對較少。以往的詞內(nèi)信息研究大體上分為三類:

      第一類研究將對詞的分析細化為對字的分析,進行字符級的研究。Zhao[34]用基于字依賴的表示代替詞向量。Dong等[35]先從字進行分析,再由字組詞來代替?zhèn)鹘y(tǒng)分詞模式。Zhang等[14]在設(shè)計字符級結(jié)構(gòu)樹標(biāo)簽時考慮了主謂、動賓、聯(lián)合、偏正四種結(jié)構(gòu),將基于詞的依賴樹擴展為基于字的結(jié)構(gòu)。Zhang等[36]利用前文的標(biāo)注結(jié)果,整合詞間句法依賴和詞內(nèi)依賴。Li等[37]捆綁了字、詞的詞性標(biāo)簽及其依賴標(biāo)簽,將字符作為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的基礎(chǔ)單元,提出了字符級依賴解析器。字符級的研究是詞內(nèi)結(jié)構(gòu)研究的熱門方向,但在語言學(xué)的視域下,構(gòu)詞的基本單位為語素,而非字符。因此,忽略了語素的字符級研究,存在語義理解與計算上的局限性。

      第二類對于詞內(nèi)結(jié)構(gòu)的研究,關(guān)注介于字和詞之間的聯(lián)系,即子詞的概念。對于提取子詞,Sennrich等[38]給出了雙字節(jié)BPE編碼算法,Schuster和Nakajima[39]則提出了WordPiece詞切分算法,以概率而非頻率提取新的子詞。Kudo[40]的一元語言模型以最大化句子分詞結(jié)果概率為目標(biāo),同時輸出分詞結(jié)果與各詞概率。Yang等[41]利用BPE算法獲得中文子詞列表,再使用Lattice-LSTM模型將子詞嵌入與字符嵌入結(jié)合。Zhang等[42]結(jié)合詞嵌入與子詞嵌入,獲得子詞增強嵌入,從而增強文本理解任務(wù)的結(jié)果。Gong等[43]建立字、子詞、詞的樹狀結(jié)構(gòu)表示,組合成HiLSTM模型,應(yīng)用于命名實體識別任務(wù)。子詞的研究在近兩年得到了研究者的關(guān)注,介于字與詞之間的粒度讓其應(yīng)用更加靈活。但子詞在語言學(xué)上沒有確切的對應(yīng)概念,這類方法更偏向統(tǒng)計學(xué)計算,而非基于語言本體的研究。

      第三類研究則將詞結(jié)構(gòu)分析作為獨立的自然語言處理任務(wù)。方艷和周國棟[44]定義了詞結(jié)構(gòu)分析任務(wù),并提出了基于層疊CRF模型的詞結(jié)構(gòu)分析方法,即在傳統(tǒng)分詞方法后,利用層疊CRF識別詞的內(nèi)部結(jié)構(gòu)。孫靜等[15]提出了基于詞綴的詞結(jié)構(gòu)分析模型,考慮了前綴式與后綴式這兩種構(gòu)詞結(jié)構(gòu)。蔣萬偉和劉娟[45]在此基礎(chǔ)上針對未登錄詞的特點,設(shè)計了一般化的特征集,試圖識別構(gòu)詞層次結(jié)構(gòu)。但這類研究并未提供語言學(xué)視域下的細粒度構(gòu)詞結(jié)構(gòu)標(biāo)簽,而更多地關(guān)注詞內(nèi)切分的位置與層次。

      2 漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集

      在漢語構(gòu)詞結(jié)構(gòu)識別中,我們把構(gòu)詞結(jié)構(gòu)的影響因素分為兩大類: 詞內(nèi)信息與詞間信息。

      2.1 漢語的詞內(nèi)信息

      漢語的詞內(nèi)信息包括詞、構(gòu)詞結(jié)構(gòu)、字、語素義與詞義。其中,詞指的是詞型(word type),字指的是構(gòu)成詞的字型,語素義指的是構(gòu)成詞的語素的釋義,詞義指的是詞的釋義。

      考慮到詞典的權(quán)威性,同時為了保證數(shù)據(jù)的覆蓋度與細粒度,我們從《現(xiàn)代漢語詞典(第五版)》(以下簡稱《現(xiàn)漢》)中收集數(shù)據(jù)。包括《現(xiàn)漢》中全部45 311個有釋義和例句的漢語二字詞(雙音節(jié)詞)詞條,其中有8 684個多義詞。我們把不同的義項視為不同的詞條,并給了每個詞條唯一的ID。以“題字1”為例,其ID為“52061-01-01”,依次代表“該詞的ID-該詞在詞典中的第幾次條目出現(xiàn)-當(dāng)前是該詞的第幾個義項”。

      對于漢語構(gòu)詞結(jié)構(gòu)的劃分,從語言學(xué)的視角出發(fā),楊梅[7]給出了18種構(gòu)詞結(jié)構(gòu);在此基礎(chǔ)上,為了中文信息處理的應(yīng)用需求,劉揚等[19]、陳龍等[10]提出并標(biāo)注了16種構(gòu)詞結(jié)構(gòu)。根據(jù)現(xiàn)有的前期工作,我們整理了一個包含構(gòu)詞結(jié)構(gòu)及其相關(guān)信息的數(shù)據(jù)集,在輔助構(gòu)詞結(jié)構(gòu)預(yù)測任務(wù)的同時,也為下游任務(wù)提供數(shù)據(jù)資源,具體的構(gòu)詞結(jié)構(gòu)解釋和使用實例如表1所示,即: 定中、聯(lián)合、述賓、狀中、單純、連謂、后綴、述補、主謂、重疊、方位、介賓、名量、數(shù)量、前綴與復(fù)量。注意到,一些多義詞的不同義項在構(gòu)詞結(jié)構(gòu)上存在著差異,如表2列舉的“題字”一詞,當(dāng)表示“為留紀(jì)念而寫上字”時,構(gòu)詞結(jié)構(gòu)為述賓,而表示“為留紀(jì)念而寫上的字”時,構(gòu)詞結(jié)構(gòu)為定中。

      表1 構(gòu)詞結(jié)構(gòu)與用例(%表示該類型的百分比)

      表2 “題字”的兩個義項及釋義例句

      為了區(qū)分字的不同使用及意義,即語素的情況,接下來需要對構(gòu)詞結(jié)構(gòu)下的語素成分進行義項標(biāo)注。我們從《現(xiàn)漢》中收集了8 515個漢字和20 855個語素釋義,并賦予每個語素釋義唯一的ID。表3展示了“長”字的不同語素義及其ID編碼,其中“長1”的釋義為“兩點之間的距離大”,其ID為“長1-06-01”,依次代表“該字在詞典中的第幾次條目出現(xiàn)-該條目共有幾個語素義-當(dāng)前是該條目的第幾個語素義”。

      表3 “長”字的三個語素及定義示例

      在此基礎(chǔ)上,我們對每個詞條的構(gòu)詞結(jié)構(gòu)與語素義進行了標(biāo)注。標(biāo)注人員包括中文系兩位教授與六名研究生,他們根據(jù)詞條釋義為每一個詞條標(biāo)注構(gòu)詞結(jié)構(gòu)并綁定對應(yīng)的語素義ID(表4)。每個詞條由三位標(biāo)注人員獨立標(biāo)注并交叉驗證,每位標(biāo)注人員在標(biāo)注的同時也會給出一個置信度。如果三位標(biāo)注人員的標(biāo)注結(jié)果完全相同,則直接收入數(shù)據(jù)集,如果三位標(biāo)注人員的標(biāo)注結(jié)果不完全相同,則由另一位標(biāo)注人員進行審閱,依據(jù)之前三位標(biāo)注人員的標(biāo)注結(jié)果與置信度決定最終標(biāo)注并收入數(shù)據(jù)集。在全部45 311個詞條中,81.92%的詞條三位標(biāo)注人員的標(biāo)注完全相同,90.86%的詞條至少兩位標(biāo)注人員的標(biāo)注完全相同。

      表4 語義構(gòu)詞知識示例

      2.2 漢語的詞間信息

      此外,影響漢語構(gòu)詞結(jié)構(gòu)的詞間信息主要是目標(biāo)詞的上下文。在前文中提到,不同義項的多義詞可能會表現(xiàn)為不同的構(gòu)詞結(jié)構(gòu),這也有可能體現(xiàn)在上下文的差異中?!冬F(xiàn)漢》中的例句和義項是彼此對應(yīng)的,如表2所示,對于“題字”的兩個義項,《現(xiàn)漢》中均給出了對應(yīng)的釋義與例句。我們收集了《現(xiàn)漢》中所有二字詞的例句,作為數(shù)據(jù)集中的上下文信息。綜上所述,我們最終構(gòu)建的漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集包含了詞、構(gòu)詞結(jié)構(gòu)、字、語素義、詞義與上下文,如表5中呈現(xiàn)的例子所示。

      表5 構(gòu)詞相關(guān)信息示例

      3 結(jié)合詞內(nèi)和詞間信息的構(gòu)詞結(jié)構(gòu)識別方法

      3.1 任務(wù)描述

      本文中的構(gòu)詞結(jié)構(gòu)預(yù)測屬于多分類任務(wù),輸入一個目標(biāo)詞w*及其詞內(nèi)和詞間信息,輸出該目標(biāo)詞的構(gòu)詞結(jié)構(gòu)類別。其目標(biāo)函數(shù)如式(1)所示。

      (1)

      其中,m表示預(yù)測的構(gòu)詞結(jié)構(gòu),w*為目標(biāo)詞,Ch={ch1,ch2}為目標(biāo)詞中的字,Morph={morph1,morph2}為目標(biāo)詞中的語素義,Def為目標(biāo)詞的詞義,Con為目標(biāo)詞的上下文,f(·)為構(gòu)詞結(jié)構(gòu)識別的分類器。

      3.2 基于Bi-LSTM的構(gòu)詞結(jié)構(gòu)識別

      為了探究詞內(nèi)和詞間信息對漢語構(gòu)詞結(jié)構(gòu)識別的影響,我們的模型架構(gòu)如圖1所示,具體包含四個部分: ①信息輸入層; ②信息編碼層,用來編碼輸入的詞內(nèi)和詞間信息; ③信息交互層,用來融合編碼信息; ④輸出層,根據(jù)編碼的信息來進行分類,輸出預(yù)測的構(gòu)詞結(jié)構(gòu)。

      圖1 模型結(jié)構(gòu)圖

      3.2.1 信息輸入和編碼層

      在信息編碼層,我們首先對五種輸入的信息進行編碼,分別是目標(biāo)詞、字、語素義、詞義和上下文。

      對于目標(biāo)詞w*和詞中的字Ch={ch1,ch2},我們采用預(yù)訓(xùn)練的詞和字向量來進行編碼,其中,整體的字向量ch*由兩個字向量[ch1;ch2]拼接得到,作為初始輸入。

      詞內(nèi)信息中的語素義Morph={morph1,morph2}、詞義Def和詞間信息的上下文Con屬于長序列輸入。為了更加有效地捕捉到長距離信息,我們利用Bi-LSTM來分別對它們進行編碼,以獲得更豐富的語義信息。LSTM模型輸入向量矩陣,利用遺忘門ft、記憶門it和輸出門ot對隱層狀態(tài)hiddent和細胞狀態(tài)cellt進行更新,經(jīng)過下列步驟來獲得隱層向量的表示,如式(2)~式(7)所示。

      (8)

      其中,dk表示K的維度,用于縮放保持梯度穩(wěn)定。

      通過對語素義Morph、詞義Def和上下文Con進行self-attention后得到語素義編碼,利用Bi-LSTM進行編碼得到輸入,如式(9)~式(12)所示。

      mori=Bi-LSTM(Self-Attention([morphi]))

      (9)

      mor=Wmor([mor1;mor2])+bmor

      (10)

      con=Bi-LSTM(Self-Attention(Con))

      (11)

      def=Bi-LSTM(Self-Attention(Def))

      (12)

      其中;表示向量拼接。最終得到目標(biāo)詞w*、字ch*、語素義morph、上下文con和詞義def,共五種編碼后的詞內(nèi)詞間信息,進入信息交互和輸出層。

      3.2.2 信息交互和輸出層

      在信息交互層,我們使用線性層來融合信息編碼層中獲得的特征,最后通過輸出層計算每種構(gòu)詞結(jié)構(gòu)的概率分布,并輸出識別概率最高的構(gòu)詞結(jié)構(gòu)。計算如式(13)、式(14)所示。

      k=wk[w*,ch*,mor,con,def]

      (13)

      α=softmax(k)

      (14)

      其中,k表示五種詞內(nèi)和詞間信息通過線性層信息融合的結(jié)果,α表示計算得到的構(gòu)詞結(jié)構(gòu)概率。

      4 實驗結(jié)果與分析

      4.1 實驗設(shè)置

      4.1.1 實驗數(shù)據(jù)

      我們采用第2節(jié)中的數(shù)據(jù)集,將其按照8:1:1的比例分為訓(xùn)練集、驗證集與測試集,其統(tǒng)計信息如表6所示。對于多義詞,我們視為不同的詞條,保證每個多義詞僅出現(xiàn)在一個子集里。

      表6 數(shù)據(jù)集統(tǒng)計信息(語素義i表示第i個語素的釋義,長度按句子的平均漢字?jǐn)?shù)計算)

      4.1.2 評價指標(biāo)

      構(gòu)詞結(jié)構(gòu)預(yù)測是一種多分類任務(wù),本文使用準(zhǔn)確率和F1值作為評價指標(biāo)。其中,用TP表示預(yù)測正確的正例數(shù),TN表示預(yù)測錯誤的正例數(shù),F(xiàn)P表示預(yù)測正確的負(fù)例數(shù),F(xiàn)N表示預(yù)測錯誤的負(fù)例數(shù),準(zhǔn)確率的計算如式(15)所示。

      (15)

      F1值的計算如式(16)~式(18)所示。

      (16)

      4.1.3 參數(shù)設(shè)置

      本文使用fastText[48]在中文維基百科上預(yù)訓(xùn)練的詞向量對詞進行初始化,詞向量維度為300,Bi-LSTM隱藏層的維度為300。超參的最優(yōu)值通過驗證集的結(jié)果獲得,訓(xùn)練的批次大小為128。使用的優(yōu)化器是Adam,學(xué)習(xí)率設(shè)置為10-3。

      4.2 實驗結(jié)果與分析

      我們首次采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系進行預(yù)測,并重復(fù)進行三次實驗取輸出結(jié)果的平均值。在驗證集和測試集上的指標(biāo)如表7所示。

      表7 實驗結(jié)果

      根據(jù)表中數(shù)據(jù),我們觀察得到如下結(jié)論:

      (1) 五種詞信息(包括詞內(nèi)、詞間信息)都能在一定程度上捕捉構(gòu)詞結(jié)構(gòu)知識,其準(zhǔn)確率和F1值遠超隨機基準(zhǔn)模型。最佳模型(W+Ch+Def+Morph)取得了良好的構(gòu)詞結(jié)構(gòu)識別效果,準(zhǔn)確率達77.87%,F(xiàn)1值為78.36%,證明了自動構(gòu)詞結(jié)構(gòu)識別任務(wù)的可行性。

      (2) 在詞內(nèi)和詞間信息中,對構(gòu)詞結(jié)構(gòu)識別效果提升最為明顯的是語素信息(Morph),其次是字(Ch)信息,表現(xiàn)最弱的是上下文信息(Con)。其中,相較于字信息,語素信息在準(zhǔn)確率和F1指標(biāo)上分別有13.05%和12.47%的提升,證明了語素信息能最有效地捕捉到詞內(nèi)部的構(gòu)詞結(jié)構(gòu)知識。我們認(rèn)為上下文信息表現(xiàn)最弱的原因在于其主要包含了詞與詞之間的組合關(guān)系,而相對難體現(xiàn)詞內(nèi)部狀況,因此不容易準(zhǔn)確預(yù)測構(gòu)詞結(jié)構(gòu)。

      (3) 把使用全部詞內(nèi)信息(W+Ch+Def+Morph)、使用全部詞間信息(Con)和使用所有詞信息(W+Ch+Def+Morph+Con)的三種模型作比較,結(jié)果顯示,僅用詞內(nèi)信息(W+Ch+Def+Morph)就能達到構(gòu)詞結(jié)構(gòu)預(yù)測的最佳效果。和使用所有詞信息(W+Ch+Def+Morph+Con)相比,使用詞內(nèi)信息(W+Ch+Def+Morph)在準(zhǔn)確率和F1指標(biāo)上分別有3.56%和2.35%的效果提升。這不僅證明了第2點結(jié)論,即上下文信息難以準(zhǔn)確識別構(gòu)詞結(jié)構(gòu),而且表明了上下文會帶來額外噪聲。

      我們根據(jù)測試集上的最佳結(jié)果制作混淆矩陣,顏色越深代表該類別的概率越高,如圖2所示。

      由于不同構(gòu)詞結(jié)構(gòu)下的詞條的數(shù)量差異較大,我們對結(jié)果進行歸一化處理。根據(jù)圖中趨勢可知:

      (1) 對于定中、述賓、聯(lián)合、述補、狀中、介賓、后綴、主謂和方位這九類構(gòu)詞結(jié)構(gòu),模型的預(yù)測準(zhǔn)確率較高?!懊俊苯Y(jié)構(gòu)的預(yù)測準(zhǔn)確率最低,可能是由于該結(jié)構(gòu)下的詞條數(shù)量最少,在訓(xùn)練時難以有效捕捉到該構(gòu)詞結(jié)構(gòu)的特點,因此預(yù)測效果較差?!皢渭儭苯Y(jié)構(gòu)的預(yù)測準(zhǔn)確率次低,可能是該構(gòu)詞結(jié)構(gòu)代表“詞是獨立的語素”(表1),因此模型同樣無法有效地捕捉到詞的內(nèi)部結(jié)構(gòu)。

      (2) 我們注意到,“連謂”和“重疊”結(jié)構(gòu)經(jīng)常被錯誤預(yù)測為“聯(lián)合”結(jié)構(gòu),這可能是因為“連謂”“重疊”和“聯(lián)合”這三種構(gòu)詞結(jié)構(gòu)在語言學(xué)上有很強的關(guān)聯(lián)和相似性,都隱含有“前后語素地位平等”的意思,而其中“聯(lián)合”結(jié)構(gòu)的詞條在訓(xùn)練數(shù)據(jù)中占比最高,因此“連謂”和“重疊”結(jié)構(gòu)容易被錯誤預(yù)測為“聯(lián)合”結(jié)構(gòu)。這一現(xiàn)象符合語言學(xué)預(yù)期,也從側(cè)面表明我們的方法能有效捕捉到構(gòu)詞結(jié)構(gòu)的隱含特點。

      根據(jù)第2節(jié)前人工作的經(jīng)驗,以上下文為代表的詞間信息能有效輔助詞義消歧、詞義生成、詞義識別等常見語義任務(wù)。然而,對于語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)識別任務(wù),上述的實驗結(jié)論表明上下文的貢獻較小。這種情況說明,語義構(gòu)詞識別任務(wù)和其他常見語義任務(wù)在性質(zhì)和特征體現(xiàn)方面有不同的狀況和趨向。

      為了進一步探究上下文對于構(gòu)詞結(jié)構(gòu)識別的有效性,我們額外進行了針對上下文的穩(wěn)定性實驗。在實際下游任務(wù)應(yīng)用中,可能存在上下文的信息量有限、質(zhì)量難以保障的情況,因此我們設(shè)計了上下文替換模板,將訓(xùn)練集中的上下文替換成低信息量、低質(zhì)量的句子。我們使用jieba庫對上下文中的目標(biāo)詞標(biāo)注詞性,庫中包含名詞、形容詞、動詞、數(shù)詞、方位詞等28種詞性,并針對每種詞性設(shè)計了不同的替換模板。以部分詞性為例的上下文替換模板如表8所示。

      表8 上下文替換模板(其中[w*]和舉例中下劃線的部分表示目標(biāo)詞)

      實驗結(jié)果顯示,利用模板替換后,僅用上下文的漢語構(gòu)詞結(jié)構(gòu)識別在測試集上的準(zhǔn)確率為43.62%,F(xiàn)1值為51.38%,相較替換之前分別降低了4.07%和3.22%;用所有詞內(nèi)和詞間信息的漢語構(gòu)詞結(jié)構(gòu)識別在測試集上的準(zhǔn)確率為71.39%,F(xiàn)1值為73.20%,相較替換之前分別降低了3.80%和3.36%。上述結(jié)果表明,雖然上下文能夠提供一定的句法、詞義信息并輔助漢語構(gòu)詞結(jié)構(gòu)識別,但是其有效性嚴(yán)重依賴于上下文的信息量和質(zhì)量,而這些在實際下游任務(wù)應(yīng)用中無法保障。因此,對于構(gòu)詞結(jié)構(gòu)識別任務(wù),上下文具有較強的不穩(wěn)定性,且容易帶來額外噪聲。

      4.3 關(guān)于模型泛化能力的討論

      為驗證本方法的泛化能力,我們進一步在新詞上展開實驗。

      新詞的特殊性在于其催生出了新的詞型或義項,也可能衍生出了新的語素義,這些給構(gòu)詞結(jié)構(gòu)識別帶來了挑戰(zhàn)。為了評估本文方法在新詞構(gòu)詞結(jié)構(gòu)識別上的效果,我們構(gòu)建了一個小規(guī)模的新詞數(shù)據(jù)集。其中,新詞及詞義來源于中文維基百科(1)https://dumps.wikimedia.org/zhwiki。我們篩選了維基百科標(biāo)簽或釋義中帶有“新詞”或“流行語”且未收入《現(xiàn)漢》的詞條,最后選取了覆蓋不同領(lǐng)域的100個詞條。此外,考慮這里面缺少了“名量”等結(jié)構(gòu)的樣例,為了保證數(shù)據(jù)在構(gòu)詞結(jié)構(gòu)上的分布一致,我們從王鈞熙[49]的《漢語新詞詞典: 2005-2010》中挑選了特定結(jié)構(gòu)的部分詞條,也加入到數(shù)據(jù)集中去,共計得到108個新詞。新詞的上下文提取自微博(2)https://weibo.com,并經(jīng)過人工篩選以保證新詞在上下文中的語義與釋義一致。同時,我們對每個新詞的構(gòu)詞結(jié)構(gòu)進行了人工標(biāo)注。

      最終,數(shù)據(jù)集中的每個詞條包含: ①新詞,②構(gòu)詞結(jié)構(gòu),③新詞釋義,④語素義,⑤上下文。這些新詞的來源覆蓋了科技、經(jīng)濟、政治、生活、藝術(shù)、體育等多個領(lǐng)域。在表9中,給出了一個新詞的示例,其中“菜”的語素義標(biāo)注為“(空)”,這是因為目前的《現(xiàn)漢》中缺乏針對此類新衍生出的語素義的定義。

      表9 新詞及構(gòu)詞相關(guān)信息示例

      實驗結(jié)果顯示,使用詞、字、語素義、詞義和上下文信息的方法(W+Ch+Def+ Morph+Con)在新詞測試集上的準(zhǔn)確率為68.89%,F(xiàn)1值為67.93%??紤]到上下文信息可能帶來噪聲,去除上下文后,在新詞測試集上的準(zhǔn)確率上升到69.92%,F(xiàn)1值上升到68.78%。這兩個實驗結(jié)果,遠高于隨機基準(zhǔn)模型的效果,且符合主實驗中以往漢語詞匯的表現(xiàn)趨勢,這說明本文方法可以進一步衍生到新詞的構(gòu)詞結(jié)構(gòu)識別中去。

      對比主實驗中以往漢語詞匯上的最佳結(jié)果(表7),新詞數(shù)據(jù)集上的結(jié)果分別降低了10.21%(準(zhǔn)確率)和12.23%(F1值)。我們猜想,導(dǎo)致這一現(xiàn)象的原因主要有兩方面: 1)大部分新詞存在隱喻、轉(zhuǎn)喻等非字面義[10],例如,“社畜”表示“社會底層上班族”而非“社會的牲畜”,“巨嬰”表示“心理不成熟的成年人”而非“巨大的嬰兒”。這些非字面義削弱了詞和詞義之間的直接聯(lián)系,從而減低了算法中詞義信息表達的有效性; 2)此外,受限于新詞中語素義的新的衍生與發(fā)展,部分語素?zé)o法在《現(xiàn)漢》中找到對應(yīng)的語素義。例如,表9中的“菜”,表示“弱;差”的概念,“賣萌”中的“萌”,表示“可愛”的概念,但在目前的《現(xiàn)漢》中均沒有對應(yīng)的語素義。

      這種情況表明,現(xiàn)有語素的語義空間劃分存在缺憾,無法覆蓋新詞中可能衍生出的語素義。在構(gòu)詞結(jié)構(gòu)識別之后,通過計算性手段,有可能推測出新衍生出的語素義,為漢語語言文字研究和詞典編纂提供幫助。

      5 結(jié)語

      本文旨在探究基于詞信息嵌入的漢語構(gòu)詞結(jié)構(gòu)識別,我們采用語言學(xué)視域下的構(gòu)詞結(jié)構(gòu)標(biāo)簽體系,構(gòu)建漢語構(gòu)詞結(jié)構(gòu)及相關(guān)信息數(shù)據(jù)集,提出了一種基于Bi-LSTM和self-attention的模型,以此來探究詞內(nèi)和詞間等多種信息對構(gòu)詞結(jié)構(gòu)識別的影響,其中,詞內(nèi)信息包括詞、構(gòu)詞結(jié)構(gòu)、字、語素義和詞義,詞間信息為上下文。

      實驗取得了良好的預(yù)測效果,對比測試揭示,詞內(nèi)的語素義信息對構(gòu)詞結(jié)構(gòu)識別具有顯著的貢獻,而詞間的上下文信息貢獻較弱,且?guī)в休^強的不穩(wěn)定性。同時,為了證明模型的泛化能力,我們進一步將模型推廣到新詞的構(gòu)詞結(jié)構(gòu)識別任務(wù),并取得了良好的效果。

      在未來工作中,該預(yù)測方法與數(shù)據(jù)集,將為中文信息處理的多種任務(wù),如語素和詞結(jié)構(gòu)分析、詞義識別與生成、語言文字研究與詞典編纂等提供新的觀點和方案。我們計劃將構(gòu)詞結(jié)構(gòu)識別融入中文信息處理的下游任務(wù),以進一步提升應(yīng)用系統(tǒng)的性能。

      猜你喜歡
      構(gòu)詞詞條語素
      從構(gòu)詞詞源看英漢時空性差異
      《最低入門等級音節(jié)、漢字、詞匯表》語素和語素義分析
      多義語素識別及教學(xué)探討
      ——針對對外漢語語素教學(xué)構(gòu)想
      長江叢刊(2020年30期)2020-11-19 09:48:13
      語素的判定、分類及語法單位關(guān)系研究述評
      因果復(fù)合詞
      認(rèn)知視野下“好”、“壞”構(gòu)詞的對稱性研究
      2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
      “分”的音變構(gòu)詞及其句法語義特征
      2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
      天柱县| 萨迦县| 金沙县| 宝兴县| 龙川县| 南丰县| 剑阁县| 深水埗区| 溧水县| 和顺县| 伊川县| 北流市| 乌什县| 三原县| 泸西县| 祥云县| 秭归县| 寿光市| 东至县| 中阳县| 沿河| 永仁县| 方正县| 武乡县| 宁南县| 安徽省| 星座| 西华县| 大同市| 遂宁市| 丹江口市| 科技| 团风县| 图们市| 读书| 万宁市| 澎湖县| 厦门市| 江北区| 类乌齐县| 张北县|