• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      命名實(shí)體識(shí)別任務(wù)針對(duì)中文的適應(yīng)性研究

      2020-11-18 14:00:18張文濤
      現(xiàn)代計(jì)算機(jī) 2020年28期
      關(guān)鍵詞:部首分詞字符

      張文濤

      (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

      0 引言

      命名實(shí)體識(shí)別(NER)是許多自然語言處理下游任務(wù)(關(guān)系提取、知識(shí)圖譜等)的基礎(chǔ),其旨在從非結(jié)構(gòu)化文本中識(shí)別命名實(shí)體,如人員、位置、產(chǎn)品和組織名稱等。

      目前,高性能的NER 模型均基于神經(jīng)網(wǎng)絡(luò)。Ham?merton(2003)[1]提出了基于LSTM 的模型,首次將神經(jīng)網(wǎng)絡(luò)引入NER 任務(wù)中。Lample 等人(2016)[2]提出了基于BiLSTM-CRF 的模型,獲得了較好的性能。Ma 和Hovy(2016)[3]在此基礎(chǔ)上引入了CNN 來計(jì)算字符級(jí)嵌入。由于中文的特殊性,當(dāng)上述NER 模型應(yīng)用于中文時(shí)存在一些障礙。

      問題1:中文是一種符號(hào)語言,其字形蘊(yùn)含了豐富的意義信息?,F(xiàn)有的高性能NER 系統(tǒng)主要針對(duì)英文設(shè)計(jì),無法利用中文的字形信息。

      問題2:中文不存在明顯的單詞邊界?,F(xiàn)有的高性能NER 系統(tǒng)應(yīng)用于中文時(shí)需要首先進(jìn)行分詞操作,然后對(duì)單詞序列進(jìn)行標(biāo)記[4]。然而,中文分詞系統(tǒng)不可避免地會(huì)產(chǎn)生一些錯(cuò)誤的分詞,進(jìn)而對(duì)下游NER 任務(wù)產(chǎn)生負(fù)面影響[5]。

      問題3:高性能神經(jīng)網(wǎng)絡(luò)通常需要在一個(gè)非常大的標(biāo)注數(shù)據(jù)集上進(jìn)行訓(xùn)練。目前,中文NER 數(shù)據(jù)集主要有TAC-KBP/ EDL Track(2015-2017)、ACE 2005、SIGHAN bakeoff 2006 NER MSRA、微博NER 等??偟膩碚f,標(biāo)注數(shù)據(jù)量比較少,各個(gè)數(shù)據(jù)集的內(nèi)容類型(新聞、廣播、微博)、標(biāo)注的實(shí)體類型均有所不同。

      針對(duì)問題1:本文介紹了利用字形信息的兩種思路。第一種思路,從視覺角度來抽取字形信息;第二種思路,從字符的部首組成角度來抽取字形信息。

      針對(duì)問題2:本文介紹了利用詞匯信息的兩種方法。第一種方法,基于LSTM 變體。第二種方法,基于圖模型。

      針對(duì)問題3:本文介紹了利用不同任務(wù)的數(shù)據(jù)集、不同域的數(shù)據(jù)集來提高中文NER 模型性能的方法。

      1 利用字形信息

      漢語是一種符號(hào)語言,其字形蘊(yùn)含了豐富的意義信息。然而,主流的嵌入表示計(jì)算方法[6](連續(xù)詞袋模型、Skip-Gram 模型等),均無法抽取中文字符蘊(yùn)含的字形信息。

      針對(duì)這一問題,主要有兩種思路:

      第一種思路,以Yuxian Meng 等人(2018)[7]為代表,從視覺角度來抽取字形信息;第二種思路,以Dong 等人(2016)[8]為代表,從字符的部首組成角度來抽取字形信息。

      1.1 視覺角度利用字形信息

      Yuxian Meng 等人(2018)[7]提出了Glyce 模型,從兩個(gè)方面入手充分抽取字形信息。

      在數(shù)據(jù)方面:漢字有著悠久的進(jìn)化歷史。經(jīng)歷數(shù)次簡化的現(xiàn)代中文,已經(jīng)丟失了大量的象形文字信息。通過收集不同歷史時(shí)期(金文、隸書、篆書、魏碑、繁體中文、簡體中文)、不同書寫風(fēng)格(宋體、草書、隸書)的文字,來整合各種象形文字的特征并提高模型的概括能力。

      在模型架構(gòu)方面:相較于其他任務(wù)漢字字符圖像的尺寸較小,這導(dǎo)致使用普通CNN 的性能不佳。通過采用適合漢字字符嵌入任務(wù)的田字格-CNN 架構(gòu),提高模型抽取字形信息的能力。

      1.2 部首組成角度利用字形信息

      一個(gè)漢字字符通常可以分解為多個(gè)部首。這些部首是構(gòu)成漢字意義的最基本單位,是漢字的內(nèi)在特征,具有附加的語義信息。含有相同部首的字符通常具有相似的意義。如“鐵”、“銅”和“金”都具有與金屬相關(guān)的意義,因?yàn)樗鼈兒泄餐牟渴住敖稹?。利用部首信息可以使具有相似部首序列的字符在向量空間中彼此靠近。

      Dong 等人(2016)[8]提出了基于BLSTM-CRF 的部首模型,將漢字字符分解為部首序列。

      對(duì)于一個(gè)漢字字符:首先,將其分解為一系列較小的部首。其次,利用漢字的書寫順序,將組成該漢字的部首排成一個(gè)部首序列。再次,對(duì)部首序列應(yīng)用雙向LSTM 進(jìn)行處理,得到兩個(gè)方向的狀態(tài)序列。最后,連接兩個(gè)方向最后時(shí)刻的狀態(tài)作為字符的嵌入。

      2 利用詞匯信息

      目前,最先進(jìn)的NER 系統(tǒng)通常以單詞為操作單位。當(dāng)應(yīng)用于中文文本時(shí),首先要使用現(xiàn)有的中文分詞系統(tǒng)對(duì)文本進(jìn)行分詞,然后對(duì)單詞序列進(jìn)行標(biāo)記。然而,中文分詞系統(tǒng)不可避免地會(huì)產(chǎn)生一些錯(cuò)誤,進(jìn)而對(duì)NER 任務(wù)產(chǎn)生負(fù)面影響。

      針對(duì)這一問題,主流思路為:使用以字符為操作單位的模型,同時(shí)借助詞匯特征來使用單詞邊界信息。目前,針對(duì)該思路主要有兩種建模方法:

      第一種方法,以Zhang 和Yang(2018)[9]為代表,基于序列建模,使用LSTM 的一種變體。

      第二種方法,以Gui 等人(2018)[10]為代表,基于圖模型。

      2.1 基于序列建模

      Zhang 和Yang(2018)[9]介紹了一種長期短期記憶網(wǎng)絡(luò)(Lattice LSTM)的變體(如圖1 所示),聯(lián)合建模字符序列及其所有匹配的單詞,充分利用了詞匯的邊界信息。模型基于字符的LSTM-CRF 網(wǎng)絡(luò),借助Lattice LSTM 將單詞信息集成到單詞的開始字符和結(jié)束字符之間的一個(gè)快捷路徑中。Lattice LSTM 中的門控單元可以將詞匯信息從不同路徑動(dòng)態(tài)路由到每個(gè)字符,自動(dòng)控制句子從開始到結(jié)束的信息流動(dòng)。通過訓(xùn)練,Lat?tice LSTM 可以學(xué)會(huì)自動(dòng)從上下文中查找更多有用的單詞,從而獲得更好的性能。

      圖1 Lattice LSTM模型

      該模型存在著一些問題:①門機(jī)制有時(shí)無法選擇正確的路徑,極端情況下可能會(huì)導(dǎo)致模型退化為部分基于單詞的模型。②每個(gè)字符都有一個(gè)可變大小的候選單詞集,這意味著輸入和輸出路徑的數(shù)量是不固定的。在這種情況下,Lattice LSTM 模型失去了批訓(xùn)練的能力。

      圖2 WC-LSTM模型

      Liu 等人(2019)[11]針對(duì)上述問題,提出了WCLSTM 模型(如圖2 所示)。針對(duì)模型退化問題:直接將單詞信息分配給單個(gè)字符(前向WC-LSTM 的結(jié)束字符和后向WC-LSTM 的開始字符),并確保字符之間沒有快捷路徑。針對(duì)批處理問題:引入四種策略從不同的單詞中提取固定大小的有用信息,保證模型在不丟失單詞信息的情況下進(jìn)行批量訓(xùn)練。

      發(fā)動(dòng)機(jī) ....................................................................4.0升水平對(duì)置6缸自然吸氣

      2.2 基于圖建模

      Gui 等人(2019)[10]介紹了一種圖神經(jīng)網(wǎng)絡(luò)(如圖3所示),利用詞匯信息將句子轉(zhuǎn)換為有向圖,并將中文NER 作為節(jié)點(diǎn)分類任務(wù)來實(shí)現(xiàn)。

      圖3 基于詞匯的圖神經(jīng)網(wǎng)絡(luò)模型

      給定詞典和輸入句子,將句子轉(zhuǎn)換為有向圖分為三個(gè)步驟:第一步,找出句子中與詞典匹配的單詞集合。第二步,將每個(gè)字符作為有向圖的節(jié)點(diǎn)。第三步,對(duì)于匹配的每個(gè)單詞,將其第一個(gè)字符和最后一個(gè)字符連接起來作為有向圖的邊。

      有向圖中每個(gè)節(jié)點(diǎn)的狀態(tài)表示文本序列中對(duì)應(yīng)令牌的特征,每個(gè)邊的狀態(tài)表示對(duì)應(yīng)的匹配單詞的特征。有向圖中還存在一個(gè)全局中繼節(jié)點(diǎn),其連接所有節(jié)點(diǎn)和邊,收集句子的全局信息。

      3 利用跨域跨任務(wù)信息

      目前,最先進(jìn)的NER 系統(tǒng)通?;谏窠?jīng)網(wǎng)絡(luò)。高性能神經(jīng)網(wǎng)絡(luò)通常需要在一個(gè)非常大的標(biāo)注數(shù)據(jù)集上進(jìn)行訓(xùn)練。在命名實(shí)體識(shí)別中,通常沒有足夠的領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)來直接訓(xùn)練模型?,F(xiàn)有的中文NER 數(shù)據(jù)集包括TAC-KBP/EDL Track(2015-2017)、ACE 2005、SIGHAN bakeoff 2006 NER MSRA、微博NER 等??偟膩碚f,中文NER 數(shù)據(jù)集的總量較少,各個(gè)數(shù)據(jù)集的內(nèi)容類型(新聞、廣播、微博)和標(biāo)注的實(shí)體類型不盡相同。

      針對(duì)這一問題,主要有兩種思路:

      第一種思路,利用其他域的標(biāo)注數(shù)據(jù)集。目前,中文NER 主要集中在正式文本(新聞)、非正式文本(微博、郵件等)兩個(gè)領(lǐng)域。因?yàn)闃?biāo)簽分布的差異,不能直接將源域上訓(xùn)練的模型應(yīng)用到目標(biāo)域。借助領(lǐng)域適應(yīng)技術(shù),充分利用源領(lǐng)域豐富數(shù)據(jù),提高目標(biāo)領(lǐng)域的性能。

      第二種思路,利用其他任務(wù)的標(biāo)注數(shù)據(jù)集。與NER 相比,中文分詞(CWS)的標(biāo)注訓(xùn)練數(shù)據(jù)量非常豐富。鑒于兩個(gè)任務(wù)存在一些相似性,可以嘗試使用中文分詞任務(wù)的信息來改進(jìn)中文實(shí)體識(shí)別任務(wù)的性能。

      3.1 利用其他域的標(biāo)注數(shù)據(jù)集

      第一種方法(如圖4 所示):以Lee 等人(2017)[12]為代表,目標(biāo)域和源域使用相同結(jié)構(gòu)的模型。具體步驟為:首先,使用來自源域的標(biāo)注數(shù)據(jù)來訓(xùn)練模型;然后,使用學(xué)習(xí)到的參數(shù)來初始化目標(biāo)模型;最后,使用來自目標(biāo)域的標(biāo)注數(shù)據(jù)來優(yōu)化初始化的目標(biāo)模型。

      圖4 參數(shù)初始化方法

      第二種方法(如圖5 所示):以Yang 等人(2017)[13]為代表,基于多任務(wù)學(xué)習(xí),使用目標(biāo)域和源域的標(biāo)注數(shù)據(jù)同時(shí)訓(xùn)練兩個(gè)模型。除CRF 層外,兩個(gè)模型在訓(xùn)練過程中共享其他參數(shù)。

      圖5 類多任務(wù)學(xué)習(xí)方法

      上述兩種方法存在一個(gè)共性問題:針對(duì)源域和目標(biāo)域進(jìn)行訓(xùn)練時(shí),模型使用通用的嵌入。這樣的操作基于一個(gè)假設(shè):輸入特征空間沒有發(fā)生域移位。然而,當(dāng)兩個(gè)領(lǐng)域具有明顯不同的語言風(fēng)格并且涉及大量領(lǐng)域特定的術(shù)語時(shí),這樣的假設(shè)可能是錯(cuò)誤的。

      針對(duì)這一問題:第一步,我們?cè)谠从蚝湍繕?biāo)域的標(biāo)注數(shù)據(jù)集上分別進(jìn)行訓(xùn)練,得到兩個(gè)領(lǐng)域特定的嵌入。第二步,引入單詞適應(yīng)層(Lin 等人,2018)[14],將目標(biāo)域嵌入空間中學(xué)習(xí)到的嵌入內(nèi)容投影到源域嵌入空間中。

      3.2 利用其他任務(wù)的標(biāo)注數(shù)據(jù)集

      中文分詞(CWS)的任務(wù)是識(shí)別單詞邊界。中文NER 的任務(wù)可以分解為識(shí)別單詞邊界和判斷實(shí)體類型兩個(gè)部分。兩個(gè)任務(wù)存在一定的相似性,也存在著一些差別。

      圖6 中文分詞任務(wù)與中文命名實(shí)體識(shí)別任務(wù)

      將兩個(gè)任務(wù)共享的信息稱為任務(wù)共享信息,將任務(wù)單獨(dú)使用的信息稱為任務(wù)特定信息。我們的目標(biāo)是最大化的利用中文分詞任務(wù)中的任務(wù)共享信息,同時(shí)過濾掉中文分詞任務(wù)的任務(wù)特定信息。

      圖7 對(duì)抗性遷移學(xué)習(xí)模型

      針對(duì)這一目標(biāo),以Cao 等人(2018)[15]為代表,提出了對(duì)抗性遷移學(xué)習(xí)模型(如圖7 所示)。模型由四個(gè)部分組成:分別為嵌入層、特征抽取器、CRF 層、任務(wù)鑒別器。

      嵌入層將輸入的字符序列轉(zhuǎn)換為嵌入表示序列,兩個(gè)任務(wù)各自使用獨(dú)立的嵌入層。

      特征抽取層使用BLSTM 和注意機(jī)制進(jìn)行信息抽取,由任務(wù)特定信息(中文分詞)、任務(wù)特定信息(中文NER)、任務(wù)共享信息三個(gè)部分組成,分別抽取兩個(gè)任務(wù)的任務(wù)特定特征、任務(wù)共享的單詞邊界特征。

      任務(wù)特定CRF 層使用特征抽取層抽取的任務(wù)特定信息和任務(wù)共享信息進(jìn)行標(biāo)簽預(yù)測,由任務(wù)特定CRF 層(中文分詞)、任務(wù)特定CRF 層(中文NER)兩部分組成。兩個(gè)任務(wù)各自使用獨(dú)立的CRF 層。

      任務(wù)鑒別器使用任務(wù)共享信息來判斷句子來自于哪個(gè)任務(wù)的數(shù)據(jù)集。當(dāng)任務(wù)鑒別器無法判斷句子的來源時(shí),意味著模型已經(jīng)將任務(wù)特定信息和任務(wù)共享信息區(qū)分開來。

      4 結(jié)語

      在針對(duì)中文的NER 算法中,研究人員已經(jīng)提出了各種算法來解決中文的特殊性。本文介紹了,利用中文字符字形信息的嵌入表示方法、利用中文詞匯信息的模型架構(gòu)和利用其他任務(wù)、其他域的標(biāo)注數(shù)據(jù)的方法。未來如何進(jìn)一步提高中文NER 任務(wù)的性能,值得研究人員進(jìn)一步去探索。

      猜你喜歡
      部首分詞字符
      部首歌
      尋找更強(qiáng)的字符映射管理器
      弄清偏旁與部首
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      結(jié)巴分詞在詞云中的應(yīng)用
      補(bǔ)
      消失的殖民村莊和神秘字符
      值得重視的分詞的特殊用法
      同部首的字
      高唐县| 洪江市| 普宁市| 德化县| 孙吴县| 南丹县| 黄山市| 荣昌县| 靖西县| 赣州市| 康马县| 松阳县| 成武县| 灵山县| 巴彦县| 社旗县| 西乌| 施甸县| 滦平县| 临夏县| 资阳市| 黔南| 五大连池市| 钟祥市| 六枝特区| 修水县| 海安县| 娄烦县| 太仓市| 高碑店市| 林甸县| 枣强县| 乌拉特前旗| 金乡县| 湘潭市| 安乡县| 孟州市| 西峡县| 南木林县| 砚山县| 长垣县|