戴洪濤 侯開虎 周洲 肖靈云
摘 ?要: 自然語言處理(NLP)旨在如何讓計(jì)算機(jī)更好的理解人類的語言,但是在自然語言中句段、詞匯本身存在多義和歧義,計(jì)算機(jī)無法將其轉(zhuǎn)換為能識(shí)別的二進(jìn)制編碼,這是當(dāng)下NLP領(lǐng)域內(nèi)存在的最大問題。本文將Viterbi算法的詞性標(biāo)注模型、CBOW語言模型及K-Means聚類算法組合,構(gòu)建一種基于詞向量的多義詞組合消歧模型(VCK-Vector)。通過詞性分布對比、語義相關(guān)度任務(wù)和聚類效果分析等方法評(píng)測模型,最后通過百度AI詞向量與模型輸出結(jié)果進(jìn)行對比。結(jié)果顯示基于VCK-vector模型在實(shí)際場景運(yùn)用中是可行的。
關(guān)鍵詞:?自然語言處理;多義詞消歧;VCK-vector模型
中圖分類號(hào): TP391.9????文獻(xiàn)標(biāo)識(shí)碼:?A????DOI:10.3969/j.issn.1003-6970.2020.02.029
【Abstract】: Natural Language Processing (NLP) aims to make computers better understand human language. However in natural language,there are polysemy and ambiguity in sentence segment and vocabulary,?and computers cannot convert them into recognizable binary codes. This is the biggest problem in the field of NLP.This paper combined the part of speech tagging model of Viterbi algorithm, CBOW language model and K-Means clustering algorithm to construct a polysemous word combination disambiguation model (VCK-Vector) based on word vector. The model was evaluated by comparing part-of-speech distribution, semantic correlation task and clustering effect analysis. Finally, Baidu AI word vector was compared with the output of the model. The results are showed that the paper propose polysemous word combination disambiguation model (VCK-Vector) based is feasible in scene application.
【Key words】: Natural language processing; Polysemy disambiguation; VCK-vector model
0??引言
中文同一個(gè)句子、詞匯在不同場景運(yùn)用會(huì)表達(dá)出不同的含義,使計(jì)算機(jī)準(zhǔn)確分辨不同的語義是一件很困難的事情。讓計(jì)算機(jī)消除詞匯中的歧義,理解人類語言是自然語言處理領(lǐng)域的核心任務(wù)。針對計(jì)算機(jī)如何在處理中文多義詞消除歧義的問題,國外的研究起步較早,1986年Hinton等人就提出了One-hot表示法的雛形,雖然運(yùn)用了神經(jīng)網(wǎng)絡(luò)來獲取信息,但是還未上升到自然語言處理的高度,僅僅是把符號(hào)映射在N維空間中[1]。隨后,Benigo等人通過神經(jīng)網(wǎng)絡(luò)建立了概率語言模型,然而此模型在訓(xùn)練前指定的上下文范圍十分有限,并缺乏對時(shí)序信息進(jìn)行建模,不符合自然語言處理文本信息的要求[2]。另外,Mnih A.和Hin G提出了于語言知識(shí)無關(guān)的構(gòu)建詞類二叉樹的方法[3]。Zheng X等人基于先前的研究結(jié)果,將神經(jīng)網(wǎng)絡(luò)框架應(yīng)用到了中文領(lǐng)域[4]。Mikolov等人首次提出了CBOW模型與Skip-gram兩個(gè)模型[5]。Lin Qiu使用POS標(biāo)注的方法區(qū)分一詞多詞性的詞向量[6]。最近,Seifollahi, Saeed和Shajari, Mehdi提出了利用詞義消歧來分析新聞標(biāo)題具體含義[7]。中文相較于英文的詞匯消歧方法稍有不同,主要分為兩個(gè)方向。其一,基于概率統(tǒng)計(jì)學(xué)將算法和模型組合于消歧任務(wù)中,王旭陽等人通過對詞語預(yù)處理、詞語構(gòu)建及相似度排序等三個(gè)步驟,將中文網(wǎng)頁數(shù)據(jù)進(jìn)行映射[8-13]。李國佳等人通過K-Means聚類的方法標(biāo)記類別,并訓(xùn)練相關(guān)的語料集,可得到多義詞每個(gè)詞義的詞向量[14]。其二,構(gòu)建多義詞詞典以其為標(biāo)準(zhǔn)用來消歧,基于Lesk算法[15]產(chǎn)生了相關(guān)的改進(jìn)算法,王永生以詞義詞典WordNet為對照,通過對多義詞的詞義打分,采用得分最高的詞義作為最終的詞義[16]。除了上述研究成果外,李小濤等人基于多義詞詞典的詞義分解和同義擴(kuò)展來進(jìn)行消歧[17]。卞月峰通過多義詞典進(jìn)行詞義標(biāo)注并將其用作訓(xùn)練集,該方法在消歧目標(biāo)上具有較高準(zhǔn)確率[18-23]。綜上所述,國內(nèi)許多學(xué)者對多義詞消歧的兩個(gè)方向均有研究,基于概率統(tǒng)計(jì)學(xué)的詞義消歧方法,靈活性好,消歧效率高,但是消歧任務(wù)為語料庫體量和類別所制約,其準(zhǔn)確性較低?;谡Z義詞典的方法準(zhǔn)確率較高,但構(gòu)建詞典需耗費(fèi)大量的工作,效率難以提高,并且消歧方法單一,改進(jìn)難度大。兩個(gè)方向各有利弊,但是核心問題及亟需改善的地方在于:(1)如何將中文多義詞的特征進(jìn)行提取;(2)如何對大型中文語料庫中的多義詞進(jìn)行消歧?;谝陨戏治?,本文將基于概率統(tǒng)計(jì)學(xué)的詞義消歧方法,構(gòu)建多義詞組合消歧模型對語料庫中的多義詞詞義消歧,通過該模型確定中文多義詞的具體詞義。本文從以下幾個(gè)方面展開研究:(1)中文詞語如何以向量化方式表征;(2)將Viterbi算法的詞性標(biāo)注模型與N-gram詞性標(biāo)注模型標(biāo)注的結(jié)果對比,分析實(shí)驗(yàn);(3)構(gòu)建基于VCK-vector的組合消歧模型;(4)將本文的組合模型與其它模型的結(jié)果對比,驗(yàn)證模型的可行性。
1??NLP相關(guān)理論方法
1.1 ?N-gram模型
在自然語言處理中N-gram模型是一個(gè)十分常見的理論方法,其實(shí)質(zhì)是基于條件概率公式的貝葉斯判別模型,假設(shè)有一句由n個(gè)詞語組成的句子S=(w1,w2,…,wn),假設(shè)每個(gè)詞wi都依賴于從第一個(gè)詞w1到wi之前的詞wi-1,那么可得整個(gè)句子S的概率為:
1.2??CBOW語言模型
連續(xù)詞袋模型(continuous bag of words,簡稱CBOW)為了解決詞語向量化的問題,CBOW模型使用二分類的方法多次判斷目標(biāo)詞。其本質(zhì)就是將多個(gè)隱藏層減少到了一個(gè)隱藏層。若關(guān)鍵詞W上下文中有[a, b, c, d, e, f, g, h]8個(gè)分類,那么就先將其進(jìn)行二分類,先判斷W是屬于[a, b, c, d]還是[e, f, g, h]。首先如果判斷出W屬于[e, f, g, h],那么就再進(jìn)一步判斷是W屬于[e, f]還是[g, h],這樣進(jìn)行多次二分類,直到最終將W分配到某個(gè)分類中去。如果按二分類的方法來定位詞語,就可以把計(jì)算單個(gè)詞語的時(shí)間復(fù)雜度從o(h*N)降為o(h*logN),從而達(dá)到大幅度減少計(jì)算量和降低時(shí)間復(fù)雜度的目標(biāo)。
1.3??Viterbi算法
Viterbi算法是自然語言處理中常用的分詞和詞性標(biāo)注方法,其實(shí)質(zhì)是利用動(dòng)態(tài)規(guī)劃的思想去尋找復(fù)雜網(wǎng)狀路徑中最大概率最短路徑的方法。馬爾科夫鏈的求解引入了Viterbi算法利用動(dòng)態(tài)規(guī)劃的思路來求解最大概率最短路徑,使復(fù)雜度降為O(N*D),有效減少了計(jì)算量。其算法思想如圖3所示。
1.4 ?K-Means聚類
K-Means聚類的原理是在分類未開始之前在所有樣本中隨機(jī)選取K個(gè)樣本作為初始的聚類中心,然后計(jì)算每個(gè)樣本與聚類中心的距離,將每個(gè)樣本按照距離分給其離的最近的聚類中心,然后每個(gè)類簇的聚類中心又會(huì)根據(jù)類簇內(nèi)的樣本重新計(jì)算,直到所有樣本都被分配完成。重復(fù)以上過程,直到滿足終止條件,聚類完成。本文用K-Means聚類處理的詞向量是n維空間向量,因此設(shè)K個(gè)初始聚類中心向量為:{O1,O2,…Ok},空間中各個(gè)點(diǎn)的向量為xi, i=1,2,3,…,n。則各個(gè)點(diǎn)xi到各個(gè)聚類中心的距離為,將xi歸為最小d所對應(yīng)的類別λi中,此時(shí)更新聚類簇
。然后對于每個(gè)聚類簇C,重新計(jì)算其聚類中心Oj,計(jì)算公式如2-32所示。直到所有的聚類中心都不在變化,輸出聚類結(jié)果C={C1,C2,…,Ck}。
2??VCK-vector模型的構(gòu)建
中文自然語言處理相較于英語更加復(fù)雜,英語可從時(shí)態(tài)中提取相關(guān)特征信息,但中文卻沒有這些特點(diǎn)。因此需要新的方法將中文多義詞的特征表示出來。
2.1??模型的構(gòu)建流程
首先針對具有不同詞性的中文多義詞,消歧模型根據(jù)詞性的不同,將其在語料庫中標(biāo)注出來,再由語言模型訓(xùn)練語料庫,具有不同詞性的多義詞就可以根據(jù)其詞性將其分為兩個(gè)詞向量,并且其上下文也是不一樣的。之后針對只有一個(gè)詞性但是含義不同的多義詞則需要確定其具體的含義完成消歧任務(wù),消歧模型通過聚類的方法將只有一個(gè)詞性的多義詞結(jié)合其上下文來分析其具體含義。因此需要構(gòu)建的消歧模型是一種結(jié)合詞性標(biāo)注模型、語言模型和聚類算法的組合消歧模型。根據(jù)消歧模型的消歧原理,構(gòu)建消歧模型可以分為三個(gè)部分,第一個(gè)部分用于將語料庫中的不同詞性多義詞根據(jù)詞性對其進(jìn)行區(qū)分;第二個(gè)部分用于將區(qū)分過后的多義詞進(jìn)行向量化來提取出中文多義詞的特征;第三個(gè)部分通過對向量化后的多義詞及其相關(guān)上下文進(jìn)行聚類的方式完成對只有一個(gè)詞性但具有不同含義的多義詞消歧任務(wù)。圖4為構(gòu)建模型的流程圖。
相較于其他基于統(tǒng)計(jì)概率的消歧方法所構(gòu)建的多義詞消歧模型,該消歧模型是從多義詞的詞性出發(fā),將多義詞人為地分為了兩種類別,然后分別采用詞性標(biāo)注模型與聚類算法解決兩種類別的多義詞消歧問題,這是其它單純使用詞向量來進(jìn)行多義詞消歧的模型所缺乏的,也是該模型的“再創(chuàng)新”之處。
2.2??上下文特征提取
在中文里某個(gè)句子或某個(gè)段落中的詞的含義是根據(jù)周圍的若干個(gè)詞或句子所組成的語境來決定的。多義詞消歧任務(wù)的第一步,應(yīng)該是提取歧義詞的上下文特征,即從目標(biāo)詞w的句子周圍收集n-1個(gè)詞,這些詞也被稱為語境詞。通過提取分析這些詞所含有的信息,將其抽象為統(tǒng)一的特征表達(dá),從而通過這些特征來對多義詞進(jìn)行消歧。上下文的范圍在自然語言處理中也被叫做“窗口”的大小。范圍的選取應(yīng)該根據(jù)特征提取模型的特點(diǎn)而定,不是固定不變的。吳云芳等人[24]把《現(xiàn)代漢語語法詞典》中的語法特征進(jìn)行了提取并應(yīng)用到消歧模型中,使得同形詞的平均消歧正確率達(dá)到了90%以上。Mihalcea[25]等人將語義依賴關(guān)系特征提取出來轉(zhuǎn)化為語義連接圖,并使用了隨機(jī)游走策略對多義詞進(jìn)行了消歧。盧志茂[26]等人又將語句依存關(guān)系與貝葉斯模型進(jìn)行結(jié)合,有效解決了原貝葉斯分類模型中特征較弱的上下文對消歧任務(wù)造成的噪聲影響。
針對詞義消歧的問題,本文采用CBOW模型,從輸入層到隱藏層是將目標(biāo)詞w周圍的n-1個(gè)詞作為輸入并進(jìn)行求和平均,不需要將窗口范圍設(shè)置過大,只需要w左邊的兩個(gè)詞與右邊的兩個(gè)詞就已足夠,所以設(shè)置窗口大小為5。如果窗口范圍設(shè)置過大,會(huì)導(dǎo)致隱藏層得到的求和平均向量所包含的輸入過多,導(dǎo)致丟失掉其中一部分信息。而CBOW模型一開始是將所有輸入的詞向量與模型參數(shù)隨機(jī)初始化,因此在CBOW模型中上下文的特征(即詞向量)是通過訓(xùn)練過程提取出來的。
2.3??基于詞性標(biāo)注的上下文特征改進(jìn)
本文將語料庫交給語言模型進(jìn)行詞向量訓(xùn)練從而得出詞語特征之前對語料庫進(jìn)行詞性標(biāo)注,希望可以通過對語料庫進(jìn)行詞性標(biāo)注的手段來改善消歧效果。因?yàn)楸疚牟捎玫恼Z料庫是維基百科中文語料庫,其數(shù)據(jù)量為千兆級(jí),包含30余萬篇文章,所以不可能采用傳統(tǒng)人工標(biāo)注的方式對其進(jìn)行詞性標(biāo)注。本文引用了兩種中文詞性標(biāo)注模型對語料庫進(jìn)行詞性標(biāo)注:分別為基于N-gram詞性標(biāo)注模型及基于Viterbi算法的詞性標(biāo)注模型。
通過改進(jìn),實(shí)現(xiàn)了兩個(gè)目標(biāo),第一點(diǎn)將不同詞性具有不同語義的多義詞w區(qū)分了出來,使其從原來語言模型的輸入w改善成為了w/tag的形式,增加了多義詞的區(qū)分度,其中tag表示為多義詞標(biāo)注的詞性。第二點(diǎn)將原本無監(jiān)督的訓(xùn)練方式改善成為了半監(jiān)督的訓(xùn)練方式,使得多義詞詞向量特征更加明顯。不僅改善了多義詞的消歧效果,并且為進(jìn)一步優(yōu)化模型做好了基礎(chǔ)工作。
2.4??詞向量訓(xùn)練及其處理
關(guān)于CBOW語言模型及Skip-gram語言模型的實(shí)現(xiàn)的操作步驟:(1)模型的輸出層函數(shù)為Hierarchical Softmax,統(tǒng)計(jì)所有詞的詞頻,準(zhǔn)備構(gòu)建霍夫曼樹。(2)根據(jù)語料庫的詞頻構(gòu)建霍夫曼樹。(3)CBOW語言模型,將目標(biāo)詞w的上下文詞向量求和平均作為輸入變量,按照目標(biāo)詞w在第二步中生成的霍夫曼編碼,對其路徑上的每個(gè)中間節(jié)點(diǎn)進(jìn)行分類并且按照分類結(jié)果訓(xùn)練隱藏層向量和目標(biāo)詞w的詞向量。(4)完成霍夫曼樹、霍夫曼編碼及輸入變量以后,從霍夫曼樹的根節(jié)點(diǎn)開始,根據(jù)節(jié)點(diǎn)的向量和模型參數(shù)對每個(gè)節(jié)點(diǎn)進(jìn)行Logistic分類,如果分類錯(cuò)誤,則要對該節(jié)點(diǎn)的向量進(jìn)行修正,并記錄誤差量。
Skip-gram語言模型的實(shí)現(xiàn)與CBOW語言模型的原理是相同的,不同點(diǎn)在于Skip-gram模型并不是對單個(gè)的輸入詞向量進(jìn)行迭代更新,而是對2c個(gè)輸出詞的詞向量進(jìn)行迭代更新。
2.5??VCK- vector模型
本文對維基百科中文語料庫進(jìn)行了詞性標(biāo)注,提取了上下文特征并且得到了多義詞的詞向量。將多義詞的不同詞性轉(zhuǎn)化為了不同向量,完成了對多義詞不同詞性的消歧目標(biāo)。對于同詞性的多義詞無法消除的歧義。由此引入K-Means聚類法,將之前多義詞詞向量及與其相關(guān)度較高的詞向量提取出來,進(jìn)行K-Means聚類,得到多義詞所在類別的聚類中心,并使用該中心的向量代替多義詞的詞向量,得到多義詞在上下文中最終的詞向量。以上是本文基于統(tǒng)計(jì)學(xué)的方法完成多義詞消歧技術(shù)的過程和原理。在之前的研究中,本文結(jié)合了詞性標(biāo)注模型、將詞語轉(zhuǎn)化為詞向量的語言模型以及統(tǒng)計(jì)學(xué)中的聚類方法,共同形成了本文基于詞向量的多義詞組合消歧模型(Viterbi-CBOW-K-means of Vector)模型,本文將其簡寫為VCK-vector模型。
3??VCK-vector模型的實(shí)現(xiàn)
3.1??語料庫預(yù)處理
維基百科的中文語料庫為Xml格式,需將其轉(zhuǎn)換為utf-8編碼的.txt文本才能對其進(jìn)行后續(xù)處理。其具體操作為調(diào)用python中的logging、os、sys等第三方庫,對Xml文件的讀取和.txt文件的寫入操作。由于語料庫中存在著大量的繁體中文,需使用opencc程序?qū)ζ溥M(jìn)行文體轉(zhuǎn)換。語料庫中仍然存在著許多標(biāo)點(diǎn)符號(hào)以及“的”、“地”、“得”這樣的字,在自然語言處理中稱為停用詞,需將這些標(biāo)點(diǎn)符號(hào)及停用詞去除。本實(shí)驗(yàn)采用復(fù)旦大學(xué)整理公布的停用詞表作為標(biāo)準(zhǔn)對語料庫進(jìn)行清洗。
3.2??分詞及詞性標(biāo)注
本文所用的維基百科的中文語料庫體量很大,所以使用穩(wěn)定性能較好的jieba分詞工具。在詞性標(biāo)注上,本文分別使用N-gram模型與基于Viterbi算法構(gòu)建的詞性標(biāo)注器對維基百科中文語料庫進(jìn)行了詞性標(biāo)注并對標(biāo)注結(jié)果進(jìn)行了對比。
3.3??詞向量的訓(xùn)練
詞性標(biāo)注任務(wù)完成后,得到語言模型訓(xùn)練詞向量所需要的輸入,即經(jīng)過詞性標(biāo)注的維基百科中文語料庫。然后使用CBOW模型、Skip-gram模型分別訓(xùn)練未經(jīng)過詞性標(biāo)注和進(jìn)行過詞性標(biāo)注的維基百科中文語料庫,得到兩種語料庫的詞向量模型。訓(xùn)練結(jié)果如表1、2所示。
3.4 ?K-Means聚類
本文選擇與多義詞相關(guān)度最高的10個(gè)詞語作為聚類對象,將K值定為3。通過K-Means聚類后,得到與多義詞同類別的若干個(gè)詞語,并且得到該類別的聚類中心。聚類完成后,對得到幾個(gè)指標(biāo)來進(jìn)行多義詞的消歧,用以判斷上下文相關(guān)詞語與多義詞之間的相關(guān)程度。
4??模型對比驗(yàn)證
本文實(shí)驗(yàn)環(huán)境為:CPU:4核,Inter(R) Core(TM) i5-7500 @ 3.40?GHz;
RAM & ROM:8?GB & 150?G;
操作系統(tǒng):64位Windows7;
開發(fā)語言:Python3.6;
IDE:Pycharm及第三方庫;
實(shí)驗(yàn)對象:維基百科中文語料庫(1.60?GB)。
4.1??詞性標(biāo)注模型
本文采取簡單對比兩種詞性標(biāo)注模型標(biāo)注完成后的語料各個(gè)詞性分布的合理性進(jìn)行評(píng)估,并選擇詞性分布更加合理的模型進(jìn)行下一步實(shí)驗(yàn)。結(jié)果如表3、表4所示。
由上表可知基于Viterbi算法的標(biāo)注模型采用的訓(xùn)練語料庫是python中的jieba詞庫,其詞語豐富程度和詞性豐富程度都優(yōu)于sinica_treebank詞庫,得到的詞性標(biāo)注結(jié)果分布更加平均合理。因此,本文采用基于Viterbi算法的詞性標(biāo)注集進(jìn)行后續(xù)實(shí)驗(yàn)。
4.2 ?CBOW與Skip-gram語言模型
本文采用語義相關(guān)性來對兩種語言模型進(jìn)行評(píng)價(jià)。如表5、6所示為兩個(gè)語言模型分別以“關(guān)心”作為研究對象,分析研究對象之間的關(guān)系。由表可知CBOW語言模型的區(qū)分度較好,Skip-gram語言模型區(qū)分度較差。并且從實(shí)驗(yàn)過程來看,CBOW語言模型進(jìn)行詞向量訓(xùn)練,耗時(shí)9個(gè)小時(shí),用Skip-gram語言模型進(jìn)行詞向量訓(xùn)練時(shí),耗時(shí)36個(gè)小時(shí)。
4.3??語料庫標(biāo)注前后詞向量對比
本文語料庫標(biāo)注模型采用基于Viterbi算法的詞性標(biāo)注模型,詞向量的訓(xùn)練模型為CBOW語言模型,其中以“關(guān)心”為研究對象的相關(guān)度如表7、8所示。
由上表可知,經(jīng)過詞性標(biāo)注的語料庫其詞向量的表現(xiàn)更好。證明本文對研究對象進(jìn)行詞性標(biāo)注的工作是可行的,通過對語料庫進(jìn)行科學(xué)的詞性標(biāo)注,不僅可以消除不同詞性的多義詞歧義,并且可以使后續(xù)工作得到的詞向量具有更高的質(zhì)量。
4.4??K-Means聚類改進(jìn)后的詞向量
K-Means聚類前后詞向量的對比的標(biāo)準(zhǔn)為聚類中心的相關(guān)度,因?yàn)橄蛄烤S度為400維,無法在本章中列出所有的維度,所以在此只列出所有聚類詞語的類別以及與其對應(yīng)聚類中心的距離,如表9所示。
經(jīng)過K-Means聚類之后,“了解”、“關(guān)注”、“重視”等7個(gè)詞被分到了第1類和第2類中,其他詞語與“關(guān)心”一同被劃分為第3類。通過聚類后的結(jié)果,可以確定多義詞“關(guān)心”的詞義是與“愛護(hù)”和“照顧”最相關(guān)的,也就是說在上下文中,這里的“關(guān)心”更加傾向于表示對某人愛護(hù)和照顧有加的意思。
4.5 ?VCK-vector模型與百度AI詞向量的對比
為了比較模型最后得出結(jié)果的優(yōu)劣,以VCK-vector模型與百度AI得到的詞向量之間的距離關(guān)系進(jìn)行比較。如表10與11所示。
由表可知,雖然百度AI的詞向量維度相對VCK-vector模型,“關(guān)心”更加遠(yuǎn)離了其他相關(guān)詞語,VCK-vector模型更加稠密的詞向量可以減少計(jì)算量并且其所包含的信息更加準(zhǔn)確。
5??結(jié)束語
詞義消歧任務(wù)是自然語言處理過程和應(yīng)用中的重點(diǎn)和難點(diǎn)問題,本文提出了一種VCK-vector消歧模型,利用對多義詞進(jìn)行詞性標(biāo)注、進(jìn)行詞向量轉(zhuǎn)換以及K-Means聚類的方法,并結(jié)合現(xiàn)有的多種詞性標(biāo)注算法、詞向量訓(xùn)練模型以及聚類算法對多義詞的消歧進(jìn)行了深入的研究。本文得出以下幾點(diǎn)結(jié)論:
(1)在詞性標(biāo)注任務(wù)上,本文對兩種不同的詞性標(biāo)注模型,即N-gram詞性標(biāo)注模型及基于Viterbi算法的詞性標(biāo)注模型進(jìn)行了對比,并分析了輸出結(jié)果,基于Viterbi算法的詞性標(biāo)注模型表現(xiàn)效果更好;
(2)本文對CBOW模型及Skip-gram模型進(jìn)行了對比分析,并采用評(píng)判任務(wù)對兩種模型輸出的詞向量進(jìn)行了對比,分析了兩種語言模型各自的特點(diǎn)、算法過程和最后得到的輸出結(jié)果,證明CBOW模型更適合作為本文的語言模型。
(3)詞性標(biāo)注的語料庫相較于未經(jīng)詞性標(biāo)注的語料庫之間得出的詞向量效果更佳;
(4)本文針對初步得到的詞向量進(jìn)行了K-?Means聚類,并與未進(jìn)行K-Means聚類的詞向量進(jìn)行比較,實(shí)驗(yàn)結(jié)果證明本文對詞向量進(jìn)行K-?Means聚類可以有效的消解多義詞存在的詞義;
(5)通過與百度AI的詞向量進(jìn)行比較,VCK-?vector模型更加稠密的詞向量可以減少計(jì)算量并且其所包含的信息更加準(zhǔn)確。
綜上所述,本文通過實(shí)驗(yàn)證明了本文所提出的多義詞組合消歧模型(VCK-vector)模型是有效可行的。中文語義消歧的方法隨著研究的深入將不斷改善,但如何正確且高效率的完成消歧任務(wù)仍是其研究重點(diǎn)。本文提出的組合消歧模型達(dá)到了消除多義詞歧義的效果,但局限性很大,首先不論詞性標(biāo)注還是訓(xùn)練詞向量,都應(yīng)對比更多的算法模型,提出更加完善的組合模型,其次本文采用了K-Means聚類對多義詞消歧,針對詞向量的處理,還可以結(jié)合主題模型(LDA)、LSI及TF-IDF、最大熵及機(jī)器學(xué)習(xí)等模型算法深化研究,提高詞向量質(zhì)量,最后本文的語料庫單一,在處理具體的消歧任務(wù)時(shí),應(yīng)結(jié)合本文的組合模型實(shí)施辦法來采用相應(yīng)的語料庫作為訓(xùn)練對象,以提高實(shí)際運(yùn)用中的準(zhǔn)確性。
參考文獻(xiàn)
Hinton G E, Rumelhart D E, Williams R J. Learning internal representation-s by back-propagating errors[J]. Parallel Distributed Processing: Exploration-s in the Microstructure of Cognition,?1985,?1.
Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language m-odel[M]. Innovations in Machine Learning. 2006.
Mnih A, Hinton G. Three new graphical models for statistical language mo-delling[C]. International Conference on Machine?Learning. Corvallis, Orego-n, USA, June 20-24, 2007.
Zheng X, Chen H, Xu T. Deep Learning for Chinese Word Segmentation a-nd POS Tagging[C]. Settle, Washington, USA, EMNLP. 2013:?647-657
Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Repres-entations in Vector Space[J]. Computer Science,?2013.
Lin Q, Yong C, Nie Z, et al. Learning word representation considering pro-ximity and ambiguity[C]. Twenty-eighth Aaai Conference on Artificial Intel-ligence. Boulder, Colorado?2014.
Seifollahi S, Shajari M. Word sense disambiguation application?in sentime-nt analysis of news headlines: an applied approach to FOREX market pre-diction[J]. Journal of Intelligent Information Systems, 2019: 1-27.
王旭陽, 姜喜秋.基于上下文信息的中文命名實(shí)體消歧方法研究[J].計(jì)算機(jī)應(yīng)用研究, 2018, 35(4): 1072-1075.
楊曉峰, 李堂秋, 洪青陽.?基于實(shí)例的漢語句法結(jié)構(gòu)分析歧義消解[J].?中文信息學(xué)報(bào), 2001, 15(3).
楊雪.?基于維基百科的命名實(shí)體消歧的研究與實(shí)現(xiàn)[D].?北京,?北京郵電大學(xué),?2014.
史天藝, 李明祿.?基于維基百科的自動(dòng)詞義消歧方法[J].?計(jì)算機(jī)工程, 2009, 35(18):?62-66.
寧博, 張菲菲.?基于異構(gòu)知識(shí)庫的命名實(shí)體消歧[J].?西安郵電大學(xué)學(xué)報(bào), 2014(4):?70-76.
汪沛, 線巖團(tuán), 郭劍毅, et al.?一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J]. 智能系統(tǒng)學(xué)報(bào)編輯部, 2016, 11(3):?366-374.
李國佳, 趙瑩地, 郭鴻奇.?一種基于多義詞向量表示的詞義消歧方法[J].?智能計(jì)算機(jī)與應(yīng)用, 2018, v.8(04):?57-61.
Lesk M. Automatic sense disambiguation using machine readable dictionari-es:how to tell a pine cone from an ice cream cone[C]. Acm Sigdoc Con-ference. Banasthali University, Rajasthan, India, 1986.
王永生.?基于改進(jìn)的Lesk算法的詞義排歧算法[J].?微型機(jī)與應(yīng)用,?2013(24):?69-71.
李小濤,?游樹娟,?陳維.?一種基于詞義向量模型的詞語語義相似度算法[J/OL].?自動(dòng)化學(xué)報(bào):?1-16?[2019-04-01].?https://doi.org/10.16383/j.aas.c180312.
卞月峰.?面向全文標(biāo)注的中文詞義消歧研究與實(shí)現(xiàn)[D].?南京,?南京師范大學(xué), 2015.
孫磊.?基于Web知識(shí)的無監(jiān)督英文目錄標(biāo)簽消歧[J].?計(jì)算機(jī)應(yīng)用與軟件, 2010, 27(9):?224-227+282.
劉琦.?一種基于WordNet上下文的詞義消歧算法[D].?吉林,吉林大學(xué).
鄧龍.?基于語義的中文詞義消歧技術(shù)研究[D].?哈爾濱,?哈爾濱理工大學(xué).
張春祥,?徐志峰,?高雪瑤.?一種半監(jiān)督的漢語詞義消歧方法[J/OL].?西南交通大學(xué)學(xué)報(bào):?1-6?[2019-04-01].?http://kns.?cnki.net/kcms/detail/51.1277.U.20180306.1913.006.html.
高寧寧.?基于混合特征和規(guī)則的詞義消歧研究[D].?吉林,吉林大學(xué).
吳云芳, 金澎, 郭濤.?基于詞典屬性特征的粗粒度詞義消歧[J].?中文信息學(xué)報(bào), 2007, 21(2):?1-8.
Mihalcea, Rada. Graph-based ranking algorithms for sentence extraction, a-pplied to text summarization[J]. Unt Scholarly Works, 2004, 170-173:?20.
盧志茂, 劉挺, 張剛,?等.?基于依存分析改進(jìn)貝葉斯模型的詞義消歧[J].?高技術(shù)通訊, 2003, 13(5):?1-7.