張春祥 趙凌云 高雪瑤
摘?要:針對漢語中存在的詞匯歧義問題,根據(jù)左右鄰接詞匯的詞形、詞性和譯文信息,采用卷積神經(jīng)網(wǎng)絡(luò)(convolution?neural?network,CNN)來確定它的真實含義。選取歧義詞匯的消歧詞窗,共包含兩個鄰接詞匯單元,抽取其詞形、詞性和譯文作為消歧特征。以消歧特征為基礎(chǔ),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建詞義消歧分類器。利用SemEval-2007:?Task#5的訓(xùn)練語料和哈爾濱工業(yè)大學語義標注語料來優(yōu)化CNN的參數(shù)。采用SemEval-2007:?Task#5的測試語料對詞義消歧分類器進行測試。實驗結(jié)果表明:相對于貝葉斯(Bayes)模型和BP神經(jīng)網(wǎng)絡(luò)(BP?neural?network)而言,本文所提出方法的消歧平均準確率分別提高了14.94%和6.9%。
關(guān)鍵詞:詞匯歧義;卷積神經(jīng)網(wǎng)絡(luò);詞匯單元;消歧特征;詞義消歧
DOI:10.15938/j.jhust.2020.03.020
中圖分類號:?TP391.2
文獻標志碼:?A
文章編號:?1007-2683(2020)03-0131-06
Abstract:For?vocabulary?ambiguity?problem?in?Chinese,?CNN?(Convolution?Neural?Network)?is?adopted?to?determine?true?meaning?of?ambiguous?vocabulary?where?word,?part-of-speech?and?translation?around?its?left?and?right?adjacent?words?are?used.?We?select?disambiguation?window?of?ambiguous?word?which?contains?two?adjacent?lexical?units?and?word,?part-of-speech?and?translation?are?extracted?as?disambiguation?features.?Based?on?disambiguation?features,?convolution?neural?network?is?used?to?construct?word?sense?disambiguation?(WSD)?classifier.?Training?corpus?in?SemEval-2007:?Task#5?and?semantic?annotation?corpus?in?Harbin?Institute?of?Technology?are?used?to?optimize?parameters?of?CNN.?Test?corpus?in?SemEval-2007:?Task#5?is?applied?to?test?word?sense?disambiguation?classifier.?Experimental?results?show?that?compared?with?Bayes?model?and?BP?neural?network,?the?proposed?method?in?this?paper?can?make?average?disambiguation?accuracy?improve?14.94%?and?6.9%.
Keywords:vocabulary?ambiguity;?convolution?neural?network;?lexical?unit;?disambiguation?feature;?word?sense?disambiguation
0?引?言
詞義消歧是自然語言處理領(lǐng)域中的關(guān)鍵性研究課題。在漢語文本中,存在著詞匯歧義問題。這種問題給機器翻譯、信息檢索和文本分類帶來了很大的困擾。只有先判斷歧義詞匯的真實語義,才能對漢語文本進行有效快速的分類和翻譯。國內(nèi)外很多學者針對這一現(xiàn)象開展了大量的研究工作。
在漢語詞義消歧問題上,張仰森等[1]研究了貝葉斯模型、決策樹模型、向量空間模型和最大熵模型。比較了它們的消歧效果,為詞義消歧模型的發(fā)展與應(yīng)用奠定了基礎(chǔ)。Singh等[2]提出了基于共現(xiàn)詞的條件概率和基于樸素貝葉斯分類器的兩種有監(jiān)督詞義消歧算法,能夠提高消歧精度。趙謙等[3]利用綜合詞的詞性、詞語所處的語境和Hownet語義詞典來計算語義相似度。以詞語的語義相似度為基礎(chǔ),根據(jù)句子結(jié)構(gòu)加權(quán)平均得到句子的語義相似度。利用二元集合法來計算短文本的語義相似度,以實現(xiàn)詞義消歧。楊陟卓等[4]以貝葉斯模型為基礎(chǔ),以譯文所組成的上下文作為偽訓(xùn)練語料,利用真實訓(xùn)練語料和偽訓(xùn)練語料,來確定歧義詞匯的詞義。李國臣等[5]以詞、詞性、位置和目標詞特征為基礎(chǔ),融入不同的詞林信息,使用條件隨機場模型,研究了各詞林信息特征對語義角色邊界識別與分類的影響。Kang等[6]構(gòu)建了一個有監(jiān)督學習的嵌入式感知空間模型。使用大量的標記語料,結(jié)合嵌入的詞義來擴展詞向量空間模型,以確定歧義詞匯在上下文中的具體含義。Wang等[7]提出了一種具有標簽實例和功能的交互式學習算法。通過標記上下文特征,結(jié)合標記信息實例和領(lǐng)域知識來進行詞義消歧。Vij等[8]將權(quán)重分配給WordNet圖的邊緣。利用各種模糊圖的連通性來確定模糊圖中每個結(jié)點的重要性,從而識別出歧義詞匯的真實含義。Abed等[9]對局部搜索技術(shù)進行改進,最大化給定文本的整體語義相似性。使用信息內(nèi)容、光澤重疊方法和改進的遺傳算法來進行詞義消歧。Duque等[10]提出了一種基于圖形的無監(jiān)督詞義消歧方法。利用摘要來構(gòu)建圖形,使用個性化PageRank算法來進行消歧。Huang等[11]將語義分析看作是多個語義序參數(shù)的競爭過程,提出了一種基于改進協(xié)同神經(jīng)網(wǎng)絡(luò)并融入詞義信息的角色標注模型。Henderson等[12]提出了一種向量空間模型,利用邏輯向量來代替消歧特征,使用半監(jiān)督方法來進行詞義消歧。DurgaPrasad等[13]提出了一種基于統(tǒng)計技術(shù)的詞義消歧方法,解決了與自然語言處理有關(guān)的AI-Complete問題。翟繼強等[14]利用信息增益和交叉熵特征選擇算法來進行特征降維,使用SVM、NB和C4.5分類算法對中文專利進行分類。譚冠群等[15]提出了一種應(yīng)用于文本分類的改進KNFL算法,改善了KNFL算法的分類效率。Lopez-Arevalo等[16]提出了一種針對特定領(lǐng)域的詞義消歧方法。該方法使用了特定領(lǐng)域的測試語料庫和特定領(lǐng)域的輔助語料庫,抽取相關(guān)特征,通過功能集成來進行詞義消歧。Sinoara等[17]提出了一種基于文檔集合嵌入式表示的詞義消歧方法。所提出的文檔集合嵌入式表示使得分類器更穩(wěn)定,在語義復(fù)雜的分類中提高了消歧效果。Abid等[18]采用多種機器學習方法對歧義詞匯進行消歧。Gutierrez等[19]提出了一種基于個性化的PageRank算法,結(jié)合SemCor語料庫的詞義頻率和搭配詞組的詞義信息來解決詞語歧義問題。Adrian等[20]在實體網(wǎng)絡(luò)中,通過分析實體集所參照對象之間的語義關(guān)系,結(jié)合不同語言資源的消歧信息,來確定歧義詞匯的語義類別。
以歧義詞匯為中心,確定消歧詞窗,共有兩個鄰接詞匯單元。選取其中的詞形、詞性和譯文作為消歧特征,使用卷積神經(jīng)網(wǎng)絡(luò)來確定它的語義類別。
1?消歧特征的選擇
歧義詞匯的語義確定是與其所處的文本密切相關(guān)的。漢語文本包含了很多語言學知識,可以從中提取消歧特征。根據(jù)歧義詞匯所在語境中的消歧特征可以有效地判別歧義詞匯的真實含義。因此,消歧特征對于語義分類而言是至關(guān)重要的。
本文以歧義詞匯為中心,選取歧義詞匯所在的消歧詞窗。消歧詞窗包含左右兩個部分,即左詞窗和右詞窗。左詞窗包含了歧義詞匯的左側(cè)鄰接詞匯單元。右詞窗包含了歧義詞匯的右側(cè)鄰接詞匯單元。從消歧詞窗中,抽取每個詞匯單元的詞形、詞性和譯文作為消歧特征。以此為基礎(chǔ)來判斷歧義詞匯的真實含義。
對于包含歧義詞匯“單位”的漢語句子,其消歧特征的提取過程如下所示:
漢語句子:對基層干部群眾意見大、作風差的單位和個人,將由有關(guān)部門進一步核實情況,作出處理和整改。
分詞結(jié)果:對?基層?干部?群眾?意見?大?、作風?差?的?單位?和?個人?,將?由?有關(guān)?部門?進一步?核實?情況?,作出?處理?和?整改。
詞性標注結(jié)果:對/p?基層/n?干部/n?群眾/n?意見/n?大/a、/w?作風/n?差/a?的/u?單位/n?和/c?個人/n,/w?將/d?由/p?有關(guān)/vn?部門/n?進一步/d?核實/v?情況/n,/w?作出/v?處理/vn?和/c?整改/vn。/w。
譯文標注結(jié)果:對/p/for?基層/n/grass-roots?干部/n/cadre?群眾/n/the?masses?意見/n/opinion?大/a/big、/w/-1?作風/n/style?差/a/poor?的/u/0?單位/n/unit?和/c/and?個人/n/self,/w/-1?將/d/will?由/p/by?有關(guān)/vn/concern?部門/n/department?進一步/d/further?核實/v/check?情況/n/situation,/w/-1?作出/v/make?處理/vn/handle?和/c/and?整改/vn/rectify?and?improve。/w?/-1。
對包含歧義詞匯“單位”的漢語句子而言,以歧義詞匯“單位”為中心,設(shè)置左詞窗和右詞窗。詞窗并不是越大越好,開設(shè)得越大反而會引入相關(guān)聯(lián)較弱的消歧信息和噪聲,降低準確率。設(shè)置左右詞窗各包含一個鄰接的詞匯單元。左詞窗包含的詞匯單元為“的/u/0”,右詞窗包含的詞匯單元為“和/c/and”,如圖1所示。實線方框表示詞形,短虛線方框表示詞性,長虛線方框表示譯文。從左詞窗中提取了3個消歧特征,分別為:“的”、“u”和“0”,其中“的”的譯文無實意,設(shè)置為0。從右詞窗中提取了3個消歧特征,分別為:“和”、“c”和“and”。一共抽取了6個消歧特征。詞形特征為“的”和“和”;詞性特征為“u”和“c”,其中,詞匯“的”的詞性是助詞,用“u”表示,詞匯“和”的詞性是連詞,用“c”表示;查詢漢-英機讀翻譯詞典,得到譯文標注,譯文特征為:“0”和“and”。
2?數(shù)據(jù)預(yù)處理
卷積神經(jīng)網(wǎng)絡(luò)模型的每一層都是由若干個神經(jīng)元構(gòu)成的。每個神經(jīng)元取1或0兩種狀態(tài)。在數(shù)據(jù)預(yù)處理部分,需要將消歧特征轉(zhuǎn)換成模型可輸入數(shù)據(jù)。
目前,在自然語言處理中常用消歧特征出現(xiàn)的頻度來判別歧義詞匯的語義。在包含歧義詞匯的漢語句子中,一共提取了m個消歧特征。以哈爾濱工業(yè)大學人工語義標注語料和漢-英機讀翻譯詞典為基礎(chǔ),統(tǒng)計消歧特征出現(xiàn)的頻度。消歧特征出現(xiàn)的頻度定義為語料中包含消歧特征的句子數(shù)目。
頻度經(jīng)過轉(zhuǎn)換后,每個消歧特征對應(yīng)于一個n位二進制數(shù)。從而構(gòu)成了一個m*n的二進制數(shù)特征矩陣。人工語義類別有t種,經(jīng)過轉(zhuǎn)換后,每個語義類別對應(yīng)于一個t位二進制數(shù)。
使用頻度向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]來表示消歧特征。N(W1)、N(P1)和N(TR1)表示左詞窗中詞匯單元的消歧特征出現(xiàn)的頻度,N(W2)、N(P2)和N(TR2)表示右詞窗中詞匯單元的消歧特征出現(xiàn)的頻度。N(W1)、N(P1)、N(TR1)、N(W2)、N(P2)和N(TR2)轉(zhuǎn)換成模型可輸入向量,即a1、a2、a3、a4、a5和a6,構(gòu)造輸入特征矩陣A=[a1,?a2,?a3,?a4,?a5,?a6]T。歧義詞匯“單位”的語義類別有兩種,“organization”和“unit”,即t=2。使用二進制數(shù)“01”表示語義類“organization”,使用二進制數(shù)“10”表示語義類“unit”。
3?基于卷積神經(jīng)網(wǎng)絡(luò)的消歧過程
采用卷積神經(jīng)網(wǎng)絡(luò)對歧義詞匯進行消歧。基于CNN的詞義消歧過程如圖2所示。在圖2中,CNN由輸入層、卷積層、池化層、全連接層和輸出層組成。Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]為特征向量。A表示輸入的特征矩陣。si(i=1,?2,?…,?t)為歧義詞匯的語義類別。Q表示卷積層與池化層之間的卷積核。U表示全連接層與輸出層之間的權(quán)值矩陣。參數(shù)b和c表示偏置值。卷積核Q、權(quán)值矩陣U、參數(shù)b和c共同構(gòu)成CNN的基本參數(shù)。CNN模型包括語義分類和模型訓(xùn)練兩個過程。第一個過程為右側(cè)的語義分類過程。第二個過程為左側(cè)的模型訓(xùn)練過程。
在語義分類過程中,輸入測試數(shù)據(jù)所對應(yīng)的消歧特征向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]。轉(zhuǎn)換成模型可輸入向量,構(gòu)造輸入特征矩陣A。經(jīng)過卷積層、池化層和全連接層,最后輸出歧義詞匯的語義類別?;贑NN的詞義消歧模型的輸出結(jié)果為概率分布序列
P(s1),?P(s2),…,P(st),最大概率所對應(yīng)的語義類別即為歧義詞匯的語義類別。
在模型訓(xùn)練過程中,輸入訓(xùn)練數(shù)據(jù)所對應(yīng)的消歧特征向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]和所對應(yīng)的語義類s={s1,?s2,?…,?st}。經(jīng)過卷積層、池化層和全連接層,最后輸出歧義詞匯的預(yù)測語義類別概率。預(yù)測概率和真實概率進行比較,計算誤差。誤差通過反向傳播沿原路線返回,即從輸出層反向經(jīng)過全連接層、池化層和卷積層,逐層更新參數(shù),最終回到輸入層。不斷地進行前向傳播和反向傳播,以減小誤差,從而更新模型參數(shù),直到網(wǎng)絡(luò)模型訓(xùn)練好為止。隨著誤差反向傳播并不斷更新參數(shù)之后,CNN模型的消歧準確率也有所提高。
經(jīng)過k次訓(xùn)練之后,可以得到優(yōu)化的CNN的參數(shù),即卷積核Q、權(quán)值矩陣U、偏置值b和c。
4?基于卷積神經(jīng)網(wǎng)絡(luò)的詞義消歧算法
基于CNN的詞義消歧算法包括語義分類和模型訓(xùn)練兩個過程。在語義分類過程中,利用前向傳播過程計算歧義詞匯w在每個語義類別si下的概率分布。在模型訓(xùn)練過程中,根據(jù)預(yù)測概率反向逐層更新每一層參數(shù)。
語義分類過程:
輸入:歧義詞匯w的消歧特征向量Feature=[N(W1),?N(P1),?N(TR1),?N(W2),?N(P2),?N(TR2)]。
輸出:歧義詞匯w在每個語義類別下的概率分布序列P(s1|w),?…,?P(si|w),?…,?P(st|w),最大概率的語義類別s′。
1)初始化網(wǎng)絡(luò)模型;
2)將Feature轉(zhuǎn)化為模型可輸入向量a1,?a2,?…,?am,構(gòu)造輸入特征矩陣A=(a1,?a2,?…,?am)T;
3)構(gòu)建CNN模型;
①將特征矩陣A輸入到CNN模型中,根據(jù)式(1)計算卷積所提取的特征值。
其中:Q表示卷積層的權(quán)重矩陣(卷積核),大小為h*n;b表示偏置值;di表示特征映射中的第i個特征值;f(x)表示激活函數(shù)。通常,使用Relu激勵函數(shù),如式(2)所示。
當卷積核遍歷完特征矩陣A后,共提取了m-h+1個特征值,如公式(3)所示。其中,m為矩陣A的行數(shù)。
②在池化層中,根據(jù)公式(4)對輸入進行下采樣操作,本文采用最大池化(Max?pooling)方法。
設(shè)置多個卷積核,可以提取多個不同的特征向量。若有l(wèi)個卷積核,則可以提取l個最大特征值。池化層的輸出為D=[d′1,?d′2,?…,?d′l]。其中,d′i表示第i個卷積核所對應(yīng)的最大特征值。
③利用softmax函數(shù)來計算歧義詞匯w在每個語義類別si下的概率分布,其計算過程如公式(5)所示。
其中:U和c表示softmax層的參數(shù);g(x)表示softmax函數(shù),具體計算過程如式(6)所示。
其中:d′i表示softmax函數(shù)的輸入數(shù)據(jù),P(si|w)表示歧義詞匯w在語義類別si下的出現(xiàn)概率(i=1,?2,?…,?t)。
④最大概率所對應(yīng)的語義類別s′即為歧義詞匯w的語義類別,其計算過程如式(7)所示。
其中:s′表示概率最大的語義類別;t表示語義類別數(shù),P(s1|w),?…,?P(si|w),?…,?P(st|w)表示歧義詞匯w在語義類別si下的概率分布。
模型訓(xùn)練過程:
1)初始化迭代次數(shù)k;
①前向傳播:
根據(jù)公式(1)、(4)、(5)得到歧義詞匯w在語義類別si下的預(yù)測概率。
②反向傳播:
a)最大概率即為歧義詞匯w的預(yù)測概率,其計算過程如公式(8)所示。
其中,y_predictedi表示歧義詞匯w的預(yù)測概率。
b)利用交叉熵損失函數(shù)來計算誤差loss,即
其中,yi表示歧義詞匯w在語義類別si下的真實分布概率。
c)根據(jù)誤差loss,反向傳播,逐層更新參數(shù),即
其中:θ表示參數(shù)集;θ′表示更新之后的參數(shù)集;α為學習率。
不斷迭代CNN訓(xùn)練模型,得到優(yōu)化后的CNN模型。對于不同的歧義詞匯,可以獲得不同的CNN模型參數(shù)。在對歧義詞匯w進行消歧時,需要導(dǎo)入所對應(yīng)的CNN模型參數(shù)。
5?實?驗
以SemEval-2007:?Task#5的訓(xùn)練語料和測試語料為基礎(chǔ),比較了貝葉斯模型、BP神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的實驗效果。目前,基于BP神經(jīng)網(wǎng)絡(luò)的詞義消歧效果非常好,本文將其用于對比實驗。
在SemEval-2007:?Task#5的測試語料中,包含40個歧義詞匯的1000條漢語句子,每一個歧義詞匯對應(yīng)著多個漢語句子,都是以歧義詞匯為中心,進行切分并標注相應(yīng)的語義信息。其中,漢語句子的類別有二類、三類和四類。
在實驗1中,選取歧義詞匯左右鄰接的兩個詞匯單元的詞形、詞性和譯文作為消歧特征,采用貝葉斯分類器來確定歧義詞匯的語義類別。使用SemEval-2007:?Task#5的訓(xùn)練語料對貝葉斯分類器進行訓(xùn)練。利用優(yōu)化后的貝葉斯分類器對SemEval-2007:?Task#5的測試語料進行詞義消歧。
在實驗2中,選取歧義詞匯左右鄰接的兩個詞匯單元的詞形、詞性和譯文作為消歧特征,采用BP神經(jīng)網(wǎng)絡(luò)來確定歧義詞匯的語義類別。使用SemEval-2007:?Task#5的訓(xùn)練語料對BP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。利用優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)對SemEval-2007:?Task#5的測試語料進行詞義消歧。
在實驗3中,選取歧義詞匯的左右詞窗。左詞窗包含了歧義詞匯的左側(cè)鄰接詞匯單元。右詞窗包含了歧義詞匯的右側(cè)鄰接詞匯單元。從消歧詞窗中,抽取每個詞匯單元的詞形、詞性和譯文作為消歧特征。以哈爾濱工業(yè)大學語義標注語料和漢-英機讀翻譯詞典為基礎(chǔ),統(tǒng)計詞形、詞性和譯文的出現(xiàn)頻度。使用SemEval-2007:?Task#5的訓(xùn)練語料對CNN進行訓(xùn)練。利用優(yōu)化后的CNN對SemEval-2007:?Task#5的測試語料進行詞義消歧。
在實驗中,選取了10個具有代表性的歧義詞匯。在三組實驗中,測試語料的消歧準確率和平均準確率如表1所示。
從表1可以看出:對于“旗幟”之外的所有歧義詞匯,實驗3的消歧準確率都高于實驗1。對于“動”之外的所有歧義詞匯,實驗3的消歧準確率都高于實驗2。實驗3的消歧平均準確率比實驗1和實驗2的高。3組實驗都采用了歧義詞匯左右兩個詞匯單元的詞形、詞性和譯文作為消歧特征。實驗2的消歧平均準確率比實驗1高。相對于貝葉斯分類器而言,BP神經(jīng)網(wǎng)絡(luò)的分類效果好。實驗3的消歧平均準確率明顯高于實驗1和實驗2。相對于貝葉斯分類器和BP神經(jīng)網(wǎng)絡(luò)而言,CNN具有更好的詞義消歧效果。
6?結(jié)?論
本文提出了一種結(jié)合詞形、詞性和譯文的漢語詞義消歧方法。以歧義詞匯左右相鄰的兩個詞匯單元的詞形、詞性和譯文作為消歧特征,利用CNN來判別歧義詞匯的語義類別。使用SemEval-2007:?Task#5的訓(xùn)練語料和哈爾濱工業(yè)大學人工語義標注語料來優(yōu)化CNN分類器。使用SemEval-2007:?Task#5的測試語料來測試詞義消歧分類器的性能。實驗結(jié)果表明:所提出方法的消歧平均準確率有所提升。
參?考?文?獻:
[1]?張仰森,?郭江.?四種統(tǒng)計詞義消歧模型的分析與比較[J].?北京信息科技大學學報(自然科學版),?2011,?26(2):?13.
ZHANG?Yangsen,?GUO?Jiang.?Analysis?and?Comparison?of?4?Kinds?of?Statistical?Word?Sense?Disambiguation?Models[J].?Journal?of?Beijing?Information?Science?and?Technology?University(Natural?Science?Edition),?2011,?26(2):?13.
[2]?SINGH?S,?SIDDIQUI?T?J.?Role?of?Karaka?Relations?in?Hindi?Word?Sense?Disambiguation[J].?Journal?of?Information?Technology?Research,?2015,?8(3):?21.
[3]?趙謙,?荊琪,?李愛萍,?等.?一種基于語義與句法結(jié)構(gòu)的短文本相似度計算方法[J].?計算機工程與科學,?2018,?40(7):?1287.
ZHAO?Qian,?JING?Qi,?LI?Aiping,?et?al.?A?Short?Text?Similarity?Calculation?Method?Based?on?Semantics?and?Syntax?Structure[J].?Computer?Engineering?&?Science,?2018,?40(7):?1287.
[4]?楊陟卓.?基于上下文翻譯的有監(jiān)督詞義消歧研究[J].?計算機科學,?2017,?44(4):?252.
YANG?Zhizhuo.?Supervised?WSD?Method?Based?on?Context?Translation[J].?Computer?Science,?2017,?44(4):?252.
[5]?李國臣,?呂雷,?王瑞波,?等.?基于同義詞詞林信息特征的語義角色自動標注[J].?中文信息學報,?2016,?30(1):?101.
LI?Guochen,?LV?Lei,?WANG?Ruibo,?et?al.?Semantic?Role?Labeling?Based?on?TongYiCi?CiLin?Derived?Features[J].?Journal?of?Chinese?Information?Processing,?2016,?30(1):?101.
[6]?KANG?M?Y,?MIN?T?H,?LEE?J?S.?Sense?Space?for?Word?Sense?Disambiguation[C]//?IEEE?International?Conference?on?Big?Data?and?Smart?Computing,?Shanghai,?2018:?669.
[7]?WANG?Y,?ZHENG?K,?XU?H,?et?al.?Interactive?Medical?Word?Sense?Disambiguation?Through?Informed?Learning[J].?Journal?of?the?American?Medical?Informatics?Association,?2018,?25(7):?800.
[8]?VIJ?S,?JAIN?A,?TAYAL?D,?et?al.?Fuzzy?Logic?for?Inculcating?Significance?of?Semantic?Relations?in?Word?Sense?Disambiguation?Using?a?WordNet?Graph[J].?International?Journal?of?Fuzzy?Systems,?2018,?20(2):?444.
[9]?ABED?S?A,?TIUN?S,?OMAR?N.?Word?Sense?Disambiguation?in?Evolutionary?Manner[J].?Connection?Science,?2016,?28(3):?1.
[10]DUQUE?A,?STEVENSON?M,?MARTINEZ-ROMO?J,?et?al.?Co-occurrence?Graphs?for?Word?Sense?Disambiguation?in?the?Biomedical?Domain[J].?Artificial?Intelligence?in?Medicine,?2018,?1(28):?9.
[11]HUANG?Z?H,?CHEN?Y?D.?An?Improving?SRL?Model?With?Word?Sense?Information?Using?An?Improved?Synergetic?Neural?Network?Model[J].?Journal?of?Intelligent?&?Fuzzy?Systems,?2016,?31(3):?1469.
[12]HENDERSON?J,?POPA?D?N.?A?Vector?Space?for?Distributional?Semantics?for?Entailment[C]//?Proceedings?of?the?54th?Annual?Meeting?of?the?Association?for?Computational?Linguistics.?Berlin:?ACL,?2016,?4(1):?2052.
[13]DURGAPRASAD?P,?SUNITHA?K?V?N,?PADMAJA?R?B.?Context-based?Word?Sense?Disambiguation?in?Telugu?Using?the?Statistical?Techniques[J].?Advances?in?Intelligent?Systems?and?Computing,?2017,712(1):?271.
[14]翟繼強,?王克奇.?依據(jù)TRIZ發(fā)明原理的中文專利自動分類[J].?哈爾濱理工大學學報,?2013,?18(3):?1.
ZHAI?Jiqiang,?WANG?Keqi.?Automatic?Classification?of?Chinese?Patents?According?to?TRIZ?Inventive?Principles[J].?Journal?of?Harbin?University?of?Science?and?Technology,?2013,?18(3):?1.
[15]譚冠群,?丁華福.?改進的K最近特征線算法在文本分類中的應(yīng)用[J].?哈爾濱理工大學學報,?2008,?13(6):?19.
TAN?Guanqun,?DING?Huafu.?Improved?K?Nearest?Feature?Line?Algorithm?in?Text?Categorization[J].?Journal?of?Harbin?University?of?Science?and?Technology,?2008,?13(6):?19.
[16]LOPEZ-AREVALO?I,?SOSA-SOSA?V?J,?ROJAS-LOPEZ?F,?et?al.?Improving?Selection?of?Synsets?from?WordNet?for?Domain-specific?Word?Sense?Disambiguation[J].?Computer?Speech?&?Language,?2017,?41(1):?128.
[17]SINOARA?R?A,?CAMACHO-COLLADOS?J,?ROSSI?R?G,?et?al.?Knowledge-enhanced?Document?Embeddings?for?Text?Classification[J].?Knowledge-Based?Systems,?2018,?163(1):?955.
[18]ABID?M,?HABIB?A,?ASHRAF?J,?et?al.?Urdu?Word?Sense?Disambiguation?Using?Machine?Learning?Approach[J].?Cluster?Computing,?2017,?21(1):?515.
[19]GUTIERREZ?Y,?VAZQUEZ?S,?MONTOYO?A.?Spreading?Semantic?Information?By?Word?Sense?Disambiguation[J].?Knowledge-Based?Systems,?2017,?132(1):?47.
[20]ADRIAN?W?T,?MANNA?M.?Navigating?Online?Semantic?Resources?for?Entity?Set?Expansion[C]//?The?20th?International?Symposium?on?Practical?Aspects?of?Declarative?Languages,?Los?Angeles,?2018:?170.
(編輯:溫澤宇)