• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      問答系統(tǒng)命名實體識別改進方法研究

      2020-10-23 06:37:38鮑靜益于佳卉劉小峰
      數(shù)據(jù)采集與處理 2020年5期
      關(guān)鍵詞:分詞實體向量

      鮑靜益,于佳卉,徐 寧,3,姚 瀟,3,劉小峰,3

      (1.常州工學(xué)院電氣信息工程學(xué)院,常州,213022;2.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,常州,213022;3.江蘇省特種機器人與智能技術(shù)重點實驗室,常州,213022)

      引 言

      問答系統(tǒng)起源于圖靈測試,若計算機能使用自然語言回答問題,則認(rèn)為該計算機具有人工智能[1]。作為自然語言處理領(lǐng)域的主要研究方向之一,問答系統(tǒng)被應(yīng)用在多個領(lǐng)域。如MIT 大學(xué)的Boris Katz與其同伴研究出世界上第一個基于web 的問答系統(tǒng)——Start 系統(tǒng),可完成查天氣、設(shè)鬧鐘和搜信息等一系列生活服務(wù)[2];日常生活中人們經(jīng)常用到的蘋果語音助手siri 也是問答系統(tǒng)的一種典型應(yīng)用[3]。

      一套完整的問答系統(tǒng)一般包含4 項基本任務(wù),即詞性標(biāo)注、句子情感分析、分類任務(wù)以及命名實體識別(Named entity recognition, NER)。NER 中的傳統(tǒng)方法主要有兩類,一類基于規(guī)則和模板[4],即人工根據(jù)知識集或者詞典搭建模板,選用一些關(guān)鍵字或者位置詞作為特征,利用字符串匹配的方法將關(guān)鍵詞和模板進行匹配;另一類是基于傳統(tǒng)機器學(xué)習(xí)的方法,主要包括條件隨機場(Conditional random fields, CRF)[6]、隱馬爾可夫模型(Hidden Markov model, HMM)[7]、支持向量機(Support vector machine,SVM)[8]、最大熵(Maximum entropy, ME)[9]4 種方法。CRF 方法提供了一個靈活提取特征參數(shù)的框架,但該方法所需訓(xùn)練時間比較長;HMM 模型訓(xùn)練時雖然所需時間較少、識別速度較快,但準(zhǔn)確率不高;SVM 模型用于NER 中時,準(zhǔn)確率通常比HMM 要高,但一般僅用于分類子任務(wù)而不是完整的NER,作用域有限;ME 模型準(zhǔn)確率一般來說比HMM 高,但其訓(xùn)練的時間復(fù)雜度較高,且需要進行歸一化計算,損失值較大。

      近年來,隨著神經(jīng)網(wǎng)絡(luò)領(lǐng)域研究的蓬勃發(fā)展,傳統(tǒng)NER 方法用的越來越少,而基于神經(jīng)網(wǎng)絡(luò)的方法開始占據(jù)主要地位,被有效地應(yīng)用在自然語言處理的各個領(lǐng)域。例如Zhang 等[10]提出了一種格子結(jié)構(gòu)的長短時記憶網(wǎng)絡(luò)(Lattice long short-term memory, Lattice LSTM)模型,能夠不受分詞效果的影響,也不破壞原句的語義。神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點在于:對數(shù)據(jù)集的依賴程度沒有前兩種傳統(tǒng)方法大。但神經(jīng)網(wǎng)絡(luò)中的模型種類較多,因此模型受自身定義的參數(shù)影響比較大。除此之外,該方法還有個弊端,即進行標(biāo)簽預(yù)測時,每次的預(yù)測過程是一個互相獨立的分類,對于已預(yù)測好的標(biāo)簽,無法直接進行利用。另一方面,完成NER 之后,識別出的實體需要與知識庫中存在的實體進行相似度計算,以便找到相似度最高的一類特征,從而實現(xiàn)在知識圖譜中搜索答案的目的。傳統(tǒng)的計算相似度方法,如余弦相似度、編輯距離和馬氏距離等,由于未考慮中文語言之間的相關(guān)性,故而計算所得的相似度評分一般偏低。

      針對上述問題,本文首先提出了雙向格子結(jié)構(gòu)的長短時記憶網(wǎng)絡(luò)(Lattice bi-directional LSTM,Lattice Bi-LSTM)模型,在原模型的基礎(chǔ)上,添加了一層長短時記憶網(wǎng)絡(luò),使原模型中的LSTM 層從單向變?yōu)殡p向,使得LSTM 在處理信息時,能夠同時進行前向傳播和后向傳播,從而在處理某些長句時,同時獲取過去和未來兩個狀態(tài)的信息并對其進行綜合性考慮,使其輸出信息更具完整性和魯棒性;其次,本文提出一種基于周期性核函數(shù)的相似度計算新方法,該方法充分考慮了長句之間的周期性重復(fù)詞語出現(xiàn)的頻率特征,對兩個待評判的實體進行核函數(shù)向量計算,以實現(xiàn)對時間軸關(guān)系上的非線性耦合性特征的有效建模。

      1 經(jīng)典方法

      1.1 經(jīng)典命名實體識別模型

      最常用的NER 中的經(jīng)典模型有基于字向量的模型和基于詞向量的模型。這兩種模型具有一定的限制性,前者對句子處理不當(dāng),后者對分詞結(jié)果具有依賴性。

      基于字向量的模型結(jié)構(gòu)如圖1 所示??梢钥闯觯撃P褪菍Α皩幉ㄊ虚L江小學(xué)”單字分開,變成“寧/波/市/長/江/小/學(xué)”進行處理。假設(shè)圖1 中的模型有a個字序列通過,分別為c1,c2,…,ca,其中第i個字ci輸入時,被表示為輸入向量表示權(quán)重矩陣,是在處理字的embedding 層進行表示出來的。在基于字符向量模型中,用到的是一個雙向LSTM,因此需要對每一個輸入向量所對應(yīng)的隱藏狀態(tài)進行拼接,即x1,x2,…,xa等分別對應(yīng)了一個和 一 個 反 方 向 的 隱 含 層 狀 態(tài)輸入的第i個字的總隱藏層狀態(tài)輸出就可以表,即總隱藏層狀態(tài)需要將兩個方向的隱藏層狀態(tài)進行拼接后表示。

      圖1 基于字向量的處理模型Fig.1 Processing model based on character vector

      基于詞向量的模型結(jié)構(gòu)如圖2 所示,該模型是對“寧波市長江小學(xué)”中的詞語進行處理拆分,變成“寧波/市/長江/小學(xué)”進行處理。其原理如下,假設(shè)圖2 中的模型有n個詞語序列通過,分別為w1,w2,…,wn,其中第j個詞wj輸入時,被表示為輸入向量xjw=ew(wj),其中ew表示處理詞語的embedding 層定義的權(quán)重矩陣。其隱藏層狀態(tài)是否進行拼接取決于是否使用雙向的長短時記憶神經(jīng)網(wǎng)絡(luò),一般采用單向的話可以直接得出其隱藏層狀態(tài)hwj。

      本文對比系統(tǒng),即文獻[10]提出的經(jīng)典NER 模型的基本思想是在基于字向量模型的基礎(chǔ)上,對該模型增加一個柵格結(jié)構(gòu),該結(jié)構(gòu)包含所有從詞典里學(xué)到的詞,其示意圖如圖3 所示??梢钥闯?,除了本身拆分的字之外,使用的柵格結(jié)構(gòu)可得到整個句子中所有詞典里學(xué)到的詞,比如圖3 中的“寧波”“市長”“長江”“小學(xué)”“寧波市”“長江小學(xué)”,如果原句按照字向量進行劃分,還可以組成“寧波/市長/江小學(xué)”的格式,但由于設(shè)定了柵格,柵格中不包括“江小學(xué)”這個詞,就避免了原句劃分所造成的歧義問題。

      圖2 基于詞向量的處理模型Fig.2 Processing model based on word vector

      1.2 經(jīng)典相似度計算方法

      最常用的文本相似度的計算方法有4 種,分別是編輯距離、馬氏距離、余弦相似度和皮爾遜相關(guān)系數(shù),前兩種是通過計算文本之間的距離進行比較,距離越大,相似度越小;后兩種直接計算相似度,數(shù)值越大,則相似度越大。

      (1)編輯距離(Edit distance,ED),亦被稱作Levenshtein distance。編輯距離實際上是一個計算序列間相似度的度量標(biāo)準(zhǔn),通常用在檢查英語單詞拼寫正誤上,是指在兩個字符串<A,B>之間,從A 到B所需要進行的最少的編輯操作次數(shù)。其可進行的操作有且僅有3 種,分別是:插入(Insert)、修改(Delete)和替換(Replace)。

      以單詞“kitchen”和“situate”為例,要把“kitchen”轉(zhuǎn)化為“situate”需要進行的編輯操作有:(1)kitchen變?yōu)閟itchen(把“k”換成“s”);(2)sitchen 變成sit(把“chen”刪除掉);(3)sit 變成situate(把“sit”插入字符“uate”)。因此,將“kitchen”變成“situate”需要3 步編輯操作,則這兩單詞的編輯距離就是3。

      (2)Mahalanobis distance 方法簡稱馬氏距離。馬氏距離一般用來表示某個點和某個分布間的關(guān)系,可用來計算兩不同樣本數(shù)據(jù)集之間的相似性,并對于不同量綱也有所考慮,即顧慮兩個不同維度之間向量的相關(guān)性。

      假設(shè)有M 個樣本向量,分別為x1,x2,…,xM,其均值用μ 表示,其協(xié)方差矩陣用S 表示,則樣本向量x到均值μ 的馬氏距離計算公式為

      馬氏距離可被看成特殊的歐氏距離,與其不同的是,馬氏距離的計算必須建立在協(xié)方差矩陣存在的基礎(chǔ)上,這就要求總體樣本的數(shù)目必須比樣本的維數(shù)要大,且總體的樣本數(shù)對其影響較大;其次,由于協(xié)方差矩陣不太穩(wěn)定,導(dǎo)致有時馬氏距離無法正確計算得出,而且易對產(chǎn)生細微變化的變量進行夸大,導(dǎo)致影響整個計算過程。

      (3)基于余弦相似度(Cosine similarity)的計算方法是指通過計算得出兩向量間夾角的余弦值,從而計算其相似度的方法,又被稱為余弦相似性。其向量間的夾角越小,余弦值就越大,則證明兩個向量越相似。在計算相關(guān)文本及字符串的相似度之前,必須把兩個文本數(shù)據(jù)或者字符串統(tǒng)一變成向量的形式,一般通過word2vec 等方法進行處理。

      若存在兩個二維向量C,D,向量C 為( x1,y1),向量D 為( x2,y2),則其夾角θ 的余弦值計算公式為

      (4)基于皮爾遜相關(guān)系數(shù)(Pearson correlation)的方法可看做是余弦相似度的一個特例,取值范圍是[-1,1]。

      該方法是用來表示向量間相關(guān)性的強弱程度的,通過將其中心化,即減去向量的平均值后,再計算余弦相似度。該方法的計算是通過對分布中樣本點的標(biāo)準(zhǔn)分?jǐn)?shù)進行均值估計,使用p(X,Y) 用來表示皮爾遜相關(guān)系數(shù),公式為

      式中:Xi,Yi分別代表兩個樣本;分別代表兩個樣本的平均值;σX,σY分別代表兩個樣本的標(biāo)準(zhǔn)差;分別代表兩個樣本的標(biāo)準(zhǔn)分?jǐn)?shù)。

      2 改進方法

      2.1 Lattice Bi-LSTM 模型

      文獻[10]中提出的模型是在字向量的基礎(chǔ)上同時考慮字粒度和詞粒度,進而來處理輸入的數(shù)據(jù),但是該模型只能單向的對句子進行處理,無法考慮整個句子的含義,對于某些需要同時考慮前后文關(guān)系的問題,無法給出正確答案。針對這個問題,本文對模型進行改進,采用了雙向的長短時記憶神經(jīng)網(wǎng)絡(luò),使得LSTM 在處置信息時,能夠同時進行前向傳播和后向傳播,使得在處理某些長句時,同時獲取過去和未來兩個狀態(tài)的信息并對其進行通盤考慮,從而輸出更具完整性和更具準(zhǔn)確性的信息,對于應(yīng)該正確輸出的信息更具魯棒性。應(yīng)用于NER 領(lǐng)域時,其效果則體現(xiàn)在對于實體的標(biāo)簽預(yù)測更具準(zhǔn)確性和穩(wěn)定性,從而對于命名實體的識別將具有更好的效果,其模型圖如圖4 所示。

      圖4 雙向格子結(jié)構(gòu)的長短時記憶示意模型圖Fig.4 Structure of Lattice Bi-LSTM

      該模型在處理字和詞時的內(nèi)部結(jié)構(gòu)略有不同,處理單個字符時的模型如圖5 所示。假設(shè)需要處理一個字符序列c1,c2,c3,…,ca,通過可以得到每個字符的字符向量xjc,即輸入向量。字符部分的計算公式為

      式中:表示前上一個字LSTM cell 的隱藏層狀態(tài)輸出;ci表示兩個方向的輸出,hci為結(jié)合兩個方向的最后的輸出,此處的隱藏狀態(tài)是對于兩個方向的考慮,即為本文提出雙向模型的部分體現(xiàn)表示從前一個字和該字相關(guān)的詞傳過來的細胞狀態(tài)分別表示這個LSTM 單元中的輸入門、輸出門和遺忘門;σ,tanh 分別表示激活函數(shù)sigmoid 函數(shù)和tanh 函數(shù);⊙表示矩陣點積。

      處理詞的模型如圖6 所示,將序列S和單詞查找樹進行匹配,可得到這個序列的詞集合,表示為wbd,e,則其計算公式為

      圖5 基于字向量的處理模型內(nèi)部結(jié)構(gòu)圖Fig.5 Internal structure diagram of processing model based on character vector

      式中:wdb,e表示從b開始到e結(jié)束的詞的子序列;hcb表示第b個字的LSTM cell 的輸出;iwb,e,fwb,w分別表示這個詞的網(wǎng)絡(luò)單元中的輸入門和遺忘門;c?wb,e相當(dāng)于一個中間信息狀態(tài),承載著經(jīng)過變化后的細胞狀態(tài)信息。

      從圖6 中可以看出,處理詞的長短時記憶網(wǎng)絡(luò)單元沒有輸出門,這是由于處理詞的LSTM 單元中的細胞狀態(tài),都傳給了這個詞最后一個字的字的LSTM 單元。除此之外,字符LSTM單元的輸入不僅來自于上一個字符的隱藏狀態(tài)和字符向量,還包括前面多個詞的LSTM 單元輸出的細胞狀態(tài)。因此該模型的相關(guān)狀態(tài)及其權(quán)重的計算公式為

      圖6 基于詞向量的處理模型內(nèi)部結(jié)構(gòu)圖Fig.6 Internal structure diagram of processing model based on word vector

      式中:cwb,j為上一個詞的細胞狀態(tài),αcb,j為其狀態(tài)的權(quán)重。

      以句子“寧波市長江小學(xué)”為例,其中c“c7學(xué)”的細胞狀態(tài),輸入量包含x(c7學(xué))、cc6,(7小學(xué))、cc4,(7長江小學(xué))的信息,所以有

      對于本文提出的模型,一般需要在之后添加CRF 層進行標(biāo)簽預(yù)測,對輸入數(shù)據(jù)進行標(biāo)注處理后,完成命名實體識別的識別任務(wù),其具體流程如圖7 所示。

      圖7 模型應(yīng)用流程圖Fig.7 Model application flow chart

      2.2 基于核函數(shù)的相似度計算方法

      使用核函數(shù)的原因如下:(1)不受非線性變換函數(shù)的形式影響;(2)改變核函數(shù)的不同形式和不同參數(shù),能實現(xiàn)不同種類的核函數(shù),實現(xiàn)不同的功能;(3)核函數(shù)還可以與其他算法結(jié)合,形成復(fù)合方法,實現(xiàn)更多功能;(4)解決了“維度災(zāi)難”的問題,對于高維度的輸入能夠高效處理,從而使得在使用核函數(shù)的方法時減少了計算量。

      本文嘗試?yán)脦追N不同的核函數(shù)來計算文本的相似度,分別是高斯核函數(shù)、馬頓核函數(shù)、γ 指數(shù)的核函數(shù)以及最終選用的周期核函數(shù),下面將依次對這幾類核函數(shù)進行介紹。高斯核函數(shù)沿徑向?qū)ΨQ,一般是指從輸入樣本到樣本中心的徑向距離,又被稱為徑向基函數(shù)(Radial basis function, RBF),通過該函數(shù)可以將輸入數(shù)據(jù)映射到無窮維,其表達式為

      徑向基核函數(shù)有以下優(yōu)點:(1)對于非線性函數(shù)能夠?qū)⑵溆成涞教卣骺臻g;(2)參數(shù)較少,訓(xùn)練時較簡單,能節(jié)省訓(xùn)練時間;(3)計算更簡單,能夠減少計算量。

      馬頓核函數(shù)(Matérn kernel function)的內(nèi)核是固定的,相當(dāng)于徑向基核函數(shù)的泛化表示,其原理公式為

      式中:r = ‖ x1- x2‖;l、v 為該核函數(shù)的超參數(shù),v 決定函數(shù)的可導(dǎo)性與平滑程度,并且當(dāng)v →∞時,這個Matérn 核函數(shù)就變成了使用l 作為超參數(shù)的徑向基核函數(shù);Kv為修正后的貝塞爾函數(shù),表示Matérn核函數(shù)由指數(shù)函數(shù)與多項式函數(shù)的乘積組合而成。

      γ 指數(shù)的核函數(shù)的基本公式為

      當(dāng)該γ 指數(shù)核函數(shù)的指數(shù)取1 時,則式(24)變?yōu)?/p>

      此時,式(25)就是前述的Matérn 核函數(shù)中超參數(shù)v=0.5 時的形式,這時運行的過程被稱作Ornstein-Uhlenbeck 過程,即是一個連續(xù)但不平滑的隨機過程。

      本文用到了一種周期性的隨機函數(shù),該函數(shù)由MacKay[11]提出,其公式為

      3 實驗結(jié)果分析

      3.1 NER 實驗結(jié)果分析

      本文數(shù)據(jù)集主要采用weiboNER、resumeNER、CMNER。weiboNER 是從新浪微博上進行采集的,包含多類信息;resumeNER 是新浪經(jīng)濟類的數(shù)據(jù),包含中國上市公司高管的簡歷;CMNER 是CCKS2017 的中文醫(yī)學(xué)命名實體識別數(shù)據(jù)集,包括多類實體,比如身體部位、癥狀體征、檢查和疾病名等。

      本文主要通過4 項指標(biāo)來測試模型的有效性,分別是準(zhǔn)確率(Accuracy, acc)、精確率(Precision,pre)、召回率(Recall, rec)和F1-Measure。準(zhǔn)確率是指在所有測試的數(shù)據(jù)集中,正確識別出的語料除以所有語料總數(shù)之值;精確率是指在所有正確識別出的語料中,實際正確識別的語料除以所有正確識別的語料的數(shù)值;回歸率是指在所有識別為正確的語料中,實際能夠識別出正確語料的比例;F1由精確率和召回率得到,計算公式為F1= 2*P*R/( P + R ),P 代表精確率,R 代表召回率。

      不同模型在數(shù)據(jù)集resumeNER 上的最佳表現(xiàn)如表1 所示。 訓(xùn)練模型主要包括4 類,分別是LSTM+bigram、LSTM+unigram、本文模型(雙向格子LSTM)+bigram 和本文模型(雙向格子LSTM)+unigram,其中,bigram 和unigram 代表兩種分詞方式,分別是二元分詞(將句子每兩個字切分一次)和一元分詞(將句子每一個字切分一次)。從表1 可以看出,應(yīng)用該模型在該數(shù)據(jù)集上采用兩種分詞方式的表現(xiàn)均比使用LSTM 的效果好,對于分別使用unigram 和bigram 分詞方式時,與LSTM 相比,應(yīng)用該模型F1分?jǐn)?shù)分別提升了0.27% 和2.60%,其余4 類指標(biāo)均得到了有效提升,并且可以看出,此時采用bigram 分詞方式時效果最好??傊?,該模型在resumeNER 數(shù)據(jù)集上的效果比LSTM 模型好。

      表1 不同模型在resumeNER 數(shù)據(jù)集上的最佳表現(xiàn)Table 1 The best performance of different models on the resumeNER dataset

      不同模型在數(shù)據(jù)集weiboNER 上的最佳表現(xiàn)如表2 所示。從表2 可以看出,應(yīng)用該模型在該數(shù)據(jù)集上采用兩種分詞方式的表現(xiàn)均比使用LSTM 的效果好,對于分別使用unigram 和bigram 分詞方式時,與LSTM 相比,應(yīng)用該模型F1分?jǐn)?shù)分別提升了8.6% 和4.7%,其余3 類指標(biāo)也得到了有效提升,acc,pre 和rec 最高分別提升了0.4%、6.1%、10.7%??梢钥闯?,該模型在weiboNER 數(shù)據(jù)集上的效果十分突出。

      表2 不同模型在數(shù)據(jù)集weiboNER 上的表現(xiàn)Table 2 The best performance of different models on the weiboNER dataset

      不同模型在數(shù)據(jù)集CMNER 上的最佳表現(xiàn)如表3 所示??梢钥闯觯谠摂?shù)據(jù)集上的效果沒有前兩個數(shù)據(jù)集明顯,分別使用bigram 和unigram 分詞方式時,與經(jīng)典模型相比,其精確率和F1得分都略有下降,但準(zhǔn)確率和召回率均為使用該模型時最高,分別提升了0.02% 和0.50%。該模型在CMNER 數(shù)據(jù)集效果不太明顯,僅有兩項指標(biāo)效果有所提升,可能是因為該數(shù)據(jù)集中的實體多為類似“胸部正位DR片”等檢查項目類的實體,名稱比較復(fù)雜,難以辨認(rèn),導(dǎo)致建立的格子詞典的作用沒有發(fā)揮出來,因此格子結(jié)構(gòu)沒有取得更優(yōu)異的效果。

      表3 不同模型在數(shù)據(jù)集CMNER 上的表現(xiàn)Table 3 The best performance of different models on the CMNER dataset

      3.2 相似度計算實驗結(jié)果分析

      首先,采用語義相同的兩句話進行測試,分別是“嗓子疼怎么辦”和“嗓子疼咋辦”,分別使用基于高斯核函數(shù)、基于指數(shù)核函數(shù)和周期性隨機函數(shù)的方法來計算文本的相似度,并與其他經(jīng)典方法進行對比。此時的高斯核函數(shù)中的超參數(shù)σ2= 1,指數(shù)核函數(shù)中的超參數(shù)γ= 1,l= 1,相當(dāng)于馬頓核函數(shù)中的超參數(shù)v= 0.5,γ= 1,l= 1。其相似度(距離)對比圖如圖8 所示。

      從圖8 中可以看出,在計算兩個結(jié)構(gòu)相似語義相同的句子時,本文中使用的兩種核函數(shù)(徑向基核函數(shù)和周期核函數(shù))所得的相似度值均較大,均大于經(jīng)典方法計算出的相似度值,且均突破了0.75,其中本文用到的周期核函數(shù)效果最為顯著,其相似度計算為1.0,是經(jīng)典方法余弦相似度的兩倍,說明其計算相似度值的準(zhǔn)確率提高了一半,能夠完美得出計算的兩個句子語義相同的結(jié)論,應(yīng)用在問答系統(tǒng)中時,相比其他方法,能夠更好地得出用戶提出問題的真正意圖,從而更好地輸出答案。

      圖9 為幾種方法的相似度對比圖,從圖中可以看出,在計算這兩個長句的相似度時,皮爾遜系數(shù)、徑向基核函數(shù)和指數(shù)函數(shù)計算的相似度均不理想,均未達到0.1,不能得出長句相似的結(jié)論。然而,本文采用的周期核函數(shù)所得相似度為0.891 4,遠大于余弦相似度的0.517 1,能夠完美得出這兩長句語義相似的結(jié)論,因此能夠得出同樣的答案。

      3.3 綜合效果評測

      上述兩小節(jié)分別對兩個創(chuàng)新環(huán)節(jié)進行了單獨測試,本小節(jié)將創(chuàng)新工作合并形成一套完整的系統(tǒng),對整體性能進行評估。分別以例句“我好像得了塵螨過敏性哮喘,有啥法子啊”和“最近一直在打噴嚏,懷疑是塵螨過敏性哮喘,應(yīng)該咋辦”進行實際效果展示,其結(jié)果如表4 所示。對于前者,采用經(jīng)典方法時,系統(tǒng)無法識別出“有啥法子啊”與“怎么辦”的相似度,因此無法給出“塵螨過敏性哮喘”的治療方法,只給出了幾種疾病的治愈率,采用本文方法時,則給出了一系列關(guān)于該疾病的治療方法,效果顯著;對于后者,由其結(jié)果對比可知,采用基于核函數(shù)的方法可得出該句與前句語義相似,從而得出相同的答案,能夠正確處理用戶的詢問信息。

      對于經(jīng)典方法與本文方法詢問不同問題類型,其得到的結(jié)果如表5 所示。可以看出,經(jīng)典方法有時在回答某些問題,比如疾病的治療方法、檢查類型和種類時,其回答結(jié)果分別是治愈周期、某疾病的概率和治愈周期,并非問題的正確結(jié)果,而本文的核函數(shù)方法則可以回答出問題本該得出的結(jié)果,效果顯著,能夠正確回答出問題。

      圖8 結(jié)構(gòu)近似句子相似度對比圖Fig.8 Comparison of sentence similarity of similar structure

      圖9 長句相似度對比圖Fig.9 Comparison of long sentence’s similarity

      表4 應(yīng)用于問答系統(tǒng)的實際效果Table 4 Practical effect of application in Q & A system

      表5 不同方法結(jié)果判定Table 5 Result judgment of different methods

      4 結(jié)束語

      本文針對問答系統(tǒng)中命名實體識別技術(shù)處理句子不完善的問題,提出了一種雙向格子結(jié)構(gòu)的長短時記憶神經(jīng)網(wǎng)絡(luò)(Lattice Bi-LSTM)模型,解決了NER 中基于字向量模型所存在的對句子處理不當(dāng)?shù)膯栴},同時解決了基于詞向量模型所具有的對分詞效果依賴嚴(yán)重的問題;由于采用的是雙向結(jié)構(gòu),與單向相比,能夠更好地理解句子的含義,輸出結(jié)果更具魯棒性,并且能夠增進對上下文內(nèi)容的理解。通過在數(shù)據(jù)集上的測試,也表明該方法具有比單向結(jié)構(gòu)更好的效果,能夠?qū)渥舆M行更好的處理。

      問答系統(tǒng)在進行命名實體識別后,需要對識別出的實體與知識庫中的實體進行相似度計算,本文提出一種將周期性核函數(shù)用于相似度計算的方法,并與其他經(jīng)典方法進行了對比。結(jié)果顯示,對于相同語義和相似語義的句子計算出的相似度比其他方法高,能夠更好地識別出兩個實體之間的相似度,使提出的問題能更準(zhǔn)確地鏈接到知識庫中的答案,從而提高了問答系統(tǒng)回答問題的準(zhǔn)確率。

      猜你喜歡
      分詞實體向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      值得重視的分詞的特殊用法
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      交口县| 新野县| 高密市| 青阳县| 门头沟区| 柳江县| 鞍山市| 米易县| 兴和县| 林芝县| 大田县| 黄陵县| 缙云县| 始兴县| 佛坪县| 阜平县| 开封市| 东源县| 依安县| 莆田市| 宁津县| 自贡市| 清河县| 武汉市| 青海省| 岳池县| 米林县| 哈尔滨市| 隆尧县| 聂拉木县| 莲花县| 靖江市| 鄱阳县| 岐山县| 通州市| 新河县| 乐山市| 涟源市| 新巴尔虎左旗| 德兴市| 阳城县|