唐穎 曹春萍
摘 要:識(shí)別一篇生物醫(yī)學(xué)文獻(xiàn)中的核心實(shí)體是準(zhǔn)確提取該文獻(xiàn)信息的前提。針對(duì)目前生物醫(yī)學(xué)文獻(xiàn)實(shí)體識(shí)別和篩選方法的局限性,提出了基于LSTM的生物醫(yī)學(xué)核心實(shí)體提取模型。該模型以LSTM為核心,通過(guò)更為優(yōu)秀的詞向量和輸入生成規(guī)則改良模型輸入,使用雙向LSTM模型改進(jìn)處理過(guò)程,將結(jié)果保存為樹(shù)形結(jié)構(gòu)并對(duì)該樹(shù)進(jìn)行合理剪枝獲取標(biāo)注鏈,實(shí)現(xiàn)輸出結(jié)果處理,最終使實(shí)體識(shí)別的F1值達(dá)到了89.35%。此外,在核心實(shí)體篩選過(guò)程中,基于TF/IDF算法規(guī)則,充分考慮了詞頻、位置、逆文檔頻率等因素,使核心實(shí)體篩選的F1值達(dá)到了76.85%。
關(guān)鍵詞:實(shí)體識(shí)別;改進(jìn)詞向量;雙向LSTM;剪枝策略;核心實(shí)體篩選
DOI:10.11907/rjdk.173178
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)005-0132-06
Abstract:Identifying the core entities in a biomedical document is a prerequisite for accurate extraction of important information of the document. In view of the difficulties of entity and the limitations of existing methods of entity recognition and core entity screening in biomedical literature, a model of biomedical core entity extraction based on LSTM is proposed in this paper. The model takes LSTM as the core, applies the more excellent word vector and input generation rules to improve the model input, and employs the two-dimensional LSTM model to improve model of the process, The results are saved into the tree structure and reasonable pruning of the tree to achieve the output chain annotation way to obtain. Entity recognition F1 value reached 89.35%. In addition, in the process of core entity screening, the factors such as word frequency, location and inverse document frequency are fully taken into account on the premise of TF/IDF algorithm rules, and the F1 value of core entity screening is up to 76.85%.
Key Words:entity recognition; improved word vector; bidirectional LSTM; pruning strategy; core entity screening
0 引言
生物醫(yī)學(xué)科技的飛速發(fā)展帶來(lái)生物醫(yī)學(xué)文獻(xiàn)量空前龐大,文獻(xiàn)數(shù)量的指數(shù)級(jí)增長(zhǎng)不可避免地導(dǎo)致生物醫(yī)學(xué)信息爆炸,要從文獻(xiàn)中獲取核心信息,依靠人工閱讀需要耗費(fèi)大量的時(shí)間成本和人力資源。如何迅速且精準(zhǔn)地獲取文章觀點(diǎn),以短小精悍的文本形式呈現(xiàn)給讀者,成為當(dāng)下亟待解決的難題。
2008年,孫風(fēng)梅[1]提出醫(yī)學(xué)文獻(xiàn)主題分為單元主題、多元主題、多主題等類型。單元主題指一個(gè)概念即可表達(dá)一個(gè)主題,如抑癌基因(tumor suppressor genes)、腦缺血(brain ischemia)、高血壓(hypertension);多元主題指一個(gè)主題概念需要幾個(gè)概念組在一起共同表達(dá),如食道皮膚瘺是由食道瘺和皮瘺(esophageal fistula + cutaneous fistula)組成的概念;多主題指一篇文獻(xiàn)涉及到多個(gè)既相互獨(dú)立又相互聯(lián)系的主題概念,如“體外循環(huán)的腦保護(hù)和肺保護(hù)”涉及到了“體外循環(huán)的腦保護(hù)”和“體外循環(huán)的肺保護(hù)”兩個(gè)主題概念。主題往往會(huì)涉及到一些醫(yī)學(xué)上的名詞概念,而這些名詞概念通常被稱作生物醫(yī)學(xué)實(shí)體。由于生物醫(yī)學(xué)文獻(xiàn)都是圍繞生物醫(yī)學(xué)實(shí)體展開(kāi)的,所以用文章的核心實(shí)體及它們之間的關(guān)系就能快速且準(zhǔn)確表達(dá)出文章觀點(diǎn)。因此,識(shí)別文獻(xiàn)中的核心實(shí)體成為首要問(wèn)題。
1 實(shí)體識(shí)別相關(guān)研究
1995年舉行的第六屆消息理解會(huì)議(MUC-6)首次提出實(shí)體識(shí)別概念。在生物醫(yī)學(xué)領(lǐng)域,針對(duì)醫(yī)學(xué)文獻(xiàn)中的基因、蛋白質(zhì)、藥物名、組織名等相關(guān)生物命名實(shí)體識(shí)別研究較集中[2],學(xué)術(shù)界都以F1值作為判定識(shí)別方法優(yōu)劣的標(biāo)準(zhǔn)。1998年,Proux等[3]應(yīng)用英語(yǔ)詞典識(shí)別基因和蛋白質(zhì)取得了57.6%的F1值,這是最初的基于字典的方法。字典法簡(jiǎn)單實(shí)用,但是,隨著新實(shí)體的不斷更新,實(shí)體過(guò)長(zhǎng)等現(xiàn)象增多,字典法顯得力不從心,基于啟發(fā)式規(guī)則的方法開(kāi)始逐漸普及。Fukuda[4]等最早設(shè)定了一套系統(tǒng)規(guī)則用于識(shí)別文檔中的蛋白質(zhì)名稱。該方法首先采用機(jī)器學(xué)習(xí)方法解決由于縮寫引起的識(shí)別錯(cuò)誤,然后利用相似字符串匹配和變體概率生成器擴(kuò)展詞典,解決由于拼寫變化引起的低召回率問(wèn)題,最終取得的F1值為66.6%?;趩l(fā)式規(guī)則的方法缺陷也顯而易見(jiàn),即需要手工建立規(guī)則?;跈C(jī)器學(xué)習(xí)的方法是目前的主流方法,它把命名實(shí)體看成詞的分類問(wèn)題,或者是序列分析問(wèn)題,識(shí)別方法[5-10]有支持向量機(jī)(SVM)、隱馬爾科夫模型(HMM)、最大熵馬爾可夫模型(MEMM)、條件隨機(jī)場(chǎng)(CRF)等,F(xiàn)1值因不同實(shí)驗(yàn)條件達(dá)到了63.0%~80.4%不等。生物醫(yī)學(xué)文獻(xiàn)中實(shí)體存在很多難點(diǎn),如實(shí)體包含一些修飾詞、多個(gè)生物醫(yī)學(xué)實(shí)體名稱會(huì)共享一個(gè)關(guān)鍵詞、生物醫(yī)學(xué)語(yǔ)言沒(méi)有一套統(tǒng)一嚴(yán)格的命名系統(tǒng)、文本經(jīng)常會(huì)用到縮寫詞但很多不標(biāo)準(zhǔn)等,這些問(wèn)題已經(jīng)難以依靠傳統(tǒng)的淺層機(jī)器學(xué)習(xí)解決。隨著近年來(lái)深度學(xué)習(xí)的發(fā)展和普及,很多學(xué)者開(kāi)始在實(shí)體識(shí)別領(lǐng)域運(yùn)用深度學(xué)習(xí)模型,如CNN、RNN等。長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)是一種改良的遞歸神經(jīng)網(wǎng)絡(luò),它很好地解決了遞歸神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)的梯度彌散問(wèn)題,本文基于Ger等[11]提出的帶有忘記門的LSTM網(wǎng)絡(luò)結(jié)構(gòu),在實(shí)體識(shí)別問(wèn)題上進(jìn)行了合理改進(jìn)。
深度學(xué)習(xí)過(guò)程中機(jī)器無(wú)法直接讀懂自然語(yǔ)言,因此,深度學(xué)習(xí)的首要任務(wù)是將自然語(yǔ)言中的每個(gè)詞匯轉(zhuǎn)換成數(shù)學(xué)向量,詞向量就是一個(gè)很好的選擇。詞向量種類很多,如Google的Mikvolov等[12]在2013年提出的Word2vec和斯坦福大學(xué)的Pennington等[13]提出的GloVe。Word2vec的訓(xùn)練模型CBOW和skip-gram的基本思想是,通過(guò)訓(xùn)練,利用局部上下文將每個(gè)詞映射成K維實(shí)數(shù)向量(K一般為模型中的超參數(shù)),通過(guò)詞之間的距離(比如cosine 相似度、歐氏距離等)判斷它們之間的語(yǔ)義相似度。相比于Word2vec,GloVe構(gòu)造了一個(gè)全局的詞共現(xiàn)矩陣,結(jié)合全局矩陣分解方法和局部窗方法,融合了文本的全局信息和局部上下文信息。這兩種詞向量模型各有千秋,Word2vec以預(yù)測(cè)為基礎(chǔ),較好地刻畫了局部信息;GloVe以計(jì)數(shù)為基礎(chǔ),能更好地描述全局信息。因此,本文采取拼接二者的方式改進(jìn)詞向量并對(duì)輸入進(jìn)行改造,形成最適合LSTM的輸入句向量。對(duì)自然語(yǔ)言而言,完整的上下文信息才能準(zhǔn)確描述一個(gè)詞的信息。例如,當(dāng)一個(gè)詞的位置非常靠前時(shí),往往需要后文的信息才能準(zhǔn)確描述該詞的含義,單純地使用正向詞向量表示句子進(jìn)行學(xué)習(xí)顯然無(wú)法解決這一矛盾,為此本文提出用雙向句子序列輸入使結(jié)果更加準(zhǔn)確。
對(duì)識(shí)別出的實(shí)體進(jìn)行合理篩選也是提煉一篇文獻(xiàn)主題不可或缺的部分?,F(xiàn)使用最為廣泛的關(guān)鍵詞提取方法是Salton[14]提出的TF/IDF(term frequency–inverse document frequency),其主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率高,但在其它文章中很少出現(xiàn),則認(rèn)為此詞或短語(yǔ)對(duì)于該文獻(xiàn)的貢獻(xiàn)高。該理論對(duì)本文研究同樣適用。醫(yī)學(xué)文獻(xiàn)作為研究論文,有著標(biāo)題、摘要、正文等清晰的文本架構(gòu)。肖忠華等[15-16]多位學(xué)者明確指出,摘要是論文的重要組成部分,其重要程度在文章正文之上。因此,在度量實(shí)體的重要程度時(shí),不僅要考慮其出現(xiàn)的頻率,還應(yīng)考慮其出現(xiàn)的位置。
結(jié)合以上研究,本文提出基于LSTM的生物醫(yī)學(xué)核心實(shí)體提取模型。該模型以LSTM模型為核心,通過(guò)改進(jìn)輸入、改造LSTM模型、對(duì)模型輸出使用剪枝策略等方法,使實(shí)體識(shí)別F1值達(dá)到了89.35%。此外,本文基于詞頻、位置、逆文檔頻率等因素,改進(jìn)了原有的TF/IDF算法,使核心實(shí)體識(shí)別F1值達(dá)到了76.85%。
2 核心實(shí)體提取模型
核心實(shí)體提取模型基本流程如圖1所示:首先利用詞向量技術(shù)和BILOU標(biāo)注法對(duì)文本進(jìn)行預(yù)處理,預(yù)處理的語(yǔ)句結(jié)果作為模型輸入;然后,建立雙向LTSM模型,對(duì)預(yù)處理好的生物文本進(jìn)行訓(xùn)練,對(duì)新文獻(xiàn)的標(biāo)注結(jié)果進(jìn)行預(yù)測(cè);將預(yù)測(cè)出的標(biāo)注結(jié)果概率存儲(chǔ)成樹(shù)結(jié)構(gòu),通過(guò)初步策略進(jìn)行剪枝和進(jìn)一步并行,求解出最準(zhǔn)確的預(yù)測(cè)路徑,進(jìn)而識(shí)別出一篇文獻(xiàn)中的生物醫(yī)學(xué)實(shí)體;最后,度量每個(gè)識(shí)別出的實(shí)體對(duì)文章貢獻(xiàn)程度,并篩選出最能反映文章核心內(nèi)容的實(shí)體作為核心實(shí)體保存。
2.1 模型輸入生成
2.1.1 詞向量表生成
原始訓(xùn)練語(yǔ)料(trainText)來(lái)源于pubmed醫(yī)學(xué)數(shù)據(jù)庫(kù)的生物醫(yī)學(xué)文獻(xiàn),其中含有大量生物實(shí)體,語(yǔ)法也符合生物醫(yī)學(xué)規(guī)范。為了使識(shí)別效果更加準(zhǔn)確,需要輸入的詞向量帶有更豐富的語(yǔ)義信息。因此,本文采用融合了Word2vec和GloVe兩種詞向量的方式。首先,分別利用Word2vec和GloVe算法對(duì)同一訓(xùn)練文本trainText進(jìn)行訓(xùn)練,生成各自關(guān)于特定訓(xùn)練文本的詞向量表。然后,將兩個(gè)詞向量表拼接,以得到有全局和局部?jī)煞N特征的詞向量表map(word,vector)。最終生成的詞向量表記錄的是每一個(gè)詞匯在訓(xùn)練文本中對(duì)應(yīng)的唯一向量表示。詞向量表map(word,vector)生成算法如下:
算法1 詞向量生成算法
input:trainText
output:map(word,vector)
begin:
map(word,vector1)=word2vec(trainText);
map(word,vector2)=GloVe(trainText);
map(word,vector)=combine
(map(word,vector1),map(word,vector2));
end;
算法完成得到的每一個(gè)單詞與其唯一的詞向量標(biāo)識(shí)對(duì)應(yīng)如表1所示。
2.1.2 輸入表示與標(biāo)記方法
LSTM模型的訓(xùn)練單位是語(yǔ)句,因此需要利用生成好的詞向量表將文本語(yǔ)句表示成合理的輸入形式并作出正確標(biāo)注。
輸入生成過(guò)程為:首先,對(duì)原始生物語(yǔ)句S中的每一個(gè)單詞,在生成的詞向量表中找到其對(duì)應(yīng)的詞向量Vi并進(jìn)行映射,形成語(yǔ)句的詞向量序列V。其次,由于語(yǔ)句不是獨(dú)立的,每個(gè)詞的含義也需要依賴于它的上下文信息。因此,本文使用拼接窗口為3的詞向量大小作為最終中間詞表示。在處理序列邊界時(shí),在句子的開(kāi)端和結(jié)尾處自定義一個(gè)邊界詞向量Vi,如圖2所示。
在詞向量轉(zhuǎn)換完成之后,還需要對(duì)句子中的每一個(gè)token進(jìn)行標(biāo)記。本文采用BILOU標(biāo)記法,其中“B”、“I”、“L”分別表示實(shí)體的開(kāi)始、中間和結(jié)束,“U”表示只有一個(gè)token實(shí)體,“O”表示非標(biāo)注實(shí)體。
2.2 雙向LSTM實(shí)體識(shí)別框架
利用標(biāo)注好的訓(xùn)練語(yǔ)料,使用LSTM實(shí)體識(shí)別框架進(jìn)行訓(xùn)練。LSTM是對(duì)傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的改進(jìn),它用極易單元替換了隱函數(shù)。LSTM擁有3個(gè)控制門,一個(gè)忘記門層,用于判定一個(gè)狀態(tài)是否應(yīng)該舍棄或保留,第二個(gè)門層用于更新?tīng)顟B(tài),第三個(gè)門層用于確定輸出,如圖3所示。
上面公式中,σ表示sigmoid激活函數(shù),i,f,c,o分別表示輸入門、遺忘門、記憶單元、輸出門。在訓(xùn)練階段,訓(xùn)練的一個(gè)單位為一個(gè)帶有標(biāo)記的語(yǔ)句,每個(gè)語(yǔ)句按照單詞順序輸入到LSTM模型中進(jìn)行訓(xùn)練,每個(gè)單詞為模型的一層,上層的輸出會(huì)影響下層的輸入。LSTM經(jīng)過(guò)大量的標(biāo)記文本訓(xùn)練,將得到LSTM訓(xùn)練模型,這個(gè)模型即可對(duì)未標(biāo)記的語(yǔ)句進(jìn)行標(biāo)記預(yù)測(cè),預(yù)測(cè)的結(jié)果是該語(yǔ)句的每個(gè)單詞的標(biāo)記概率。隨著輸入的標(biāo)記語(yǔ)句不斷增加,生成的模型會(huì)不斷被更新和精進(jìn),得到更為準(zhǔn)確的預(yù)測(cè)結(jié)果,訓(xùn)練和預(yù)測(cè)算法如下:
算法2 LSTM模型訓(xùn)練與預(yù)測(cè):
Input:tagSentenceCollection,newSentence
Output:trainModel,tagResule
BeginTrain://訓(xùn)練階段
trainModel=null;
While(tagSentence!=lastTagSentence){
LSTM(tagSentence);
Modify(trainModel);
tagSentence=nextTagSentence;
}
Save(trainModel);
EndTrain;
BeginPredict://預(yù)測(cè)階段
tagResult=trainModel(newSentence);
EndPredict;
雙向LSTM實(shí)體識(shí)別框架的核心思想是用兩種序列(順序和逆序)對(duì)同一個(gè)語(yǔ)句向量進(jìn)行LSTM訓(xùn)練和預(yù)測(cè),得到兩套不同的隱層網(wǎng)絡(luò)。模型如圖4所示。
由于靠前的詞需要更多的后文信息,而位置靠后的詞更依賴前文信息,因此,正向和反向的結(jié)果集對(duì)于最終的結(jié)果影響程度與該詞語(yǔ)在文獻(xiàn)中的位置有關(guān)。因此,對(duì)于兩個(gè)隱層網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的取舍有如下定義:
其中,Yi為某個(gè)詞的預(yù)測(cè)結(jié)果,Y1i為該詞的正向預(yù)測(cè)結(jié)果,Yi2為該詞的反向預(yù)測(cè)結(jié)果,i為該詞的位置,n為序列的總數(shù)。通過(guò)預(yù)測(cè)和計(jì)算可以生成語(yǔ)句中每個(gè)詞對(duì)應(yīng)的BILOU標(biāo)注概率。
2.3 實(shí)體標(biāo)注結(jié)果剪枝策略
語(yǔ)句概率需要確定最終唯一的語(yǔ)句標(biāo)注鏈才能實(shí)現(xiàn)實(shí)體識(shí)別。LSTM對(duì)句子中每個(gè)單詞預(yù)測(cè)結(jié)果是關(guān)于BILOU每種標(biāo)注的概率。傳統(tǒng)方式會(huì)認(rèn)為概率較大,即認(rèn)為是該單詞的標(biāo)注,這種方式遺漏了實(shí)體標(biāo)注之間存在的相應(yīng)關(guān)系:①“I”、“L”不可以是語(yǔ)句的首個(gè)標(biāo)注;②“B”標(biāo)注后面只能是“I”或 “L”標(biāo)注;③“I”標(biāo)注后面只能是“I”或 “L”標(biāo)注;④“L”標(biāo)注后面只能是“B”、“U”或 “O”標(biāo)注;⑤“O”標(biāo)注后面只能是“B”、“O”或 “U”標(biāo)注;⑥“U”標(biāo)注后面只能是“B”、“O”或 “U”標(biāo)注。
這些隱含關(guān)系單純依靠概率判定顯然是不合理的,因此需要引入更多的判定條件使結(jié)果更為準(zhǔn)確。由于每個(gè)單詞的標(biāo)注都有幾種可能,而每種可能的概率不同,因此,若干個(gè)單詞組成的一個(gè)句子的標(biāo)注可能是一個(gè)n層樹(shù)(n為語(yǔ)句的單詞個(gè)數(shù))。如圖5所示,該樹(shù)代表一個(gè)預(yù)測(cè)語(yǔ)句的結(jié)果,除根節(jié)點(diǎn)外的每一層均表示語(yǔ)句中的一個(gè)單詞,從上至下的順序?yàn)檎Z(yǔ)句中的單詞順序。樹(shù)中同一層次的每個(gè)葉子節(jié)點(diǎn)代表該詞為BILOU五種標(biāo)記的概率情況。為了得到最準(zhǔn)確的標(biāo)注結(jié)果,需要對(duì)該樹(shù)進(jìn)行剪枝。
剪枝的第一步是利用標(biāo)記間相應(yīng)關(guān)系規(guī)則對(duì)樹(shù)進(jìn)行初步剪枝,剪枝后的樹(shù)將變成一棵簡(jiǎn)單清晰、邏輯正確且?guī)в袡?quán)值的子樹(shù)(見(jiàn)圖6),其中的權(quán)值是每一層標(biāo)記的概率。
剪枝的第二步是在這棵樹(shù)中尋找最優(yōu)通路作為最終標(biāo)記結(jié)果。本文采用自下而上選取最優(yōu)解方式:首先找到最底層的葉子節(jié)點(diǎn),選出權(quán)值最大的節(jié)點(diǎn)保留,刪除其它節(jié)點(diǎn);然后將該節(jié)點(diǎn)的父節(jié)點(diǎn)權(quán)值更改為原權(quán)值與子節(jié)點(diǎn)權(quán)值之和;再按照相同的方法比較更上一層節(jié)點(diǎn)的權(quán)值并將最大子節(jié)點(diǎn)權(quán)值加入父節(jié)點(diǎn),直到最上一層選取到的最大權(quán)值的一條鏈,即是該預(yù)測(cè)文本最為合理的標(biāo)注。具體算法描述如下:
算法3 第二步剪枝策略算法
step1://找到最后一層非葉子節(jié)點(diǎn)
if(node!=lastNode)next;
else node=node->parent;
step2://保留該節(jié)點(diǎn)的最大孩子節(jié)點(diǎn),刪除其他節(jié)點(diǎn),且該節(jié)點(diǎn)的權(quán)值變?yōu)樽畲蠛⒆庸?jié)點(diǎn)與自身節(jié)點(diǎn)之和;
save(maxChild);
delete(otherChildren);
node.weight+=maxChild.weight;
node=node->parent;
step3://向上一層遞歸,如果節(jié)點(diǎn)不為根節(jié)點(diǎn)則重復(fù)step2,如果節(jié)點(diǎn)為根節(jié)點(diǎn)則權(quán)值計(jì)算結(jié)束
if(node!=root)goto step2;
else end;
完成剪枝和權(quán)值計(jì)算后,每個(gè)預(yù)測(cè)語(yǔ)句都會(huì)得到唯一的BILOU標(biāo)注序列,標(biāo)注序列中的“BIL”、“BL”和“U”的序列即為識(shí)別到的實(shí)體。
2.4 核心醫(yī)學(xué)命名實(shí)體度量
本文基于詞頻、位置和逆文檔頻率得出衡量實(shí)體重要性的標(biāo)準(zhǔn):
wp:實(shí)體所處某一位置的權(quán)重,正文中權(quán)重為1,摘要的權(quán)值為摘要與正文的長(zhǎng)度比,標(biāo)題的權(quán)重為標(biāo)題與正文的長(zhǎng)度比。
TFp:實(shí)體在某一位置出現(xiàn)的次數(shù)。
IDF:實(shí)體的逆文檔頻率,即實(shí)體在除此文獻(xiàn)之外的出現(xiàn)頻率。
將實(shí)體按照重要性從大到小排序,得到一個(gè)實(shí)體重要性集合,計(jì)算集合中兩兩之間的權(quán)重差值的最大值:
此時(shí)可以認(rèn)為Wi-1相比于Wi對(duì)整個(gè)文章的影響權(quán)重并不大。因此,將權(quán)重在Wi以上的實(shí)體認(rèn)為是核心實(shí)體并保留存儲(chǔ),其它實(shí)體則刪去。
3 實(shí)驗(yàn)對(duì)比與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
實(shí)驗(yàn)環(huán)境:使用C語(yǔ)言,實(shí)驗(yàn)機(jī)器采用8G內(nèi)存、1T硬盤,操作系統(tǒng)Window7。
數(shù)據(jù)來(lái)源:pubmed公開(kāi)醫(yī)學(xué)文獻(xiàn)。
3.2 評(píng)價(jià)指標(biāo)
(1)實(shí)體識(shí)別實(shí)驗(yàn)評(píng)價(jià)指標(biāo)。
準(zhǔn)確率precision=tptp+fp
召回率recall=tptp+fn
F1值:F1=2+precision+recallprecision+recall
tp表示正確識(shí)別出的醫(yī)學(xué)實(shí)體個(gè)數(shù),fp表示錯(cuò)誤識(shí)別出的醫(yī)學(xué)實(shí)體個(gè)數(shù),fn表示標(biāo)準(zhǔn)結(jié)果中的醫(yī)學(xué)實(shí)體個(gè)數(shù)。
(2)核心實(shí)體篩選實(shí)驗(yàn)評(píng)價(jià)指標(biāo)。
準(zhǔn)確率:precision=tptp+fp
召回率:recall=tptp+fn
F1值:F1=2+precision+recallprecision+recall
tp表示正確篩選出的核心醫(yī)學(xué)實(shí)體個(gè)數(shù),fp表示篩選出的核心醫(yī)學(xué)實(shí)體個(gè)數(shù),fn表示標(biāo)準(zhǔn)結(jié)果中的核心醫(yī)學(xué)實(shí)體個(gè)數(shù)。
3.3 實(shí)驗(yàn)結(jié)果及相關(guān)分析
(1)實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果及相關(guān)分析見(jiàn)表3、圖7。
從表3和圖7可以看出,同樣使用改進(jìn)的詞向量,相比于傳統(tǒng)機(jī)器學(xué)習(xí)算法,使用LSTM算法提高了實(shí)體識(shí)別的準(zhǔn)確率和召回率。通過(guò)對(duì)比正向、逆向和雙向LSTM模型實(shí)驗(yàn)數(shù)據(jù)可知,雙向的LSTM能得到最有效的準(zhǔn)確率和召回率。在加入剪枝策略后,實(shí)體識(shí)別結(jié)果更加準(zhǔn)確。
(2)核心實(shí)體篩選實(shí)驗(yàn)結(jié)果及相關(guān)分析,見(jiàn)表4、圖8。
從表4和圖8可以看出,本文對(duì)傳統(tǒng)IF/IDF算法進(jìn)行的融入位置信息改進(jìn),對(duì)核心實(shí)體篩選的準(zhǔn)確率和召回率都有提升。
4 結(jié)語(yǔ)
雖然本文的識(shí)別精度和過(guò)濾方式能成功識(shí)別文章的核心實(shí)體,但是依然存在改進(jìn)空間。首先,詞向量的優(yōu)劣對(duì)結(jié)果影響很大,本文的拼接詞向量方式是否存在更好的優(yōu)化結(jié)果值得研究。其次,LSTM之外的神經(jīng)網(wǎng)絡(luò)和對(duì)LSTM其它方面的改進(jìn)可以進(jìn)一步提升實(shí)驗(yàn)結(jié)果。第三,在識(shí)別出核心實(shí)體后,對(duì)于實(shí)體之間關(guān)系的合理抽取和展示是本文后續(xù)的研究重點(diǎn)。
參考文獻(xiàn):
[1] 孫風(fēng)梅.醫(yī)學(xué)文獻(xiàn)主題分析方法研究[J].預(yù)防醫(yī)學(xué)情報(bào)雜志,2008,24(2):129-131.
[2] 胡雙,陸濤,胡建華.文本挖掘技術(shù)在藥物研究中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2013,34(8):49-53.
[3] PROUX D, RECHENMANN F, JULLIARD L, et al. Detecting gene symbols and names in biological texts: a first step toward pertinent information extraction. [C]. CiteSeer, 1998:248-255.
[4] FUKUDA K, TAMURA A, TSUNODA T, et al. Toward information extraction: identifying protein names from biological papers. [C]. Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. Pac Symp Biocomput, 1998:707-718.
[5] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995,20(3):273-297.
[6] GRIMESR. The buzz about fuzzers [EB/OL]. http:∥www.infoworld.com/article/05 /09/09/37OPsecadvise 1.html.
[7] MITSUMORI T, FATION S, MURATA M, et al. Gene/protein name recognition based on support vector machine using dictionary as features[J]. Bmc Bioinformatics, 2005,6(1):8-18.
[8] ZHOU G, ZHANG J, SU J, et al. Recognizing names in biomedical texts: a machine learning approach.[J]. Bioinformatics, 2004,20(7):1178-90.
[9] LIN Y F, TSAI T H, CHOU W C, et al. A maximum entropy approach to biomedical named entity recognition[C]. International Conference on Data Mining in Bioinformatics. Springer-Verlag, 2004:56-61.
[10] RICHARD T, CHENG-LUNG S, DAI H J, et al. NERBio: using selected word conjunctions, term normalization, and global patterns to improve biomedical named entity recognition[J]. Bmc Bioinformatics, 2006,7(5):11-15.
[11] GERS F A, SCHMIDHUBER J A, CUMMINS F A. Learning to forget: continual prediction with LSTM[C].Artificial Neural Networks, 1999. ICANN 99. Ninth International Conference on. IET, 2002:2451.
[12] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013(5):1245-1260.
[13] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]. Conference on Empirical Methods in Natural Language Processing. 2014:1532-1543.
[14] GERARD SALTON, CHRISTOPHER BUCKLEY. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5):513-523.
[15] 肖忠華,曹雁.中外作者科技論文多維度語(yǔ)步對(duì)比研究[J].外語(yǔ)教學(xué)與研究,2014(2):260-272.
[16] 黃河清,韓健,張?chǎng)L驚,等.中外科技期刊文體格式的變化及建議[J].中國(guó)科技期刊研究,2015,26(2):143-151.
(責(zé)任編輯:杜能鋼)