錢玲飛 崔曉蕾
摘要:[目的/意義]探究使用大數(shù)據(jù)技術(shù)解決傳統(tǒng)制造業(yè)知識管理問題的方法,實(shí)現(xiàn)對專利知識的自動抽取和結(jié)構(gòu)化構(gòu)建,提高信息檢索效率和利用率。[方法/過程]結(jié)合深度學(xué)習(xí)技術(shù),提出了一種面向非結(jié)構(gòu)化專利信息的知識圖譜自動構(gòu)建方法,在BiLSTM-CRF的基礎(chǔ)上引入預(yù)訓(xùn)練模型實(shí)現(xiàn)對實(shí)體和開放式關(guān)系的自動抽取,并基于遷移學(xué)習(xí)進(jìn)行數(shù)據(jù)增強(qiáng)提升抽取效果;改進(jìn)實(shí)體關(guān)系抽取模型提升三元組結(jié)構(gòu)識別的準(zhǔn)確率;最后將其存儲到Neo4j圖數(shù)據(jù)庫中進(jìn)行領(lǐng)域知識圖譜的構(gòu)建。[結(jié)果/結(jié)論]本文提出的方法解決了信息抽取在專業(yè)領(lǐng)域樣本量少的問題,對專利三元組識別的準(zhǔn)確率達(dá)到了94.71%,構(gòu)建的知識圖譜能夠滿足企業(yè)創(chuàng)新知識管理和競爭情報獲取的需求,提升企業(yè)知識的可重用性。
關(guān)鍵詞:專利;數(shù)據(jù)增強(qiáng);信息抽取;三元組識別;新能源汽車電池技術(shù)領(lǐng)域
近來,企業(yè)知識產(chǎn)權(quán)保護(hù)意識和創(chuàng)新意識不斷提升,專利文獻(xiàn)的數(shù)量也隨之不斷增長,在信息化建設(shè)仍然未全面普及的傳統(tǒng)制造業(yè),難以對海量的文獻(xiàn)數(shù)據(jù)進(jìn)行科學(xué)的管理和利用。隨著“中國制造2025”[1]“兩化融合”[2]的提出,制造業(yè)向智能制造的轉(zhuǎn)型升級是未來發(fā)展的必然趨勢。然而,目前國內(nèi)中小制造業(yè)企業(yè)正面臨著信息化建設(shè)成本高,人才少,缺乏信息化建設(shè)具體實(shí)施方案等諸多問題[3]。專利文本作為制造業(yè)創(chuàng)新型文獻(xiàn),主要以非結(jié)構(gòu)化或半結(jié)構(gòu)化形式存儲,對其挖掘領(lǐng)域知識并建立領(lǐng)域知識圖譜能夠提升知識的可重用性,幫助企業(yè)進(jìn)行流程化的知識管理和存儲。本研究將深度學(xué)習(xí)技術(shù)運(yùn)用到領(lǐng)域知識圖譜的自動構(gòu)建,旨在融合大數(shù)據(jù)技術(shù)幫助傳統(tǒng)制造業(yè)進(jìn)行內(nèi)部知識管理,整合技術(shù)資源,解決在無可用知識庫情況下高質(zhì)量領(lǐng)域知識抽取的問題,降低中小企業(yè)信息化建設(shè)成本。
1相關(guān)研究
1.1知識圖譜發(fā)展研究現(xiàn)狀
知識圖譜的概念最早在2012年由谷歌公司提出[4],其本質(zhì)上是一個語義網(wǎng)絡(luò)知識庫,主要分為知識抽取和圖譜數(shù)據(jù)存儲兩個部分。知識抽取主要是從結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的文本中挖掘有價值的信息[5],數(shù)據(jù)存儲則是將抽取出的信息進(jìn)行集成。知識圖譜的存儲表現(xiàn)形式由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)即實(shí)體,邊即實(shí)體間的關(guān)系,知識通過這種方式集成后可以表現(xiàn)為結(jié)構(gòu)化形式,便于知識的結(jié)構(gòu)化管理和檢索。
國外知識圖譜技術(shù)進(jìn)展較為迅速,目前發(fā)展較為成熟的知識圖譜有DBpedia[6]、YAGO[7]等。DB?pedia通過從維基百科抽取結(jié)構(gòu)化結(jié)果,強(qiáng)化維基百科的檢索功能,包含95億事實(shí)三元組;YOGA包含1.2億條三元組數(shù)據(jù),相比DBpedia引入了時間、空間知識。國內(nèi)知識圖譜技術(shù)起步較晚,同樣集中在百科知識圖譜領(lǐng)域,百度知識圖譜基于百度百科構(gòu)建而成,不僅能夠提升搜索效率,還可以為企業(yè)多領(lǐng)域業(yè)務(wù)提供知識基礎(chǔ)。
當(dāng)前發(fā)展較完善的知識圖譜大多針對通用領(lǐng)域,但學(xué)術(shù)界已有部分學(xué)者開始進(jìn)行關(guān)注專業(yè)領(lǐng)域知識圖譜的構(gòu)建,XuR等[8]基于半監(jiān)督學(xué)習(xí)從生物醫(yī)學(xué)文獻(xiàn)中抽取疾病風(fēng)險關(guān)系,建立生物醫(yī)療知識庫;XuJ等[9]利用BioBERT模型從PubMed摘要中提取生物實(shí)體、作者、基金關(guān)系等數(shù)據(jù),構(gòu)建了PubMed知識圖譜用于后續(xù)知識分析;廖開際等[10]針對在線醫(yī)療問答社區(qū)數(shù)據(jù)量大、規(guī)范性差、數(shù)據(jù)稀疏等問題,構(gòu)建在線醫(yī)療社區(qū)問答知識圖譜助力個性化醫(yī)療;楊波等[11]基于企業(yè)風(fēng)險知識構(gòu)建知識圖譜,引入時間維度動態(tài)觀測企業(yè)面臨的風(fēng)險因素。領(lǐng)域知識對于企業(yè)來說既是重要的競爭情報,又是企業(yè)創(chuàng)新的堅(jiān)實(shí)基礎(chǔ),因此對領(lǐng)域知識進(jìn)行有效的管理和存儲是十分必要的。本文選取包含領(lǐng)域?qū)I(yè)知識豐富的專利文本作為領(lǐng)域知識圖譜構(gòu)建的數(shù)據(jù)來源,專利文本作為工業(yè)界的重要技術(shù)資源,包含了最新的工藝技術(shù)信息及領(lǐng)域詞匯,便于獲知更多的領(lǐng)域技術(shù)信息。當(dāng)前少有研究針對新能源汽車電池技術(shù)領(lǐng)域構(gòu)建知識圖譜,本文將選取新能源汽車電池技術(shù)領(lǐng)域?yàn)檠芯繉ο?,進(jìn)行領(lǐng)域知識圖譜構(gòu)建。
1.2實(shí)體關(guān)系抽取國內(nèi)外研究現(xiàn)狀
實(shí)體關(guān)系抽取作為知識圖譜構(gòu)建的基礎(chǔ),主要由實(shí)體識別和關(guān)系識別兩部分構(gòu)成。目前實(shí)體識別的研究已經(jīng)取得了一定的進(jìn)展,傳統(tǒng)的機(jī)器學(xué)習(xí)模型有隱馬爾可夫模型(HMM)[12]、條件隨機(jī)場(CRF)[13]等。隨著研究者對深度學(xué)習(xí)研究的不斷深入,HammertonJ[14]首先將LSTM模型應(yīng)用于實(shí)體抽取領(lǐng)域;此后,HuangZ等[15]提出在條件隨機(jī)場模型的基礎(chǔ)上加入雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)來挖掘上下文信息,提高模型效果。ZhaiZ等[16]在BiLSTM-CRF模型的基礎(chǔ)上引入EMLo預(yù)訓(xùn)練模型,增強(qiáng)數(shù)據(jù)的語義表示。目前在命名實(shí)體識別基礎(chǔ)研究領(lǐng)域已有大量的高質(zhì)量開源數(shù)據(jù),但在特定領(lǐng)域,樣本數(shù)據(jù)缺乏是信息自動抽取的難點(diǎn)之一。馬建霞等[17]依托于文物資源數(shù)據(jù)庫對訓(xùn)練樣本進(jìn)行規(guī)則映射,解決了文物領(lǐng)域數(shù)據(jù)標(biāo)注的問題;彭博[18]基于規(guī)則庫和知識庫對生態(tài)治理技術(shù)領(lǐng)域文獻(xiàn)進(jìn)行實(shí)體標(biāo)注。在沒有可應(yīng)用的領(lǐng)域本體及術(shù)語詞典的情況下,人工標(biāo)注的工作量繁重,需要耗費(fèi)巨大的時間成本。因此,本文將在小樣本標(biāo)注的基礎(chǔ)上,基于遷移學(xué)習(xí)思想進(jìn)行數(shù)據(jù)增強(qiáng),旨在獲取精確度更高的領(lǐng)域知識用于領(lǐng)域知識圖譜的構(gòu)建。
關(guān)系識別可分為限定關(guān)系識別和開放關(guān)系識別。傳統(tǒng)實(shí)體關(guān)系抽取研究大多基于限定關(guān)系,GiorgiJ等[19]基于BERT預(yù)訓(xùn)練模型提出了端對端的實(shí)體關(guān)系識別;ChenL等[20]對英文專利文本中的實(shí)體關(guān)系進(jìn)行注釋,提出了基于SAO法的實(shí)體關(guān)系抽取框架。限定關(guān)系抽取作為一個多分類問題,通常分類粒度較粗,包含的語義信息有限,為此,BankoM等[21]提出開放關(guān)系抽取的概念,即無需預(yù)先定義關(guān)系類型,從文本中提取所有能找到的語義關(guān)系。開放關(guān)系識別可以看作關(guān)系抽取和實(shí)體關(guān)系識別兩部分,StanovskyG等[22]將開放信息抽取問題轉(zhuǎn)化成序列標(biāo)記問題,基于BiLSTM算法擴(kuò)展了深層語義角色標(biāo)記模型并取得了突破性的進(jìn)展;羅耀東[23]利用基于語義角色標(biāo)注的BiLSTM深度模型運(yùn)用于濕地文獻(xiàn)數(shù)據(jù)關(guān)系抽取,并對實(shí)體關(guān)系進(jìn)行識別和匹配?,F(xiàn)階段開放關(guān)系識別的研究較少,本文將在實(shí)體識別階段加入開放關(guān)系識別,并利用關(guān)系識別分類算法對抽取出的實(shí)體關(guān)系三元組進(jìn)行識別,最終作為知識圖譜構(gòu)建的基礎(chǔ)數(shù)據(jù)。
2基于深度學(xué)習(xí)的領(lǐng)域知識圖譜構(gòu)建模型
本文提出一種基于深度學(xué)習(xí)的領(lǐng)域知識圖譜自動構(gòu)建方法,實(shí)驗(yàn)流程主要分為數(shù)據(jù)預(yù)處理、領(lǐng)域知識抽取、三元組識別及知識圖譜可視化4個部分。
2.1領(lǐng)域信息抽取模型構(gòu)建
為解決領(lǐng)域內(nèi)語料數(shù)據(jù)不足的問題,本文將對已標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)來提升信息抽取的效果。傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法包括同義詞替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除[24],但領(lǐng)域知識往往包含大量專業(yè)詞匯,結(jié)構(gòu)固定,傳統(tǒng)數(shù)據(jù)增強(qiáng)方法并不適用,因此,本文引入遷移學(xué)習(xí)思想進(jìn)行數(shù)據(jù)增強(qiáng)的研究。
遷移學(xué)習(xí)[25]是指將從之前訓(xùn)練任務(wù)中學(xué)到的知識應(yīng)用到新的訓(xùn)練任務(wù)中,主要分為樣本遷移、特征遷移、模型遷移和關(guān)系遷移。其中,特征遷移[26]可以在文本特征分布相似的情況下,借助歷史標(biāo)記數(shù)據(jù)以解決目標(biāo)項(xiàng)目訓(xùn)練實(shí)例過少的問題。本文選取的數(shù)據(jù)為新能源汽車電池技術(shù)領(lǐng)域的專利文本,具有領(lǐng)域分支少、文法結(jié)構(gòu)相似等特點(diǎn),通過特征遷移的方法對人工標(biāo)注的少量樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),提升信息抽取模型訓(xùn)練效果。
信息抽取模型主要分為文本的多維向量映射和語義特征提取兩個方面。文本的多維向量映射即文本的語義表示,傳統(tǒng)的語義表示方法,例如Onehot、Word2vec、Glove等,使用一個詞向量對應(yīng)一個詞語,包含的語義信息有限;現(xiàn)階段使用較多的是預(yù)訓(xùn)練模型,例如EMLo預(yù)訓(xùn)練模型和BERT預(yù)訓(xùn)練模型,能夠表達(dá)出詞語在不同語境下的語義信息。預(yù)訓(xùn)練模型通過對大量語料進(jìn)行無監(jiān)督學(xué)習(xí)來獲取豐富的語義特征,相比于EMLo模型,BERT將模型結(jié)構(gòu)由LSTM更改為Transformer,解決了長依賴的問題,并通過遮蔽語言模型(MaskedLan?guageModel,MLM)和下一句預(yù)測(NextSentencePrediction,NSP)兩種預(yù)訓(xùn)練任務(wù),分別從預(yù)測遮蓋詞和預(yù)測下一句兩個方面學(xué)習(xí)文本的語法、語義及句間關(guān)系[27]。
文本的語義特征主要通過神經(jīng)網(wǎng)絡(luò)來進(jìn)行提取,本文選取的基準(zhǔn)模型為雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型[28](Bi-directionalLongShort-TermMemory,BiLSTM)和條件隨機(jī)場模型[13](ConditionalRandomField,CRF)。在雙向長短記憶神經(jīng)網(wǎng)絡(luò)中,前向的LSTM模型可以存儲上文信息,后向的LSTM模型可以存儲下文信息,因此,BiLSTM模型能利用上下文信息對文本數(shù)據(jù)進(jìn)行特征提取,由于上下文的語義信息對實(shí)體詞、關(guān)系詞的序列標(biāo)注具有重要意義,BiLSTM能夠使得模型對當(dāng)前位置的信息預(yù)測更加準(zhǔn)確。傳統(tǒng)的序列標(biāo)注算法通常在BiLSTM層后直接接入Softmax函數(shù)進(jìn)行文本標(biāo)簽值的輸出,但BiLSTM模型無法處理相鄰序列值之間關(guān)系,為了減小這一影響,本文在BiLSTM后接入CRF層來優(yōu)化序列標(biāo)注結(jié)果,輸出字序列對應(yīng)的概率值最大的標(biāo)簽值提高序列標(biāo)注的準(zhǔn)確率。
2.2三元組識別模型構(gòu)建
本文選取新能源汽車電池技術(shù)領(lǐng)域?yàn)檠芯繉ο螅趯@谋緲?gòu)建領(lǐng)域知識圖譜。本文在信息抽取階段的數(shù)據(jù)標(biāo)注中引入語義角色信息,對實(shí)體詞進(jìn)行主體詞和客體詞的區(qū)分,一方面可以提高信息抽取效率,另一方面可以減少候選三元組的噪聲數(shù)據(jù),提升三元組抽取的準(zhǔn)確率和圖譜構(gòu)建效率。
信息抽取模型抽取出信息主要分為主體詞集合、關(guān)系詞集合以及客體詞集合3類,分別映射到知識圖譜(S,P,O)三元組的表示形式中,候選三元組由主體詞、關(guān)系詞及客體詞的隨機(jī)組合形成,三元組數(shù)據(jù)是圖譜構(gòu)建的基礎(chǔ)。因此,圖譜構(gòu)建模型的關(guān)鍵在于去除候選三元組的噪聲數(shù)據(jù),識別語義正確的三元組,也可以看作對三元組和專利文本的語義匹配。本文將候選三元組和對應(yīng)的專利文本語句組合成一個長句子,利用預(yù)訓(xùn)練模型和雙向長短記憶神經(jīng)網(wǎng)絡(luò)模型進(jìn)行語義解析,為減少長序列文本在解碼過程中上下文信息、位置信息丟失問題的影響,本文加入注意力機(jī)制[27](Attention)來增強(qiáng)重要字詞的權(quán)重,優(yōu)化模型,提升模型的準(zhǔn)確率。
2.3領(lǐng)域知識圖譜構(gòu)建及可視化
本文基于前兩小節(jié)的工作,將抽取出的三元組結(jié)構(gòu)導(dǎo)入到Neo4j圖數(shù)據(jù)庫中進(jìn)行結(jié)構(gòu)化的存儲和展示。Neo4j數(shù)據(jù)庫作為圖數(shù)據(jù)庫的一種,主要由節(jié)點(diǎn)、屬性和關(guān)系3種模塊構(gòu)成,可以將知識進(jìn)行結(jié)構(gòu)化的可視化存儲,同時,它支持遍歷式的查詢,通過查詢語句獲知專利實(shí)體之間的關(guān)系及專利間關(guān)系,對企業(yè)競爭情報便捷獲取有極大幫助,提升大數(shù)據(jù)下的信息檢索效率[29]。
3實(shí)驗(yàn)
3.1實(shí)驗(yàn)數(shù)據(jù)來源
本文利用關(guān)鍵詞匹配的檢索方式從CNKI中國專利數(shù)據(jù)庫中獲取新能源汽車電池技術(shù)領(lǐng)域?qū)@墨I(xiàn),作為構(gòu)建知識圖譜的基礎(chǔ)數(shù)據(jù)。由于專利摘要的高度概括性,本文將專利摘要作為領(lǐng)域知識抽取的來源,進(jìn)行人工標(biāo)注及數(shù)據(jù)預(yù)處理后獲得8238句,共63228個字符的標(biāo)注實(shí)驗(yàn)語料。
3.2基于數(shù)據(jù)增強(qiáng)的信息抽取實(shí)驗(yàn)
3.2.1數(shù)據(jù)預(yù)處理
本文采用BIO標(biāo)注法分別對每個字符人工標(biāo)注,B表示詞的開始,I表示詞的中間或結(jié)束,O表示不屬于任何一個標(biāo)簽的部分。基于該體系標(biāo)注后共得到9個標(biāo)簽類型,分別為“B-SUBJ”“ISUBJ”“B-OBJ”“I-OBJ”“B-PRE”“I-PRE”“B-CHAR”“I-CHAR”“O”。
3.2.2數(shù)據(jù)增強(qiáng)
本文把實(shí)驗(yàn)語料按8∶2劃分為訓(xùn)練集和測試集,利用信息抽取領(lǐng)域的傳統(tǒng)模型BiLSTM-CRF作為基準(zhǔn)模型進(jìn)行數(shù)據(jù)增強(qiáng),具體方法為:將標(biāo)注后的訓(xùn)練集數(shù)據(jù)作為基準(zhǔn)模型訓(xùn)練的樣本,對未標(biāo)注的文本數(shù)據(jù)進(jìn)行標(biāo)簽預(yù)測,獲得數(shù)據(jù)1199句,共10503個字符,最后對人工標(biāo)注的訓(xùn)練集數(shù)據(jù)和基于模型遷移標(biāo)注的數(shù)據(jù)進(jìn)行融合,作為最終模型的訓(xùn)練樣本。
最終用于領(lǐng)域信息抽取模型的實(shí)驗(yàn)語料9437句,共73731個字符。
3.2.3實(shí)驗(yàn)設(shè)置
本文將實(shí)驗(yàn)文本以字符為單位作為模型的輸入層,對比基準(zhǔn)模型BiLSTM-CRF和加入BERT預(yù)訓(xùn)練的模型實(shí)驗(yàn)效果,驗(yàn)證預(yù)訓(xùn)練模型對于文本語料特征表示是否有增強(qiáng)。此外,本文通過設(shè)置數(shù)據(jù)增強(qiáng)對比實(shí)驗(yàn)來驗(yàn)證數(shù)據(jù)增強(qiáng)對于小樣本量信息抽取模型的效果,數(shù)據(jù)增強(qiáng)用DATA(str)表示。本次實(shí)驗(yàn)基于TensorFlow框架,訓(xùn)練過程中的參數(shù)設(shè)置如表1所示。
3.2.4實(shí)驗(yàn)結(jié)果及分析
本次實(shí)驗(yàn)以精準(zhǔn)率、召回率和F1值為評價指標(biāo),取5次結(jié)果的均值作為最終結(jié)果,實(shí)驗(yàn)結(jié)果如表2所示。
從實(shí)驗(yàn)結(jié)果上看,雖然進(jìn)行數(shù)據(jù)增強(qiáng)后的訓(xùn)練語料中包含部分噪聲數(shù)據(jù),但對于模型訓(xùn)練效果影響不大,由于新能源汽車電池技術(shù)領(lǐng)域可復(fù)用的領(lǐng)域知識少,樣本規(guī)模小,借助遷移學(xué)習(xí)思想對訓(xùn)練樣本進(jìn)行數(shù)據(jù)增強(qiáng)不僅能夠極大地減少人工標(biāo)注的壓力,且對于模型效果的提升也十分顯著。此外,預(yù)訓(xùn)練模型本質(zhì)上也是遷移學(xué)習(xí)的應(yīng)用,通過對大量開放性語料進(jìn)行無監(jiān)督學(xué)習(xí),獲取到更深層次的語義信息,對下游模型的訓(xùn)練起到輔助作用。對于小樣本量的模型來說,借助預(yù)訓(xùn)練模型可以更進(jìn)一步提升模型效果。
從信息抽取的角度看,模型對于客體詞的抽取效果最好,主要原因是主體信息大多由名詞和方向性名詞組合構(gòu)成,結(jié)構(gòu)多變,而客體詞相比于主體詞及關(guān)系詞更加標(biāo)準(zhǔn),特征更明顯。而開放式關(guān)系抽取使得關(guān)系詞更加多樣化。例如:連接關(guān)系包含連接、轉(zhuǎn)動連接、固定連接、滑動連接等。這種非標(biāo)準(zhǔn)化的構(gòu)成導(dǎo)致抽取模型效果降低,但開放式的信息抽取方式使得抽取出的信息語義更加多樣,包含大量的專有名詞、專業(yè)術(shù)語等,能夠滿足企業(yè)對于領(lǐng)域知識的需求。抽取出的部分主體詞、關(guān)系詞、客體詞如圖2所示。
3.3知識圖譜構(gòu)建
3.3.1三元組識別實(shí)驗(yàn)
知識圖譜構(gòu)建的基礎(chǔ)是形如“實(shí)體—關(guān)系—實(shí)體”的三元組結(jié)構(gòu),本文對抽取出的實(shí)體詞、關(guān)系詞及客體詞進(jìn)行隨機(jī)組合后,共獲取到4512個候選三元組,三元組結(jié)構(gòu)需要與專利摘要保持語義一致,將其看作語義匹配的過程,輸入格式為三元組和專利句的結(jié)合,形成一個長句子作為模型的輸入,本文在對比實(shí)驗(yàn)中引入預(yù)訓(xùn)練模型和注意力機(jī)制,通過預(yù)訓(xùn)練模型加強(qiáng)文本的語義特征,同時利用注意力機(jī)制可以對長文本中的重要信息進(jìn)行加權(quán),在進(jìn)行三元組和文本句的語義匹配時,使得模型有更好的學(xué)習(xí)效果。
3.3.2實(shí)驗(yàn)結(jié)果分析
本文將候選三元組按8∶2的比例劃分為訓(xùn)練集和測試集,由于正負(fù)樣本較為均衡,本實(shí)驗(yàn)采用準(zhǔn)確率(acc)作為評估標(biāo)準(zhǔn),代表預(yù)測正確的樣本數(shù)占總樣本數(shù)的比例,實(shí)驗(yàn)結(jié)果如表3所示。
從模型的角度看,深度學(xué)習(xí)模型實(shí)驗(yàn)效果要明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型(支持向量機(jī),SVM),且加入注意力機(jī)制和預(yù)訓(xùn)練模型后,模型性能有顯著提升。
同時,針對本文使用的數(shù)據(jù)集特征,在數(shù)據(jù)輸入格式上進(jìn)行創(chuàng)新,傳統(tǒng)的語義匹配模型通常是在實(shí)體詞、關(guān)系詞及專利文本之間加入特殊分隔符,并在專利文本對應(yīng)位置處用其他特殊符號分別替換實(shí)體詞和關(guān)系詞,標(biāo)注位置信息。筆者認(rèn)為,三元組實(shí)質(zhì)上可看作包含語義信息的短文本,為增強(qiáng)三元組的語義表示,本文不對三元組進(jìn)行分隔,“標(biāo)注一”直接利用特殊分隔符將三元組與專利文本隔開,判斷三元組與文本數(shù)據(jù)之間的語義匹配是否正確。“標(biāo)注三”是“標(biāo)注一”和“標(biāo)注二”的結(jié)合,即加入三元組的位置信息。實(shí)驗(yàn)結(jié)果從數(shù)據(jù)標(biāo)注方式的角度來看,本文所提出的數(shù)據(jù)輸入格式有效,結(jié)合本文所用的模型后,模型準(zhǔn)確率能夠達(dá)到94.53%的最優(yōu)值。
3.3.3專利圖譜構(gòu)建及可視化
本文將抽取出的實(shí)體關(guān)系三元組存儲到Neo4j圖數(shù)據(jù)庫中,結(jié)合專利文本的公開號、申請方、作者等信息,構(gòu)建的新能源汽車電池技術(shù)領(lǐng)域知識圖譜共包含36635個實(shí)體節(jié)點(diǎn)和29488個關(guān)系邊。
新能源汽車電池技術(shù)領(lǐng)域知識圖譜由專利信息和領(lǐng)域關(guān)鍵詞兩部分構(gòu)成,專利信息以專利公開號為唯一識別號,圖譜所存儲數(shù)據(jù)包括專利作者、申請方、專利名稱及結(jié)構(gòu)化專利領(lǐng)域知識,結(jié)果如圖3和圖4所示。由此可見,由專利信息建立的領(lǐng)域知識圖譜,一方面可以較為明確地反映出專利之間以及專利作者、申請方之間的關(guān)系,幫助企業(yè)更為便利地獲取行業(yè)內(nèi)專利創(chuàng)新競爭情報;另一方面,將非結(jié)構(gòu)化的專利信息以結(jié)構(gòu)化的圖譜形式進(jìn)行展示,便于企業(yè)后續(xù)的創(chuàng)新知識管理,在企業(yè)進(jìn)行技術(shù)革新、工藝創(chuàng)新時,可以重用領(lǐng)域知識,且在進(jìn)行內(nèi)部管理培訓(xùn)時,知識圖譜能夠較為快速地進(jìn)行領(lǐng)域知識檢索,發(fā)現(xiàn)知識間的關(guān)聯(lián)關(guān)系。
領(lǐng)域關(guān)鍵詞主要分為實(shí)體類關(guān)鍵詞和關(guān)系類關(guān)鍵詞,本文利用哈工大分詞工具分別對抽取出的實(shí)體詞和關(guān)系詞進(jìn)行分詞處理,經(jīng)過詞頻統(tǒng)計(jì)、數(shù)據(jù)去重、無效詞清洗后,最終抽取出實(shí)體類關(guān)鍵詞1379個,關(guān)系類關(guān)鍵詞262個,部分領(lǐng)域關(guān)鍵詞抽取結(jié)果如圖5所示。
4結(jié)論和不足
為解決非結(jié)構(gòu)化專利信息抽取和領(lǐng)域知識圖譜構(gòu)建問題,本文選取新能源汽車電池技術(shù)領(lǐng)域的專利文本為研究對象,綜合深度學(xué)習(xí)算法BiLSTM、CRF、BERT預(yù)訓(xùn)練模型及注意力機(jī)制,提出了一種基于非結(jié)構(gòu)化信息自動抽取的知識圖譜構(gòu)建方法,并驗(yàn)證了該方法的可行性和有效性。結(jié)果顯示,通過本文提出方法能夠極大程度減少數(shù)據(jù)量對于實(shí)體關(guān)系抽取模型的影響,取得較高的精準(zhǔn)度和召回率,為構(gòu)建高質(zhì)量領(lǐng)域知識圖譜提供數(shù)據(jù)和技術(shù)支撐,提升知識的可重用性。
本文的創(chuàng)新點(diǎn)主要體現(xiàn)在以下幾個方面:第一,在沒有可用領(lǐng)域知識詞典和知識庫的情況下,通過數(shù)據(jù)增強(qiáng)和增加預(yù)訓(xùn)練模型降低樣本量小對領(lǐng)域知識抽取效果的影響,減少了人工標(biāo)注成本,實(shí)現(xiàn)了領(lǐng)域知識的自動抽取,為小樣本數(shù)據(jù)的實(shí)體抽取提供了一種方法;第二,本文旨在利用序列標(biāo)注算法解決開放式關(guān)系的識別,最終提取出的關(guān)系相比于人工劃分的限定關(guān)系具有更強(qiáng)的專業(yè)性,為新能源汽車電池技術(shù)領(lǐng)域的知識發(fā)現(xiàn)提供更豐富的數(shù)據(jù)支持;第三,在三元組識別實(shí)驗(yàn)?zāi)P虰ERT-BiL?STM的基礎(chǔ)上加入注意力機(jī)制,結(jié)合文本匹配的特點(diǎn),增強(qiáng)了長文本的重點(diǎn)信息的權(quán)重,提升了三元組識別實(shí)驗(yàn)的精確率。
未來研究中,本文將進(jìn)一步探究擴(kuò)大數(shù)據(jù)集規(guī)模的方法,驗(yàn)證方法的普適性,并引入領(lǐng)域術(shù)語、上下位關(guān)系等信息構(gòu)建更全面的領(lǐng)域知識圖譜,進(jìn)行更廣泛的應(yīng)用研究。
3078500338287