• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      軍事知識圖譜的構(gòu)建和檢索方法研究

      2022-07-06 07:43:50侯振瑜張仰森蘇振江謝少輝胡昌秀
      關(guān)鍵詞:語句軍事圖譜

      侯振瑜,張仰森,蘇振江,謝少輝,胡昌秀

      (1.北京信息科技大學(xué) 儀器科學(xué)與光電工程學(xué)院,北京 100192;2.北京信息科技大學(xué) 智能信息處理研究所,北京 100192)

      0 引言

      現(xiàn)代的軍事化建設(shè)在逐步向信息化轉(zhuǎn)型,相關(guān)領(lǐng)域人員在面對數(shù)量眾多的軍事領(lǐng)域知識時,如何從大量未整合的數(shù)據(jù)中快速、準(zhǔn)確地查詢到自己需要的信息是亟待解決的問題。傳統(tǒng)的檢索方式主要是基于關(guān)鍵詞匹配實(shí)現(xiàn)的,得到的結(jié)果往往忽略了對關(guān)鍵詞的語義理解,無法滿足用戶的真正需求。

      自2012年谷歌搜索引擎首次融入知識圖譜技術(shù)[1-2]后,知識圖譜已被廣泛應(yīng)用于智能搜索領(lǐng)域,在醫(yī)療、工業(yè)生產(chǎn)、金融等特定領(lǐng)域都有很多成功的案例[3-5]。與其他領(lǐng)域不同,軍事領(lǐng)域的數(shù)據(jù)獲取難度大,實(shí)體間的關(guān)系也較為復(fù)雜,這些都為軍事知識圖譜的構(gòu)建帶來了困難[6]。

      Chen等[7]針對軍事信息化進(jìn)程中數(shù)據(jù)孤立、關(guān)聯(lián)組織缺失、數(shù)據(jù)難以有效利用等問題,提出了一種基于互聯(lián)網(wǎng)開源、多數(shù)據(jù)的軍事知識圖譜構(gòu)建技術(shù);車金立等[8]基于武器百科上的開源裝備數(shù)據(jù),構(gòu)建了軍事裝備知識圖譜,并利用該圖譜實(shí)現(xiàn)了知識問答,從而輔助相關(guān)使用人員快速準(zhǔn)確地獲取所需知識;Liu Chenguang[9]等提出了一種基于條件隨機(jī)場(conditional random field,CRF)和句法分析樹的實(shí)體關(guān)系提取方法,通過海量數(shù)據(jù)訓(xùn)練、模型對比和改進(jìn),優(yōu)化軍事知識圖譜的構(gòu)建。

      以上研究大都針對武器裝備來進(jìn)行軍事知識圖譜構(gòu)建,其實(shí)體的類別和數(shù)據(jù)規(guī)模較小,并且在構(gòu)建時沒有考慮到軍事文本數(shù)據(jù)的特點(diǎn),無法為軍事領(lǐng)域工作者提供較為全面的軍事知識庫。然而,構(gòu)建高質(zhì)量的知識圖譜是實(shí)現(xiàn)語義檢索的前提,軍事知識圖譜的缺失導(dǎo)致針對軍事領(lǐng)域檢索算法的相關(guān)研究較少。

      針對上述問題,本文對非結(jié)構(gòu)化和半結(jié)構(gòu)化的開源軍事數(shù)據(jù)進(jìn)行知識抽取、存儲等方面的研究,構(gòu)建了軍事領(lǐng)域知識圖譜,并基于該知識圖譜提出了一種語義檢索方法。該方法通過對用戶的檢索語句進(jìn)行語義分析,從構(gòu)建好的軍事領(lǐng)域知識圖譜中返回相應(yīng)信息,使用戶可以更加快速地獲取與需求相符的軍事領(lǐng)域知識。

      1 軍事知識圖譜的構(gòu)建

      1.1 資源庫的構(gòu)建

      本文采用網(wǎng)絡(luò)爬蟲與應(yīng)用程序編程接口(application progoramming interface,API)相結(jié)合的方式從開源軍事網(wǎng)站上采集所需的數(shù)據(jù)信息。通過對各網(wǎng)頁結(jié)構(gòu)的分析,采用Scrapy爬蟲框架進(jìn)行軍事數(shù)據(jù)采集,并通過垃圾信息過濾、特殊符號刪除等預(yù)處理操作獲得軍事領(lǐng)域資源庫。

      1.2 基于BERT-CRF-PRF模型的知識抽取

      將采集到的軍事數(shù)據(jù)轉(zhuǎn)換為所需的知識是構(gòu)建軍事知識圖譜的核心。針對半結(jié)構(gòu)化數(shù)據(jù)通過規(guī)則將其轉(zhuǎn)換為“實(shí)體—屬性—屬性值”的形式,對非結(jié)構(gòu)化數(shù)據(jù)采用基于轉(zhuǎn)換器(Transformer)的雙向編碼器表示(bidirectional encoder representation from transformers,BERT)模型[10-12]進(jìn)行關(guān)系抽取。本文重點(diǎn)對軍事領(lǐng)域中的實(shí)體識別進(jìn)行研究。

      通過對軍事數(shù)據(jù)進(jìn)行分析,需要識別的實(shí)體包含人物、地點(diǎn)、時間、軍事組織、軍事武器、軍事事件6類標(biāo)簽。命名實(shí)體標(biāo)簽如表1所示。

      表1 命名實(shí)體標(biāo)簽

      例如,語料“1990年,人民解放軍向聯(lián)合國中東維和任務(wù)區(qū)派遣5名軍事觀察員,首次參加聯(lián)合國維和行動。”的標(biāo)注序列為“[0,4,‘time’],[6,10,‘org_name’],[15,21,‘location’],[26,30,‘person_name’],[36,42,‘event’]”。

      本文采用BERT和CRF相結(jié)合的方式實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)中面向軍事領(lǐng)域的命名實(shí)體識別任務(wù)。其中BERT主要由嵌入層、Transformer 編碼器、損失優(yōu)化3部分構(gòu)成。雖然Transformer編碼器具備自注意力機(jī)制和雙向結(jié)構(gòu)的優(yōu)點(diǎn),但是它僅通過位置向量來獲取位置信息,只能得到單個輸入在序列中的最優(yōu)結(jié)果。而CRF模型則能通過相鄰位置標(biāo)簽關(guān)系來表示整個特征序列的聯(lián)合概率,可以得到整個序列的最優(yōu)預(yù)測結(jié)果。研究表明,將兩者相結(jié)合構(gòu)建的BERT-CRF模型在通用領(lǐng)域中的識別效果較優(yōu)[13-14]。

      本文在BERT-CRF的基礎(chǔ)上加入校對處理層(proofread,PRF)來提高模型對軍事領(lǐng)域獨(dú)有的實(shí)體類型的識別質(zhì)量。具體做法如下:在人工收集武器裝備名、軍事組織名、軍事事件名的同時參照《軍語》、《軍事信息資源分類法》等軍事資料中的相關(guān)詞條構(gòu)建軍事實(shí)體校對庫;基于軍事組織、武器的特點(diǎn)設(shè)置觸發(fā)詞規(guī)則,如“**戰(zhàn)斗機(jī)”、“**團(tuán)”中存在著代表武器特征的“戰(zhàn)斗機(jī)”和軍事組織特征的“團(tuán)”;添加使用校對處理層對BERT-CRF的結(jié)果進(jìn)行校正,具體流程如圖1所示。

      圖1 實(shí)體校對流程

      將BERT-CRF模型的輸出分別與校對處理層中的軍事實(shí)體校對庫和觸發(fā)詞規(guī)則進(jìn)行匹配。如果匹配成功則按照實(shí)體校對庫、觸發(fā)詞規(guī)則的優(yōu)先級進(jìn)行替換,否則直接輸出BERT-CRF模型的識別結(jié)果。

      1.3 知識存儲

      本文將識別出的實(shí)體、實(shí)體與實(shí)體之間的關(guān)系以三元組的形式導(dǎo)入圖數(shù)據(jù)庫Neo4j中,從而實(shí)現(xiàn)對軍事領(lǐng)域知識圖譜的存儲與可視化,在提高用戶查詢效率的同時,增強(qiáng)了領(lǐng)域知識的可讀性。圖2是軍事領(lǐng)域知識圖譜的部分實(shí)例,其中節(jié)點(diǎn)代表各個實(shí)體,節(jié)點(diǎn)間的邊代表實(shí)體間相互關(guān)系。

      圖2 圖譜可視化

      2 基于軍事知識圖譜的語義檢索

      基于軍事知識圖譜進(jìn)行檢索的核心分為兩個步驟:①對用戶的檢索語句進(jìn)行語義理解;②將經(jīng)過語義理解后的檢索語句準(zhǔn)確地轉(zhuǎn)換為知識圖譜的查詢語句(本文中為Cypher語句)。

      針對已經(jīng)構(gòu)建好的軍事領(lǐng)域知識圖譜,設(shè)計了基于知識圖譜的語義檢索方法:首先,對用戶的檢索語句進(jìn)行分詞處理,將檢索語句分解為檢索關(guān)鍵詞,并將其與同義詞典進(jìn)行匹配與轉(zhuǎn)換;其次,對檢索關(guān)鍵詞進(jìn)行語義擴(kuò)展并構(gòu)建新的檢索語句;然后進(jìn)行依存句法分析從而將其轉(zhuǎn)換為圖譜對應(yīng)的檢索語句;最后,對得到的檢索結(jié)果進(jìn)行相關(guān)性排序,返回最符合用戶真實(shí)檢索意圖的結(jié)果。具體流程如圖5所示。

      圖5 檢索流程

      2.1 檢索語句處理

      2.1.1 分詞

      相對于英文的結(jié)構(gòu)特點(diǎn),在中文語句中,詞語之間沒有顯性的界限。因此分詞就成為了中文自然語言處理的基礎(chǔ)條件,分詞的好壞會對檢索結(jié)果的質(zhì)量產(chǎn)生直接的影響。目前的自然語言處理領(lǐng)域有著許多成熟的分詞工具,但這些分詞工具往往都是只有一個通用的字典。本文的研究領(lǐng)域具備很多專業(yè)名詞和軍事用語,如果不單獨(dú)構(gòu)建軍事領(lǐng)域詞典,就會在專用詞匯的識別上出現(xiàn)較大的誤差,進(jìn)而影響檢索結(jié)果。因此為了提高分詞的效果,在添加自定義詞典(由圖譜中的各個實(shí)體、屬性構(gòu)成)的基礎(chǔ)上,使用開源中文分詞工具HanLP來進(jìn)行檢索語句分詞。

      2.1.2 同義轉(zhuǎn)換

      用戶在進(jìn)行檢索時輸入的檢索語句與個人的知識儲備和表達(dá)方式有關(guān),如果使用的檢索詞與圖譜中存儲實(shí)體名稱不一致,就會檢索失敗。

      為了解決這個問題,本文利用已經(jīng)構(gòu)建好的軍事知識圖譜,對實(shí)體、實(shí)體的屬性以及常用詞匯進(jìn)行分析與統(tǒng)計,構(gòu)建軍事領(lǐng)域?qū)嶓w的同義詞典。該同義詞典用來對檢索關(guān)鍵詞進(jìn)行同義轉(zhuǎn)換,從而消除因各種原因造成的檢索詞匯的差異性。表2所示為軍事同義詞典中部分詞匯。

      表2 軍事同義詞典示例

      2.2 多相似度融合的語義計算方法

      2.2.1 實(shí)體擴(kuò)展

      實(shí)體擴(kuò)展作為擴(kuò)展檢索的一種實(shí)現(xiàn)方式,可以用來識別檢索用戶的潛在需求,豐富檢索結(jié)果。本文將實(shí)體擴(kuò)展分為兩種:一是經(jīng)同義轉(zhuǎn)換等操作處理后的檢索關(guān)鍵詞未能與知識圖譜實(shí)體成功匹配,此時需要計算該關(guān)鍵詞與知識圖譜中各實(shí)體之間的相似度,選擇相似度高的實(shí)體進(jìn)行檢索查詢;二是經(jīng)處理后檢索關(guān)鍵詞與知識圖譜中的實(shí)體成功匹配,此時需要計算該實(shí)體與其他實(shí)體之間的相似度,選擇與其相似度高的實(shí)體對檢索結(jié)果進(jìn)行擴(kuò)展。

      1)關(guān)鍵詞與實(shí)體間相似度計算方法

      傳統(tǒng)基于字面相似計算的方法主要是基于文本本身的結(jié)構(gòu)進(jìn)行匹配計算,無法獲取到兩者之間語義層面的關(guān)聯(lián)。因此本文將字面相似計算與語義相似計算相結(jié)合,提出了關(guān)鍵詞與實(shí)體名稱的相似度計算方法:

      S(K,E)=λSvec(K,E)+(1-λ)Slit(K,E)

      (1)

      式中:λ為權(quán)重參數(shù);K為關(guān)鍵詞;E為實(shí)體名稱;Svec(K,E)表示檢索關(guān)鍵詞和實(shí)體名稱之間的向量空間相似度,計算式為

      (2)

      其中:k為檢索關(guān)鍵詞對應(yīng)的詞向量;e為實(shí)體名稱對應(yīng)的詞向量。余弦值越大表示兩詞向量夾角越小,詞之間的相似度就越高。

      Slit(K,E)表示檢索關(guān)鍵詞和實(shí)體名稱之間的字面相似度,計算式為

      (3)

      其中:M(K,E)表示檢索關(guān)鍵詞K和實(shí)體名稱字符串的最大長度。L(K,E)表示檢索關(guān)鍵詞和實(shí)體名稱之間的萊文斯坦編輯距離[15]。

      根據(jù)式(1)得到檢索關(guān)鍵詞和實(shí)體名稱之間的語義相似度,選取相似度最高的前N個實(shí)體作為檢索擴(kuò)展詞。

      2)實(shí)體與實(shí)體之間相似度計算方法

      屬性是對實(shí)體的主要描述,如武器裝備中的各種參數(shù),實(shí)體的屬性數(shù)量越多其包含的信息含量越大,判斷兩個實(shí)體之間是否有關(guān)聯(lián)可以通過他們之間共同屬性的數(shù)量來代替。兩個實(shí)體之間共有屬性越多則二者越相似,用Sattr(E1,E2)表示實(shí)體E1和E2之間的屬性相似度,具體公式如下:

      (4)

      式中:I(E1,E2)表示實(shí)體E1和E2共有屬性的數(shù)量;U(E1,E2)表示實(shí)體E1和E2所有屬性的數(shù)量。

      綜合實(shí)體節(jié)點(diǎn)間的距離和兩節(jié)點(diǎn)的公共屬性數(shù)量,提出了實(shí)體間的語義相似度計算方法如下:

      Sentity(E1,E2)=(1-μ)Sattr(E1,E2)+μD(E1,E2)

      (5)

      式中:D(E1,E2)表示兩實(shí)體節(jié)點(diǎn)之間的最短路徑,μ為權(quán)重參數(shù)。

      3.2.2 檢索語句轉(zhuǎn)換

      將經(jīng)過語義理解后的檢索語句轉(zhuǎn)換為Neo4j中的Cypher查詢語言是從圖譜中找到檢索結(jié)果的關(guān)鍵。本文針對軍事領(lǐng)域圖譜的特點(diǎn),采用問題模板匹配的方法來進(jìn)行檢索語句的轉(zhuǎn)換,構(gòu)建了檢索語句模型,如表3所示。

      表3 問題模板

      一些特殊的查詢句式,如武器裝備之間的參數(shù)比較、多實(shí)體查詢等,這些情況都無法通過基礎(chǔ)的謂語屬性模板匹配來得到對應(yīng)檢索語句。因此本文對常見的查詢進(jìn)行分析,將這些特殊的句式分類并設(shè)置特定的匹配模板。如當(dāng)檢索語句中有“比…快的”或者“比…稱重大的”這樣的標(biāo)識時,在生成對應(yīng)的Cypher語句后添加WHERE語句來進(jìn)行比較查詢。

      在進(jìn)行檢索語句轉(zhuǎn)換時,對照同義詞典進(jìn)行同義轉(zhuǎn)換,轉(zhuǎn)換之后則根據(jù)其中的關(guān)鍵詞將其分類,確定查詢模板,最終根據(jù)模板來生成對應(yīng)的Cypher語句。

      2.3 檢索結(jié)果排序

      為了使用戶能夠快速地搜索到自己需要的信息,需要對已經(jīng)查詢出來的結(jié)果進(jìn)行排序,將結(jié)果按照相關(guān)性從大到小返回給用戶。本文主要將檢索結(jié)果分為兩種:①原始查詢結(jié)果:原始語句經(jīng)過分詞、同義詞轉(zhuǎn)換等處理后直接在圖譜中匹配到答案的查詢結(jié)果;②擴(kuò)展查詢結(jié)果:檢索語句經(jīng)過實(shí)體擴(kuò)展后查詢到的檢索結(jié)果。對以上兩種查詢結(jié)果重新排序,算法如下:

      1)根據(jù)檢索語句,經(jīng)過語義檢索后得到原始查詢結(jié)果集R1和擴(kuò)展查詢結(jié)果集R2;

      2)若R1不為空,則將R1的結(jié)果排到R2結(jié)果之前;

      3)若R1為空,則依據(jù)式(1)來計算每個結(jié)果的相似度;否則依據(jù)式(5)來計算相似度;

      4)計算每個實(shí)體關(guān)聯(lián)其他實(shí)體的數(shù)量,以此衡量實(shí)體的重要程度;

      5)對實(shí)體語義相似度和實(shí)體重要度的結(jié)果采用綜合線性加權(quán)公式,獲得每個檢索結(jié)果的綜合得分;

      6)根據(jù)得分降序排列并返回結(jié)果。

      3 實(shí)驗(yàn)與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      由于目前并不存在公開且統(tǒng)一的軍事語料庫,因此采用爬蟲與API相結(jié)合的方式構(gòu)建軍事文本庫。本實(shí)驗(yàn)所用的數(shù)據(jù)集為爬蟲所得的非結(jié)構(gòu)化數(shù)據(jù),包括法律法規(guī)、軍事情報、軍事新聞、武器裝備、作戰(zhàn)案例5大類。其具體統(tǒng)計信息如表4所示。

      表4 非結(jié)構(gòu)化數(shù)據(jù)

      3.2 命名實(shí)體識別效果驗(yàn)證

      知識圖譜的構(gòu)建質(zhì)量會直接影響到最后的檢索結(jié)果,而軍事領(lǐng)域上的命名實(shí)體識別是構(gòu)建軍事知識圖譜的關(guān)鍵步驟。為了直觀地看出不同方法在軍事數(shù)據(jù)上的識別效果,本文采用準(zhǔn)確率、召回率、F1值來評估每個方法的性能。準(zhǔn)確率與召回率計算式如下:

      (6)

      (7)

      從軍事領(lǐng)域資源庫中每種類型選取200個文檔,然后通過規(guī)則處理和人工標(biāo)注相結(jié)合的方式對數(shù)據(jù)進(jìn)行標(biāo)注,并將標(biāo)注過后的語料文本按8∶2的比例分為訓(xùn)練集和驗(yàn)證集。在該數(shù)據(jù)集上,4種不同模型的識別效果如表5所示。

      表5 四種不同模型識別效果 %

      前3組實(shí)驗(yàn)為通用領(lǐng)域中實(shí)體識別效果較高的模型。從實(shí)驗(yàn)的結(jié)果來看,因?yàn)镻RF層的校對作用,本文提出的方法指標(biāo)值最優(yōu),比BERT-CRF模型在準(zhǔn)確率、召回率、F1值上分別提升了2.14%、3.83%、2.98%,說明本文提出的方法在軍事領(lǐng)域命名實(shí)體識別方面比傳統(tǒng)模型有著更好的表現(xiàn)。

      3.3 檢索效果驗(yàn)證與分析

      本文采用查全率、查準(zhǔn)率和F1值3個指標(biāo)來評價檢索方法的有效性。查全率與查準(zhǔn)率的計算式如下:

      (8)

      (9)

      首先通過實(shí)驗(yàn)確定式(1)和式(5)中權(quán)值λ和μ對檢索查準(zhǔn)率的影響。根據(jù)實(shí)驗(yàn)結(jié)果,當(dāng)λ、μ的取值分別為0.6和0.65時查準(zhǔn)率最高,因此選取這兩個權(quán)值來計算相似度。為了驗(yàn)證本文方法的有效性,從軍事領(lǐng)域資源庫中每種類型選取200個文檔構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集。在該數(shù)據(jù)集上,3種不同方法的檢索效果如表6所示。

      表6 三種方法的檢索結(jié)果對比 %

      從表中可以看出,基于關(guān)鍵詞匹配的方法查全率和查準(zhǔn)率都較低,檢索效果最不理想;傳統(tǒng)基于知識圖譜的方法,其檢索結(jié)果與基于關(guān)鍵詞的方法相比有所提升,但是由于該方法只是對檢索語句進(jìn)行分析處理后就直接從知識圖譜中進(jìn)行查找,因此查全率較低;而本文提出的方法在查全率和查準(zhǔn)率上都有較大的提升,證明了本文方法在檢索任務(wù)中的有效性。

      4 結(jié)束語

      本文對軍事領(lǐng)域知識圖譜的構(gòu)建進(jìn)行了研究,并提出了一種基于軍事圖譜的檢索方法。首先,針對軍事文本數(shù)據(jù)的特點(diǎn)提出了BERT-CRF-PRF軍事領(lǐng)域?qū)嶓w識別模型,提升了實(shí)體識別效果,構(gòu)建了軍事領(lǐng)域知識圖譜;然后將處理后的檢索語句結(jié)合圖譜結(jié)構(gòu)對其進(jìn)行語義分析;最后根據(jù)實(shí)體相似度和實(shí)體重要程度對檢索結(jié)果進(jìn)行排序,優(yōu)先返回最符合用戶需求的數(shù)據(jù)。

      在后續(xù)研究中將繼續(xù)對軍事知識圖譜進(jìn)行擴(kuò)充,豐富實(shí)體節(jié)點(diǎn)的數(shù)量并細(xì)化實(shí)體間的關(guān)系;并進(jìn)一步優(yōu)化檢索過程中的語義理解,以提高檢索速度和準(zhǔn)確率。

      猜你喜歡
      語句軍事圖譜
      繪一張成長圖譜
      重點(diǎn):語句銜接
      精彩語句
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      如何搞定語句銜接題
      語文知識(2014年4期)2014-02-28 21:59:52
      雜草圖譜
      作文語句實(shí)錄
      軍事幽默:局
      軍事文摘(2009年9期)2009-07-30 09:40:44
      軍事
      东安县| 鸡西市| 翁牛特旗| 新闻| 延津县| 霸州市| 报价| 罗定市| 泰兴市| 来安县| 芷江| 龙岩市| 琼海市| 延津县| 綦江县| 榆树市| 通海县| 宁阳县| 穆棱市| 尼玛县| 焉耆| 蒲城县| 平阴县| 开阳县| 耿马| 江津市| 惠东县| 色达县| 普安县| 曲阳县| 崇明县| 桐庐县| 通海县| 石首市| 凌源市| 洪雅县| 留坝县| 绥棱县| 峡江县| 三都| 塔城市|