姬源,謝冬,周思明,王向東(貴州電網(wǎng)公司 電力調(diào)度控制中心,貴州 230039)
?
電力領(lǐng)域語(yǔ)義搜索系統(tǒng)的構(gòu)建方法①
姬源,謝冬,周思明,王向東
(貴州電網(wǎng)公司 電力調(diào)度控制中心,貴州 230039)
摘 要:電力領(lǐng)域不斷累積大量的數(shù)據(jù)資源,包含相關(guān)標(biāo)準(zhǔn)規(guī)范、技術(shù)文檔、管理文檔、故障解決記錄等等,如何對(duì)這些文檔進(jìn)行快速查詢和智能搜索,對(duì)于電網(wǎng)調(diào)度與故障恢復(fù)具有重要價(jià)值.傳統(tǒng)的電力領(lǐng)域搜索系統(tǒng)都是基于關(guān)鍵詞來(lái)實(shí)現(xiàn),存在查準(zhǔn)率和召回率低的問(wèn)題,無(wú)法理解業(yè)務(wù)語(yǔ)言,無(wú)法支持語(yǔ)義推理.本文設(shè)計(jì)實(shí)現(xiàn)一種基于知識(shí)圖譜的電力領(lǐng)域語(yǔ)義搜索系統(tǒng)的構(gòu)建方法,通過(guò)智能領(lǐng)域分詞技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行語(yǔ)義知識(shí)提取,組織并存儲(chǔ)為知識(shí)圖譜,基于知識(shí)圖譜來(lái)實(shí)現(xiàn)支持推理的語(yǔ)義搜索.介紹了領(lǐng)域語(yǔ)義搜索系統(tǒng)構(gòu)建流程,并進(jìn)行平臺(tái)實(shí)現(xiàn),實(shí)驗(yàn)表明該方法查準(zhǔn)率和召回率均有較大提升.
關(guān)鍵詞:電力; 電網(wǎng)調(diào)度; 故障恢復(fù); 知識(shí)圖譜; 語(yǔ)義搜索
電力領(lǐng)域不斷累積大量的數(shù)據(jù)資源,包含相關(guān)標(biāo)準(zhǔn)規(guī)范、產(chǎn)品和技術(shù)文檔、管理文檔、故障解決記錄等等,如何對(duì)這些文檔進(jìn)行快速查詢和智能搜索,對(duì)于電力設(shè)備運(yùn)行維護(hù)和故障恢復(fù)具有重要價(jià)值.傳統(tǒng)的搜索系統(tǒng)都是基于關(guān)鍵詞來(lái)實(shí)現(xiàn),無(wú)法支持根據(jù)業(yè)務(wù)語(yǔ)言來(lái)查找準(zhǔn)確的答案[1].
知識(shí)圖譜的概念首先由Google進(jìn)行實(shí)踐并倡導(dǎo),是下一代搜索引擎技術(shù)的核心.傳統(tǒng)的網(wǎng)頁(yè)搜索引擎對(duì)網(wǎng)頁(yè)直接建立索引,提供網(wǎng)頁(yè)的關(guān)鍵詞檢索.知識(shí)圖譜則將所有網(wǎng)頁(yè)中的知識(shí)提取出來(lái),構(gòu)成一個(gè)圖結(jié)構(gòu),圖中節(jié)點(diǎn)代表實(shí)體,邊代表關(guān)系.基于知識(shí)圖譜可以支持語(yǔ)義搜索,即支持通過(guò)關(guān)系來(lái)進(jìn)行搜索.比如搜索: “中國(guó)的首都”,系統(tǒng)直接返回結(jié)果“北京”,而不是返回包含“中國(guó)的首都”幾個(gè)關(guān)鍵字的網(wǎng)頁(yè).這樣的搜索能準(zhǔn)確理解用戶的搜索意圖,返回精確的答案,在電網(wǎng)調(diào)度中可以發(fā)揮重要作用[2].
面向電力領(lǐng)域非結(jié)構(gòu)化信息的搜索技術(shù)目前還比較落后,尚不能滿足語(yǔ)義搜索的需要.主要體現(xiàn)在以下三個(gè)方面: 其一是自然語(yǔ)言處理技術(shù),包括分詞、詞性標(biāo)注和實(shí)體識(shí)別,目前這些技術(shù)已在眾多搜索引擎產(chǎn)品中廣泛使用,然而已有的處理技術(shù)主要面向全領(lǐng)域,面向電力領(lǐng)域文本的自然語(yǔ)言處理技術(shù)還比較匱乏[7],主要是缺少相關(guān)詞庫(kù)和針對(duì)電力領(lǐng)域的算法優(yōu)化; 其二是本體和知識(shí)庫(kù)構(gòu)建技術(shù),這是語(yǔ)義搜索的核心技術(shù),由于本體構(gòu)建需要大量的時(shí)間和精力,目前采用自動(dòng)化構(gòu)建本體的技術(shù)創(chuàng)建的本體質(zhì)量不高,中文本體更是少之又少; 其三是查詢語(yǔ)句的語(yǔ)義化理解,目前國(guó)內(nèi)的研究主要集中于通用搜索引擎的研究,并且仍停留在初步研究階段.
因此本文設(shè)計(jì)實(shí)現(xiàn)一種基于知識(shí)圖譜的電力領(lǐng)域語(yǔ)義搜索系統(tǒng),通過(guò)智能領(lǐng)域分詞技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析索引,采用知識(shí)圖譜存儲(chǔ)管理領(lǐng)域知識(shí),基于推理引擎實(shí)現(xiàn)語(yǔ)義搜索.文章介紹了系統(tǒng)的設(shè)計(jì)架構(gòu)和關(guān)鍵模塊.
語(yǔ)義搜索系統(tǒng)的核心是知識(shí)圖譜的構(gòu)建.和傳統(tǒng)知識(shí)庫(kù)采用邏輯理論來(lái)進(jìn)行知識(shí)組織不同,知識(shí)圖譜系統(tǒng)將知識(shí)組成一個(gè)圖結(jié)構(gòu),圖的邊表示實(shí)體的語(yǔ)義關(guān)系.
知識(shí)圖譜的構(gòu)建是語(yǔ)義搜索的基礎(chǔ),計(jì)算機(jī)只有像人一樣具備一定的知識(shí)才能更好的理解用戶的意圖.首先,進(jìn)行知識(shí)圖譜的建模,再?gòu)倪z留下來(lái)的關(guān)系型數(shù)據(jù)庫(kù)中得到數(shù)據(jù),將它轉(zhuǎn)換成XML文件.然后將XML文件映射成RDF文件,這樣能夠?qū)⑺鼈儗?dǎo)入到RDF數(shù)據(jù)存儲(chǔ)系統(tǒng)中.通過(guò)領(lǐng)域知識(shí)庫(kù)維護(hù),語(yǔ)義擴(kuò)展和語(yǔ)義解析來(lái)維護(hù)知識(shí)庫(kù).知識(shí)圖譜的技術(shù)實(shí)現(xiàn)方案的總體設(shè)計(jì)如圖1所示.
圖1 系統(tǒng)總體架構(gòu)
知識(shí)庫(kù)的建模是將領(lǐng)域知識(shí)映射到一個(gè)抽象的模型當(dāng)中去,以課題中的知識(shí)建模為例,需要將電力設(shè)備維護(hù)記錄中所用到的知識(shí)抽象出來(lái),映射到知識(shí)模型中.在知識(shí)采集抽取階段,首先利用從數(shù)據(jù)庫(kù)和文檔中抽取到的詞庫(kù),對(duì)抽取對(duì)象的非結(jié)構(gòu)化信息進(jìn)行分詞,識(shí)別命名實(shí)體.利用知識(shí)模型和實(shí)體的上下文關(guān)系,識(shí)別實(shí)體的類(lèi)型.實(shí)體抽取出來(lái)以后會(huì)存儲(chǔ)到實(shí)體庫(kù)中去.整個(gè)知識(shí)抽取的過(guò)程是一個(gè)基于模板的過(guò)程,針對(duì)不同的格式,和不同的數(shù)據(jù)源需要不同的知識(shí)抽取模板.在語(yǔ)義標(biāo)簽知識(shí)的生成階段,用戶可以定制編輯搜索實(shí)體的各個(gè)屬性以及各個(gè)屬性之間的邏輯規(guī)則關(guān)系.然后在后臺(tái)執(zhí)行SPARQL,自動(dòng)的生成語(yǔ)義標(biāo)簽,方便用戶搜索一些熱門(mén)標(biāo)簽.知識(shí)維護(hù)包括,允許對(duì)現(xiàn)有的類(lèi),實(shí)體和屬性進(jìn)行編輯.知識(shí)管理維護(hù)工具用于向用戶提供領(lǐng)域知識(shí)維護(hù)的接口.電力領(lǐng)域?qū)<铱梢酝ㄟ^(guò)知識(shí)管理工具添加領(lǐng)域知識(shí),維護(hù)管理知識(shí)庫(kù).
知識(shí)圖譜是一種技術(shù)理念,并沒(méi)有統(tǒng)一的表示形式.不過(guò)目前主流的技術(shù)是采用本體框架來(lái)進(jìn)行知識(shí)的組織管理,采用圖數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的存儲(chǔ).為了構(gòu)建知識(shí)圖譜,首要的任務(wù)是對(duì)該領(lǐng)域的核心概念進(jìn)行建模,形成一個(gè)本體的基礎(chǔ)框架,為知識(shí)的獲取如導(dǎo)入做好準(zhǔn)備.
本體是共享概念模型的明確的形式化規(guī)范說(shuō)明,提供相關(guān)領(lǐng)域的知識(shí)、概念定義和概念之間的關(guān)系,在本文中為對(duì)搜索引擎中領(lǐng)域信息的規(guī)范說(shuō)明.根據(jù)現(xiàn)有的本體構(gòu)建方法,結(jié)合實(shí)際的領(lǐng)域應(yīng)用,采用Protégé本體構(gòu)建工具的構(gòu)建領(lǐng)域本體的過(guò)程如下[4,5]:
(1)領(lǐng)域概念和關(guān)系以及相關(guān)的領(lǐng)域知識(shí)
對(duì)于某個(gè)特定的領(lǐng)域,需要明確該領(lǐng)域的概念和關(guān)系.比如概念“變壓器”,按作用可以包含子概念“升壓變壓器”和“降壓變壓器”概念之間的基本關(guān)系主要有繼承關(guān)系、部分整體、實(shí)例、屬性等關(guān)系.
(2)類(lèi)的定義
首先定義各個(gè)基本類(lèi),通過(guò)父類(lèi)和子類(lèi)來(lái)定義類(lèi)層次; 然后將所有的細(xì)化類(lèi)進(jìn)行合并.一個(gè)類(lèi)片段的定義如下:
其中“升壓變壓器“是“變壓器”的一個(gè)子類(lèi),同時(shí)“變壓器 “也是“變電站設(shè)備”的一個(gè)子類(lèi).
(3)屬性的定義和約束
屬性的定義包括對(duì)象屬性(ObjectProperty)和數(shù)據(jù)類(lèi)型屬性(DatatypeProperty),對(duì)象屬性把對(duì)象之間進(jìn)行連接,數(shù)據(jù)類(lèi)型屬性將數(shù)據(jù)與對(duì)象類(lèi)型值關(guān)聯(lián).下面兩個(gè)具體例子:
(4)實(shí)例的創(chuàng)建
以變壓器的創(chuàng)建為例,其實(shí)例片段的OWL描述如下:
如圖2所示為創(chuàng)建的電力領(lǐng)域知識(shí)圖譜的一個(gè)片段.將電力故障恢復(fù)記錄,以知識(shí)圖的結(jié)構(gòu)表示.這樣就可以通過(guò)關(guān)系來(lái)進(jìn)行語(yǔ)義搜索.
構(gòu)建的知識(shí)圖譜可以涵蓋電網(wǎng)調(diào)度各個(gè)方面的知識(shí),知識(shí)的來(lái)源主要有兩類(lèi),即關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系型文本,后者又包含企業(yè)內(nèi)部的文檔材料和互聯(lián)網(wǎng)網(wǎng)頁(yè).下面分別介紹兩類(lèi)數(shù)據(jù)的知識(shí)獲取方法.
圖2 知識(shí)圖譜局部圖
3.1關(guān)系型數(shù)據(jù)庫(kù)到RDF數(shù)據(jù)庫(kù)
關(guān)系型數(shù)據(jù)庫(kù)可以直接與RDF進(jìn)行映射,通過(guò)自動(dòng)化的方式轉(zhuǎn)換為本體數(shù)據(jù),映射關(guān)系如圖3所示.數(shù)據(jù)庫(kù)中的表對(duì)應(yīng)RDF中的類(lèi),表中的每一條記錄對(duì)應(yīng)著RDF中該類(lèi)下的一個(gè)實(shí)例,表中的每個(gè)字段是該實(shí)例的屬性[1].
第一步: 首先,從原有的關(guān)系型數(shù)據(jù)庫(kù)中提取有用信息,例如等等.再將這些信息轉(zhuǎn)換成XML文件.然后會(huì)對(duì)XML文件中的一些非結(jié)構(gòu)化的信息,例如“故障描述”進(jìn)行分詞.
第二步: 根據(jù)上面設(shè)計(jì)的本體中的類(lèi)、實(shí)體和屬性,XML文件通過(guò)遞歸算法轉(zhuǎn)換成RDF文件.如果XML文件中的節(jié)點(diǎn)有子節(jié)點(diǎn),該節(jié)點(diǎn)就會(huì)生成對(duì)象屬性和實(shí)體,然后依次遞歸的遍歷子節(jié)點(diǎn).否者,只是創(chuàng)建一個(gè)數(shù)據(jù)屬性.這個(gè)過(guò)程是采用的Jena API實(shí)現(xiàn),輸出的RDF文件.
當(dāng)將關(guān)系型數(shù)據(jù)庫(kù)轉(zhuǎn)換成的RDF文件,可以將其導(dǎo)入到RDF數(shù)據(jù)庫(kù),即本文采用的知識(shí)存儲(chǔ)系統(tǒng).
3.2非結(jié)構(gòu)化知識(shí)提取
還有些知識(shí)隱含在非結(jié)構(gòu)化數(shù)據(jù)中,需要對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行自然語(yǔ)言處理才能提取到知識(shí).首先需要對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分詞,然后再提取相應(yīng)的實(shí)體,類(lèi)和屬性.采用的方法是基于領(lǐng)域知識(shí)和模式的分詞技術(shù)[8].
傳統(tǒng)的分詞一般是分為基于詞典的分詞和基于機(jī)器學(xué)習(xí)的分詞方法.基于詞典的分詞準(zhǔn)確率過(guò)于依賴(lài)詞典.對(duì)于一些有歧義的詞不能正確的劃分,舉個(gè)簡(jiǎn)單的例子.例如,有一個(gè)句子是“北京天真好”.詞典里有“天真”,這樣句子就被錯(cuò)誤的劃分成了“北京/天真/好”.這是因?yàn)橥ㄓ迷~典是跨領(lǐng)域的,沒(méi)有對(duì)詞典進(jìn)行分類(lèi),準(zhǔn)確率得不到保證.基于機(jī)器學(xué)習(xí)的分詞方法缺少領(lǐng)域知識(shí),準(zhǔn)確性波動(dòng)較大.因此,本文結(jié)合領(lǐng)域知識(shí)和模式的方式來(lái)進(jìn)行分詞[3].
圖3 關(guān)系型數(shù)據(jù)到RDF模型轉(zhuǎn)換
首先,需要由用戶指定非結(jié)構(gòu)化短語(yǔ)的模式.例如,對(duì)于大量技術(shù)人員的工作履歷進(jìn)行知識(shí)提取,識(shí)別不同人員的專(zhuān)業(yè)經(jīng)驗(yàn),履歷里存在這一的短語(yǔ)“***某一年在工作單位任**職務(wù)”.需要將其分為三段“省市/公司名/職務(wù)”,這就是提前確定好的模式.得到模式之后,可以借助于現(xiàn)有的領(lǐng)域知識(shí).這個(gè)例子的初始情況能得到完整的現(xiàn)有“省市”知識(shí)庫(kù),不夠完整的“公司名”和“職務(wù)名”的知識(shí)庫(kù).根據(jù)這三個(gè)知識(shí)庫(kù)就可以將非結(jié)構(gòu)化的信息分成三個(gè)詞,獲取的知識(shí)也可以反寫(xiě)到這三個(gè)知識(shí)庫(kù).
圖4 基于模式和領(lǐng)域知識(shí)的分詞技術(shù)
3.3知識(shí)訪問(wèn)與維護(hù)管理
知識(shí)庫(kù)是動(dòng)態(tài)更新的,所以允許編輯類(lèi)、實(shí)體和屬性.當(dāng)一個(gè)新的類(lèi)被創(chuàng)建時(shí),往往需要導(dǎo)入一類(lèi)實(shí)體,而新導(dǎo)入的實(shí)體和原有的實(shí)體之間的歧義性需要消除.維護(hù)領(lǐng)域知識(shí)庫(kù)的流程如圖5所示,如果新添類(lèi)中的實(shí)體和新類(lèi)的所有父類(lèi)的實(shí)體相匹配,這個(gè)已經(jīng)存在的實(shí)體就會(huì)直接添加到這個(gè)新類(lèi)中.如果沒(méi)有匹配上,就需要為這個(gè)新類(lèi)創(chuàng)建一個(gè)實(shí)體.
圖5 知識(shí)庫(kù)維護(hù)
本文介紹的知識(shí)圖譜系統(tǒng)存儲(chǔ)于RDF數(shù)據(jù)庫(kù),因此語(yǔ)義搜索采用SPARQL語(yǔ)言來(lái)表達(dá).
比如這個(gè)簡(jiǎn)單的語(yǔ)句,可以搜索所有變壓器相關(guān)的故障記錄,包含各種類(lèi)型變壓器相關(guān)的故障都會(huì)展現(xiàn).SPARQL執(zhí)行時(shí)自動(dòng)進(jìn)行了推理,即擴(kuò)展“變壓器”的概念到其子概念.和關(guān)鍵詞搜索不同,語(yǔ)義搜索可以查詢所有語(yǔ)義相近的結(jié)果.
對(duì)返回的多個(gè)結(jié)果進(jìn)行排序,需要語(yǔ)義度量來(lái)計(jì)算和查詢術(shù)語(yǔ)語(yǔ)義上最相關(guān)的結(jié)果.語(yǔ)義度量是指對(duì)不同的概念的語(yǔ)義距離進(jìn)行計(jì)算,得出不同的概念之間的相似度.相似度取值范圍為(0,1),相似度取值越大,相似度越高.
一些基本數(shù)據(jù)的定義:
Dist(C1,C2):概念C1,C2的語(yǔ)義距離;
depth(C): 概念C在樹(shù)的結(jié)構(gòu)層次中的節(jié)點(diǎn)深度;
weight(C): 概念C的權(quán)值;
Sim(C1,C2): 概念C1,C2的相似度,Sim(C1,C2)(0,1).
概念C的權(quán)值計(jì)算公式表示為: weight( C)= 1/ Wid ( C)*aDep( C),a≥2
通過(guò)計(jì)算語(yǔ)義度量值,可以對(duì)查詢結(jié)果進(jìn)行排序返回結(jié)果.
為了評(píng)估構(gòu)建的電力領(lǐng)域語(yǔ)義搜索系統(tǒng)的效率,在貴州電網(wǎng)公司內(nèi)部進(jìn)行部署測(cè)試.采樣測(cè)試數(shù)據(jù)包含電網(wǎng)設(shè)備、電網(wǎng)工作人員、電網(wǎng)故障恢復(fù)記錄、電網(wǎng)站點(diǎn)信息等總記錄數(shù)5萬(wàn)條,相關(guān)文檔資料1千篇.分別通過(guò)關(guān)鍵詞搜索和語(yǔ)義搜索來(lái)實(shí)現(xiàn)一些典型查詢,進(jìn)行案例的比較分析.
通過(guò)幾個(gè)典型的案例來(lái)進(jìn)行分析比較關(guān)鍵詞搜索和語(yǔ)義搜索各自適用的場(chǎng)景,并對(duì)比二者的搜索的查準(zhǔn)率和召回率.查準(zhǔn)率指返回的結(jié)果中正確結(jié)果的占比.召回率指返回的正確結(jié)果與實(shí)際存在的正確結(jié)果的占比.下面給出的8個(gè)查詢條件是采用自然語(yǔ)言描述的,在測(cè)試時(shí),語(yǔ)義搜索將轉(zhuǎn)換為RDF的SPARQL語(yǔ)言來(lái)查詢,關(guān)鍵詞搜索將轉(zhuǎn)換為包含Like關(guān)鍵詞的SQL語(yǔ)句來(lái)查詢,采用支持全文搜索的數(shù)據(jù)庫(kù)可以將Like關(guān)鍵詞執(zhí)行全文索引搜索.雖然僅給出了8個(gè)測(cè)試條件,但是都是有針對(duì)性選擇的,同類(lèi)別的查詢都可以達(dá)到類(lèi)似的效果.
總體來(lái)看語(yǔ)義搜索可以滿足更多用戶的搜索需求,且達(dá)到更高的查準(zhǔn)率,可以結(jié)合領(lǐng)域來(lái)進(jìn)行復(fù)雜查詢條件的定制分析.舉例說(shuō)明.問(wèn)題1,關(guān)鍵詞返回5個(gè)結(jié)果,其中3個(gè)為錯(cuò)誤,材料中出現(xiàn)“雷擊”和“故障”兩次,但相互沒(méi)有關(guān)系.語(yǔ)義搜索返回6個(gè)結(jié)果均為正確結(jié)果,還查詢出材料中未出現(xiàn)“設(shè)備”兩字,但包含“電壓互感器”.問(wèn)題2,兩個(gè)搜索結(jié)果一樣,因?yàn)樗凶儔浩髅侄及白儔浩鳌标P(guān)鍵詞,所以可以找到5個(gè).如果存在設(shè)備父類(lèi)、子類(lèi)名字無(wú)重復(fù)詞語(yǔ)的情況,語(yǔ)義搜索仍然可以正常找到所有實(shí)例.問(wèn)題7 和8,這種類(lèi)型的搜索關(guān)鍵詞無(wú)法找到結(jié)果,因?yàn)榭梢詫?duì)所有人員信息提前進(jìn)行語(yǔ)義分析,添加語(yǔ)義標(biāo)簽,因此可以支持此類(lèi)型語(yǔ)義搜索.這種類(lèi)型關(guān)鍵詞搜索無(wú)返回結(jié)果,因此查找率為100%.
表1 測(cè)試查詢條件
圖6 查準(zhǔn)率
圖7 召回率
本文針對(duì)現(xiàn)有搜索技術(shù)在電力領(lǐng)域存在的準(zhǔn)確性和召回率問(wèn)題,提出一種基于知識(shí)圖譜的領(lǐng)域語(yǔ)義搜索系統(tǒng)框架,給出電力領(lǐng)域數(shù)據(jù)資源采集、知識(shí)提取、知識(shí)圖譜構(gòu)建,到支持領(lǐng)域語(yǔ)言的語(yǔ)義搜索的整個(gè)流程.通過(guò)搭建實(shí)驗(yàn)平臺(tái),并采用真實(shí)數(shù)據(jù)進(jìn)行評(píng)估,該框架在搜索的查全率查準(zhǔn)率都有較大提高.
構(gòu)建領(lǐng)域知識(shí)圖譜是一項(xiàng)復(fù)雜工程,在各環(huán)節(jié)還存在很多技術(shù)挑戰(zhàn),本文只是給出了一些初步的思路和方法.如果要實(shí)現(xiàn)知識(shí)高效準(zhǔn)確的自動(dòng)提取,還需要結(jié)合自然語(yǔ)言理解、深度學(xué)習(xí)等相關(guān)技術(shù),也是本文未來(lái)的研究方向.
參考文獻(xiàn)
1王珊,張俊,彭朝暉,等.基于本體的關(guān)系數(shù)據(jù)庫(kù)語(yǔ)義檢索.計(jì)算機(jī)科學(xué)與探索,2007,(1):59–78.
2蘇明明,宋文,基于本體的語(yǔ)義搜索引擎解決方案研究新進(jìn)展.現(xiàn)代圖書(shū)情報(bào)技術(shù),2008,(11):24–28.
3ICTCLAS漢語(yǔ)分詞系統(tǒng).http://ictclas.org/.[2010-07-10].
4RDF model and syntax specification.1999.http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/.
5SPARQL,http://www.w3.org/TR/rdf-sparql-query/.
6陶濤,王棟.電網(wǎng)調(diào)度運(yùn)行管理中存在的問(wèn)題及解決措施分析.電子技術(shù)與軟件工程,2014,21:179.
7吳克河,何霞,李廷順.基于Lucene構(gòu)建電力企業(yè)搜索引擎分析器.電力行業(yè)信息化年會(huì),2008.
8車(chē)海燕,馮鐵,張家晨,陳偉,李大利.面向中文自然語(yǔ)言文檔的自動(dòng)知識(shí)抽取方法.計(jì)算機(jī)研究與發(fā)展,2013,4:834–842.
Construction Method of Semantic Search System in Power Domain
JI Yuan,XIE Dong,ZHOU Si-Ming,WANG Xiang-Dong
(Guizhou Electric Power Grid Dispatching and Control Center,Guiyang 550002,China)
Abstract:Large amounts of data resources including relevant standards,products and technical documents,document management,fault recover records,etc.in the power domain continue to accumulate.How to fast query and search of these documents has important value for grid scheduling and fault recovery.The traditional search system is based on the key words matching,which cannot find accurate answers for query business terms.This paper designs a semantic search system for power domain.We research on word segmentation technology,knowledge graph and inference engine.The design architecture and key modules of the system are introduced,and the effectiveness of the method is evaluated by experiments.Key words: power; grid schedule; fault recovery; knowledge graph; semantic search
收稿時(shí)間:①2015-07-27;收到修改稿時(shí)間:2015-10-19