牛增賢, 劉海峰, 徐偉峰, 李 剛,2, 謝 慶, 王洪濤,2
(1. 華北電力大學(xué) 計(jì)算機(jī)系, 河北 保定 071003;2. 華北電力大學(xué) 復(fù)雜能源系統(tǒng)智能計(jì)算教育部工程研究中心, 河北 保定 071003;3. 華北電力大學(xué) 電力工程系, 河北 保定 071003)
變壓器作為電力能源輸送的重要中間節(jié)點(diǎn), 其健康情況直接影響整個(gè)電力系統(tǒng)的安全運(yùn)行[1-2]. 目前, 變壓器的運(yùn)維工作主要依賴于技術(shù)和管理人員的知識(shí)與經(jīng)驗(yàn), 需要工作人員熟悉變壓器運(yùn)維知識(shí), 并對(duì)變壓器運(yùn)維的歷史數(shù)據(jù)進(jìn)行查閱、 分類(lèi)和統(tǒng)計(jì). 該方法工作量大、 知識(shí)提取效率低, 且易產(chǎn)生疏忽和遺漏[3]. 雖然通過(guò)關(guān)鍵詞在傳統(tǒng)數(shù)據(jù)庫(kù)中進(jìn)行檢索的方法能提高知識(shí)提取的效率, 但傳統(tǒng)數(shù)據(jù)庫(kù)建模不靈活, 很難適用于復(fù)雜多變的變壓器運(yùn)維場(chǎng)景[4]. 隨著電網(wǎng)規(guī)模的不斷擴(kuò)大, 變壓器運(yùn)維工作具有數(shù)量大、 類(lèi)型多、 處置難、 響應(yīng)慢等特點(diǎn), 僅靠人工積累和傳統(tǒng)數(shù)據(jù)庫(kù)檢索的方法提取可用知識(shí)效率低, 難以實(shí)現(xiàn)大量變壓器的快速有效運(yùn)維[5]. 因此, 電力系統(tǒng)亟需智能化技術(shù)提高知識(shí)提取的效率, 從而形成專業(yè)的變壓器運(yùn)維知識(shí)庫(kù), 支撐變壓器的快速精準(zhǔn)運(yùn)維.
知識(shí)圖譜(knowledge graph)是一種將實(shí)體和屬性通過(guò)關(guān)系聯(lián)結(jié)在一起的語(yǔ)義網(wǎng)絡(luò)知識(shí)庫(kù). 知識(shí)圖譜以形式化、 簡(jiǎn)潔化的方式表示知識(shí), 表示方式一般為〈頭實(shí)體,關(guān)系,尾實(shí)體〉[6-7]. 與傳統(tǒng)數(shù)據(jù)庫(kù)相比, 知識(shí)圖譜的知識(shí)表達(dá)形式簡(jiǎn)潔直觀, 能有效組織復(fù)雜多樣的知識(shí). 構(gòu)建電力變壓器運(yùn)維知識(shí)圖譜, 一方面能充分挖掘和沉淀變壓器運(yùn)維中的知識(shí), 另一方面可為變壓器健康管理輔助決策、 變壓器缺陷故障分析等場(chǎng)景提供支持.
近年來(lái), 知識(shí)圖譜在電力領(lǐng)域的應(yīng)用逐漸增多. 例如: 文獻(xiàn)[8]提出了一種電力設(shè)備知識(shí)圖譜, 用于避免電力設(shè)備信息丟失, 提高數(shù)據(jù)儲(chǔ)存和提取的效率; 文獻(xiàn)[9]提出了知識(shí)圖譜在設(shè)備健康管理中的應(yīng)用場(chǎng)景, 并分析了當(dāng)前電力領(lǐng)域?qū)χR(shí)圖譜技術(shù)的需求; 文獻(xiàn)[10]利用缺陷記錄實(shí)現(xiàn)了電力設(shè)備缺陷知識(shí)圖譜; 文獻(xiàn)[11]完成了電網(wǎng)故障處置知識(shí)圖譜的構(gòu)建, 并進(jìn)行了可視化. 雖然近幾年知識(shí)圖譜技術(shù)在電力領(lǐng)域中的應(yīng)用得到快速發(fā)展, 但這些知識(shí)圖譜中涉及到變壓器信息的節(jié)點(diǎn)數(shù)量較少, 變壓器運(yùn)維知識(shí)不全面, 尚未形成用于變壓器運(yùn)維的專業(yè)知識(shí)圖譜.
本文以電力變壓器為核心設(shè)備, 擬基于變壓器運(yùn)維文本數(shù)據(jù), 提出一個(gè)電力變壓器運(yùn)維知識(shí)圖譜的構(gòu)建框架. 首先, 根據(jù)專家經(jīng)驗(yàn)建立電力變壓器運(yùn)維知識(shí)圖譜模式層; 其次, 為解決變壓器運(yùn)維文本的實(shí)體界限模糊和語(yǔ)義信息理解不充分問(wèn)題, 提出一種基于擴(kuò)展Span表示的深度神經(jīng)網(wǎng)絡(luò)知識(shí)抽取框架, 其中Span指句中跨度為n的某個(gè)片段, 如某句出現(xiàn)的“2號(hào)變”即為跨度為3的Span; 最后, 使用特征匹配和深度模型相融合的方法抽取實(shí)體和關(guān)系, 創(chuàng)建電力變壓器運(yùn)維知識(shí)圖譜數(shù)據(jù)層.
在變壓器日常運(yùn)行和維護(hù)的過(guò)程中, 工作人員積累了大量變壓器運(yùn)維相關(guān)的文本資料, 統(tǒng)稱為變壓器運(yùn)維文本. 變壓器運(yùn)維文本蘊(yùn)含著與變壓器最密切的信息, 如變壓器故障現(xiàn)象和設(shè)備質(zhì)量狀況等, 這些信息為工作人員的變壓器運(yùn)維工作提供了幫助. 變壓器運(yùn)維文本示例列于表1. 由表1可見(jiàn), 變壓器運(yùn)維文本類(lèi)型包括變壓器設(shè)備事故調(diào)查報(bào)告書(shū)、 設(shè)備異常分析報(bào)告等. 這些文本都是對(duì)某地區(qū)某一變壓器故障的詳細(xì)記錄, 包含變壓器、 變電站以及故障等信息.
表1 變壓器運(yùn)維文本示例Table 1 Examples of transformer operation and maintenance text
通過(guò)對(duì)大量實(shí)際變壓器運(yùn)維文本的分析發(fā)現(xiàn), 變壓器運(yùn)維文本內(nèi)容豐富、 語(yǔ)義復(fù)雜, 給提取變壓器運(yùn)維知識(shí)帶來(lái)了挑戰(zhàn). 此外, 由于人為記錄的主觀性, 不同變壓器運(yùn)維文本的側(cè)重點(diǎn)也不同. 變壓器運(yùn)維文本具有以下特點(diǎn):
1) 變壓器運(yùn)維文本種類(lèi)多, 文本內(nèi)容差異大, 不同類(lèi)型的變壓器都會(huì)發(fā)生局部放電故障, 但由于變壓器種類(lèi)和處理人員不同, 變壓器運(yùn)維文本的格式和處置方式的描述也不同;
2) 變壓器運(yùn)維文本的專業(yè)性強(qiáng), 描述清晰, 變壓器運(yùn)維文本包含大量專有名詞和專業(yè)術(shù)語(yǔ), 如變壓器的型號(hào)、 故障的類(lèi)型等, 都有詳細(xì)清晰的記錄;
3) 變壓器運(yùn)維文本中實(shí)體之間邊界模糊, 如“某變電站2號(hào)變局部放電故障”, 這句話包含“某變電站”、 “2號(hào)變”和“局部放電”3個(gè)實(shí)體, 且它們之間無(wú)明顯邊界詞.
本文在構(gòu)建變壓器運(yùn)維知識(shí)圖譜時(shí), 充分考慮了上述文本特點(diǎn), 提出一種融合特征匹配和深度學(xué)習(xí)的知識(shí)抽取方法. 對(duì)特征明顯的知識(shí), 使用特征匹配方法; 對(duì)無(wú)明顯特征的知識(shí), 使用深度學(xué)習(xí)方法.
知識(shí)圖譜可分為兩類(lèi): 領(lǐng)域知識(shí)圖譜和不限領(lǐng)域知識(shí)圖譜(通用知識(shí)圖譜)[12]. 領(lǐng)域知識(shí)圖譜面向某一領(lǐng)域, 例如醫(yī)療領(lǐng)域知識(shí)圖譜等, 是由某一領(lǐng)域?qū)I(yè)數(shù)據(jù)構(gòu)成的行業(yè)知識(shí)庫(kù). 不限領(lǐng)域知識(shí)圖譜面向各行各業(yè), 覆蓋面廣, 但對(duì)知識(shí)的準(zhǔn)確度要求較低, 常見(jiàn)的通用知識(shí)圖譜有DBpedia[13]和YAGO[14]等. 本文面向電力領(lǐng)域, 從本體設(shè)計(jì)、 模式層和數(shù)據(jù)層3個(gè)方面構(gòu)建電力變壓器運(yùn)維知識(shí)圖譜.
領(lǐng)域知識(shí)圖譜的本體設(shè)計(jì)方法有自頂向下式、 自底向上式和混合式[15]3種. 自頂向下式能清晰地展現(xiàn)概念間的層級(jí)關(guān)系, 但人工依賴性強(qiáng), 數(shù)據(jù)質(zhì)量要求高; 自底向上式數(shù)據(jù)質(zhì)量要求較低, 適合大型知識(shí)圖譜的構(gòu)建, 但抽取到的知識(shí)噪聲較大、 準(zhǔn)確性不高; 混合式是前兩種方式的結(jié)合, 融合了這兩種方式的優(yōu)點(diǎn), 先依靠專家指導(dǎo)進(jìn)行知識(shí)圖譜的模式層構(gòu)建, 再通過(guò)知識(shí)抽取建立知識(shí)圖譜的數(shù)據(jù)層.
本文采用混合方式對(duì)電力變壓器運(yùn)維知識(shí)圖譜進(jìn)行構(gòu)建, 如圖1所示. 首先, 采用自頂向下式的構(gòu)建方法, 建立變壓器運(yùn)維的本體概念以及本體之間的關(guān)系, 完成電力變壓器運(yùn)維知識(shí)圖譜的模式層構(gòu)建. 其次, 為確保知識(shí)圖譜的完備性, 采用自底向上式的構(gòu)建方法, 對(duì)變壓器運(yùn)維文本進(jìn)行實(shí)體、 關(guān)系和屬性的抽取, 完成電力變壓器運(yùn)維知識(shí)圖譜的數(shù)據(jù)層構(gòu)建; 同時(shí), 對(duì)抽取結(jié)果進(jìn)行歸納總結(jié), 將歸納總結(jié)出的概念映射補(bǔ)充到知識(shí)圖譜模式層中. 最后, 將構(gòu)建好的概念層與數(shù)據(jù)層知識(shí)圖譜存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù)中, 完成電力變壓器運(yùn)維知識(shí)圖譜的構(gòu)建.
圖1 電力變壓器運(yùn)維知識(shí)圖譜構(gòu)建框架Fig.1 Construction framework of power transformer operation and maintenance knowledge graph
模式層建立在數(shù)據(jù)層之上, 描述了實(shí)體關(guān)系和屬性關(guān)系. 本文根據(jù)電力專家的指導(dǎo)創(chuàng)建了電力變壓器運(yùn)維知識(shí)圖譜的模式層, 如圖2所示. 首先, 變壓器是本文構(gòu)建的知識(shí)圖譜中最核心的本體, 且變壓器在概念上屬于變電設(shè)備, 故定義了變壓器和變電設(shè)備本體. 其次, 為了解變壓器內(nèi)部構(gòu)件、 歷史發(fā)生故障等信息, 針對(duì)變壓器定義了部件、 故障等本體. 此外, 由于變壓器歷史故障現(xiàn)象以及故障處置方法等信息可有效輔助工作人員對(duì)變壓器故障進(jìn)行診斷, 故針對(duì)變壓器的故障定義了故障類(lèi)別、 故障等級(jí)和處置措施等本體.
2.3.1 數(shù)據(jù)層知識(shí)抽取框架
電力領(lǐng)域的知識(shí)抽取一般采用基于規(guī)則的方法, 通過(guò)電力專家制定規(guī)則和模板完成對(duì)模式相對(duì)固定知識(shí)的抽取[16]. 這種方法相對(duì)簡(jiǎn)單, 對(duì)模式固定的語(yǔ)句抽取準(zhǔn)確率高, 缺點(diǎn)是靈活性較低, 難以適應(yīng)具有豐富語(yǔ)義的場(chǎng)景. 目前, 基于深度學(xué)習(xí)的方法已成功應(yīng)用于知識(shí)抽取問(wèn)題, 并取得了很好的效果. 這種方法對(duì)專家的依賴較低, 且靈活性高.
圖3 融合規(guī)則和深度學(xué)習(xí)的知識(shí)抽取框架Fig.3 Knowledge extraction framework of fusion rules and deep learning
2.3.2 基于特征匹配的實(shí)體抽取技術(shù)
變壓器運(yùn)維文本中對(duì)于發(fā)生故障時(shí)的天氣狀況以及故障處置措施描述非常詳細(xì). 基于特征匹配抽取的實(shí)體類(lèi)別和示例列于表2.
表2 基于特征匹配抽取的實(shí)體類(lèi)別和示例Table 2 Entity types and examples based on feature matching extraction
由表2可見(jiàn), 這兩類(lèi)實(shí)體內(nèi)容廣、 字符跨度大, 深度學(xué)習(xí)方法很難捕捉實(shí)體特征, 但句式和位置相對(duì)固定, 特征明顯. 如表2中天氣實(shí)體, 有明顯實(shí)體觸發(fā)詞位于最后位置, 且存在固定單位, 使用特征匹配方法能準(zhǔn)確匹配到該實(shí)體信息.
特征匹配是指通過(guò)特征模板與文本內(nèi)容的比較, 找到文本內(nèi)容與模板相匹配的部分. 特征匹配實(shí)體抽取流程如圖4所示. 以表2中的天氣實(shí)體為例, 實(shí)體觸發(fā)詞設(shè)為“氣象條件”. 輸入文本, 發(fā)現(xiàn)文本存在“氣象條件”觸發(fā)詞; 然后鎖定觸發(fā)詞所在句, 即為表2中示例句; 通過(guò)正則表達(dá)式: “re.findall(‘(氣溫.+?℃)’, 示例句)、 re.findall(‘(濕度.+? %)’, 示例句)、 re.findall(‘(風(fēng)速.+?級(jí))’, 示例句)”對(duì)示例句進(jìn)行特征匹配, 最后將結(jié)果拼接在一起, 完成對(duì)天氣實(shí)體的抽取. 人工記錄具有主觀性, 特征匹配的方法有時(shí)不能或不能完整地抽取知識(shí), 所以特征匹配的模板需要定期更新. 對(duì)于不能抽取知識(shí)的情形, 由專家分析該類(lèi)變壓器運(yùn)維文本, 并進(jìn)行觸發(fā)詞的更新; 對(duì)于不能完整抽取的情形, 本文將已抽取結(jié)果與原文實(shí)體所在句進(jìn)行余弦相似度匹配判斷抽取是否完整, 根據(jù)實(shí)體情形設(shè)置不同的閾值. 若匹配結(jié)果大于閾值, 則無(wú)需更新; 若匹配結(jié)果小于閾值, 則人工進(jìn)行正則表達(dá)式的更新.
圖4 基于特征匹配的實(shí)體抽取流程Fig.4 Flow chart of entity extraction based on feature matching
關(guān)系匹配技術(shù)僅用于抽取表2中兩類(lèi)實(shí)體的關(guān)系, 這兩類(lèi)實(shí)體通常是一段話, 使用深度學(xué)習(xí)模型抽取關(guān)系很難提取實(shí)體之間的依賴關(guān)系, 故使用關(guān)系匹配. 關(guān)系匹配將實(shí)體類(lèi)型與預(yù)設(shè)關(guān)系三元組進(jìn)行匹配, 圖2中所有的邊及邊的兩個(gè)端點(diǎn)作為預(yù)設(shè)關(guān)系三元組. 如特征匹配出實(shí)體的類(lèi)型是處置措施, 關(guān)系匹配后發(fā)現(xiàn)處置措施只與故障有關(guān)系, 且變壓器運(yùn)維文本通常只針對(duì)某變壓器的某一具體故障, 故處置措施與實(shí)體抽取出的故障實(shí)體建立關(guān)系.
2.3.3 基于擴(kuò)展Span表示的實(shí)體抽取技術(shù)
實(shí)體抽取也稱為命名實(shí)體識(shí)別(named entity recognition, NER), 基于深度學(xué)習(xí)的實(shí)體抽取方法主要抽取變壓器、 部件等實(shí)體, 其實(shí)體類(lèi)型列于表3. 由表3可見(jiàn), 這些實(shí)體成分復(fù)雜、 出現(xiàn)頻率高、 位置不固定, 基于特征匹配的方法很難靈活地抽取實(shí)體. 深度學(xué)習(xí)方法可以自動(dòng)學(xué)習(xí)特征, 具有較強(qiáng)的靈活性. 但將深度學(xué)習(xí)應(yīng)用到變壓器運(yùn)維文本, 仍存在實(shí)體界限模糊和語(yǔ)義信息理解不充分的問(wèn)題.
在諾內(nèi)特看來(lái),“如果統(tǒng)治政權(quán)傾向于不顧被統(tǒng)治者的利益或者否認(rèn)它們的正統(tǒng)性,那么它就是壓制性的?!盵2]因?yàn)椋谶@種法制模式下,最受關(guān)注的是權(quán)力的權(quán)威性及其形成的統(tǒng)治、管理秩序,為了實(shí)現(xiàn)這種秩序性核心價(jià)值,“刑法是法律官員關(guān)注的中心,是表現(xiàn)法律權(quán)威的典型方法?!盵2]整體來(lái)看,中國(guó)古代歷朝法制狀況均系“言法必刑”“以刑為主”,由于其固有的強(qiáng)大威懾性,刑法成為治理手段的首選,其他的社會(huì)規(guī)范則退居其后,以致長(zhǎng)期形成了社會(huì)治理刑法化的路徑依賴。
表3 基于深度學(xué)習(xí)抽取的實(shí)體類(lèi)型和示例Table 3 Entity types and examples extracted by deep learning
為解決變壓器運(yùn)維文本的實(shí)體界限模糊和語(yǔ)義信息理解不充分問(wèn)題, 本文提出一種使用擴(kuò)展上下文信息和BERT[17]預(yù)訓(xùn)練模型獲取擴(kuò)展Span表示的方法, 分別實(shí)現(xiàn)實(shí)體和關(guān)系抽取.
BERT預(yù)訓(xùn)練模型是一種帶有掩碼的語(yǔ)言模型, 通過(guò)在海量語(yǔ)料庫(kù)上的學(xué)習(xí)可生成單詞的特征表示, 提升下游任務(wù)的性能. 針對(duì)實(shí)體界限模糊問(wèn)題, 模型對(duì)輸入進(jìn)行改進(jìn): 在訓(xùn)練時(shí), 根據(jù)實(shí)體的位置標(biāo)注, 將每個(gè)實(shí)體的實(shí)體類(lèi)型插入到原始句子中. 例如“2號(hào)變發(fā)生故障”, “2號(hào)變”為變壓器實(shí)體類(lèi)型, 改進(jìn)后的句子為“〈e: 變壓器〉2號(hào)變〈/e: 變壓器〉發(fā)生故障”. 這種方法可以明確實(shí)體界限, 使模型更好學(xué)習(xí)實(shí)體的特征. 模型只學(xué)習(xí)本句信息, 可能會(huì)忽略上下文的聯(lián)系, 導(dǎo)致語(yǔ)義信息理解不充分. 如圖5所示, 若只輸入本句信息, 模型會(huì)很難理解2號(hào)變究竟發(fā)生了哪個(gè)具體故障, 難以建立2號(hào)變與具體故障等信息之間的依賴關(guān)系, 導(dǎo)致模型不能完整地捕獲2號(hào)變的語(yǔ)義特征. 針對(duì)語(yǔ)義信息理解不充分的問(wèn)題, 模型采用合并句子上下文方式構(gòu)建更好的上下文表示: 設(shè)定擴(kuò)充上下文大小為N, 在輸入句前填充N(xiāo)/2個(gè)字的前文信息, 在句后添加N/2個(gè)字的下文信息.
本文采用Span-level NER[18]的方式標(biāo)注數(shù)據(jù). 基于擴(kuò)展Span表示的實(shí)體抽取模型結(jié)構(gòu)如圖5所示, 由預(yù)訓(xùn)練語(yǔ)言模型BERT以及帶有ReLU激活函數(shù)的兩層前向神經(jīng)網(wǎng)絡(luò)組成. 首先, 通過(guò)BERT獲得輸入句子中每個(gè)字的上下文表示Ht, 其中Et是每個(gè)字的字向量、 句子向量和位置向量之和.然后, 設(shè)置Span跨度, 以該跨度枚舉所有Span標(biāo)簽. 如圖5中, 若Span跨度設(shè)為3, “2號(hào)變”即有“2”、“2號(hào)”、“2號(hào)變”等多個(gè)Span, 且每個(gè)Span均為候選實(shí)體. 每個(gè)Span表示為
he(si)=(XSTART(i),XEND(i),Φ(si)),
(1)
其中:XSTART(i)為Span開(kāi)始位置的上下文表示, 對(duì)應(yīng)圖5中綠點(diǎn);XEND(i)為Span結(jié)束位置的上下文表示, 對(duì)應(yīng)圖5中的紫點(diǎn);Φ(si)為Span跨度的特征表示, 對(duì)應(yīng)圖5中黃點(diǎn). Span跨度指包含字符的數(shù)目, 如“2”的跨度為1, “2號(hào)變”的跨度為3. 最后, 通過(guò)預(yù)測(cè)實(shí)體為類(lèi)型的概率:
Pe(e|si)=Softmax[FFNN(he(si))],
(2)
其中FFNN[19]為帶有ReLU激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò).
2.3.4 基于擴(kuò)展Span表示的關(guān)系抽取技術(shù)
屬性抽取和關(guān)系抽取本質(zhì)上都是抽取兩個(gè)實(shí)體之間的關(guān)系, 故本文采用統(tǒng)一的抽取方法. 實(shí)體間關(guān)系抽取(relation extraction, RE)依賴于實(shí)體抽取的結(jié)果, 兩個(gè)抽取任務(wù)相互獨(dú)立, 可以更好地學(xué)習(xí)特定任務(wù)的特征. 關(guān)系抽取仍采用基于擴(kuò)展Span表示的方法, 變壓器運(yùn)維文本中實(shí)體間的關(guān)系類(lèi)型列于表4.
表4 基于深度學(xué)習(xí)抽取的關(guān)系類(lèi)型Table 4 Relation types extracted by deep learning
基于擴(kuò)展Span表示的關(guān)系抽取模型結(jié)構(gòu)為: 首先, 實(shí)體邊界以及類(lèi)型作為標(biāo)識(shí)符被加入到實(shí)體Span前后, 作為關(guān)系模型的輸入, 表示為
S=…〈S:ei〉,ESTART(i),…,EEND(i),〈/S:ei〉…〈O:ej〉,ESTART(j),…,EEND(j),〈/O:ej〉…,
(3)
其中〈S:ei〉表示頭實(shí)體開(kāi)始位置, 〈/S:ei〉表示頭實(shí)體結(jié)束位置, 〈O:ej〉表示尾實(shí)體開(kāi)始位置, 〈/O:ej〉表示尾實(shí)體結(jié)束位置; 其次, 通過(guò)BERT模型獲得填充后的實(shí)體對(duì)之間的Span表示為
hr(si,sj)=(ESTART(i),ESTART(j)),
(4)
其中ESTART(i)為頭實(shí)體開(kāi)始位置的向量表示,ESTART(j)為尾實(shí)體開(kāi)始位置的向量表示; 最后, 預(yù)測(cè)兩個(gè)實(shí)體之間最可能的關(guān)系為
Pr(r|si,sj)=Softmax[FFNN(hr(si,sj))].
(5)
基于擴(kuò)展Span表示的關(guān)系抽取模型利用實(shí)體模型的抽取結(jié)果以及關(guān)系標(biāo)簽信息進(jìn)行訓(xùn)練, 最終完成關(guān)系抽取任務(wù).
本文選取240份變壓器運(yùn)維文本作為變壓器運(yùn)維文本數(shù)據(jù)集. 變壓器運(yùn)維文本數(shù)據(jù)集主要來(lái)源于變壓器現(xiàn)場(chǎng)故障分析報(bào)告、 異常檢測(cè)報(bào)告等半結(jié)構(gòu)化文本, 其中變壓器的故障分析報(bào)告約占70%. 運(yùn)維文本的內(nèi)容包括變壓器的屬性、 變壓器故障運(yùn)維方案等, 涵蓋了電力變壓器領(lǐng)域大部分的故障類(lèi)型、 故障診斷方法以及熱點(diǎn)研究?jī)?nèi)容.
數(shù)據(jù)集經(jīng)過(guò)人工標(biāo)注后, 按8∶1∶1隨機(jī)劃分為訓(xùn)練集、 驗(yàn)證集和測(cè)試集. 表5列出了變壓器運(yùn)維文本數(shù)據(jù)集的句子統(tǒng)計(jì)數(shù)據(jù). 本文選取標(biāo)準(zhǔn)的評(píng)價(jià)方法, 模型評(píng)價(jià)指標(biāo)為準(zhǔn)確率(P)、 召回率(R)和F1值[20]. 對(duì)于實(shí)體抽取任務(wù), 如果一個(gè)實(shí)體邊界和類(lèi)型的預(yù)測(cè)值與標(biāo)注信息相同, 則認(rèn)為該預(yù)測(cè)是正確的; 對(duì)于關(guān)系抽取任務(wù), 如果兩個(gè)實(shí)體邊界的預(yù)測(cè)值與關(guān)系類(lèi)型的預(yù)測(cè)值均與標(biāo)注信息相同, 則認(rèn)為該關(guān)系預(yù)測(cè)正確.
表5 數(shù)據(jù)集統(tǒng)計(jì)信息Table 5 Statistical information of datasets
實(shí)驗(yàn)數(shù)據(jù)集為本文構(gòu)建的變壓器運(yùn)維文本數(shù)據(jù)集, 實(shí)驗(yàn)環(huán)境為Visual Studio Code, 深度學(xué)習(xí)框架版本為Pytorch 1.4.0, Transformers 3.0.2, Python版本為3.7, 顯卡為T(mén)esla K80.
3.2.1 基于特征匹配的實(shí)體抽取實(shí)驗(yàn)與分析
基于特征匹配的實(shí)體抽取方法用于抽取天氣和處置措施兩類(lèi)實(shí)體, 兩類(lèi)實(shí)體的最初觸發(fā)詞設(shè)置及實(shí)驗(yàn)結(jié)果列于表6, 關(guān)系匹配結(jié)果列于表7.
表6 基于特征匹配的實(shí)體抽取實(shí)驗(yàn)結(jié)果Table 6 Experimental results of entity extraction based on feature matching
表7 關(guān)系匹配實(shí)驗(yàn)結(jié)果Table 7 Experimental results of relationship matching
由表6可見(jiàn), 天氣和處置措施的召回率偏低. 這是因?yàn)槿藶橛涗浘哂兄饔^性, 工作人員對(duì)變壓器運(yùn)維的描述存在差異. 例如, 對(duì)于天氣實(shí)體, 有些變壓器運(yùn)維文本存在定義的天氣實(shí)體觸發(fā)詞, 從而有利于匹配; 但有些文本中不存在定義的觸發(fā)詞, 特征匹配的方法就不能匹配到天氣信息. 此外, 實(shí)體觸發(fā)詞可能與其他信息相關(guān), 影響了抽取準(zhǔn)確率. 例如, “處置”是處置措施實(shí)體的觸發(fā)詞, 但在一些變壓器運(yùn)維文本中, “處置”一詞出現(xiàn)在變壓器部件處置情況中. 但本文基于特征匹配的實(shí)體抽取方法所用的正則表達(dá)式和觸發(fā)詞是不斷更新的, 為匹配效果的提升提供了支撐. 而關(guān)系匹配的準(zhǔn)確率依賴于天氣、 處置措施和故障3個(gè)實(shí)體是否能被準(zhǔn)確識(shí)別, 任一實(shí)體識(shí)別失敗, 都會(huì)降低某關(guān)系抽取的準(zhǔn)確度.
3.2.2 基于擴(kuò)展Span表示的實(shí)體抽取實(shí)驗(yàn)
本文基于所構(gòu)建的數(shù)據(jù)集驗(yàn)證所提方法在實(shí)體抽取上的性能, 參數(shù)設(shè)置列于表8. 基于擴(kuò)展Span表示的實(shí)體抽取模型(Extended Span)對(duì)比實(shí)驗(yàn)?zāi)P瓦x擇隱Markov模型(HMM)以及深度學(xué)習(xí)模型: BiLSTM和BiLSTM+CRF. 本文設(shè)置上下文數(shù)量N=100, 實(shí)驗(yàn)結(jié)果列于表9.
表8 實(shí)體抽取模型參數(shù)設(shè)置Table 8 Parameters setting of entity extraction model
表9 實(shí)體抽取實(shí)驗(yàn)結(jié)果Table 9 Experimental results of entity extraction
變壓器運(yùn)維文本具有描述清晰和流程性強(qiáng)的特點(diǎn), 為知識(shí)抽取任務(wù)帶來(lái)了幫助. 由表9可見(jiàn), 各模型的實(shí)驗(yàn)結(jié)果均在80%以上. 其中, Extended Span模型通過(guò)跨句信息的幫助取得了最優(yōu). HMM主要學(xué)習(xí)了電力數(shù)據(jù)集的初始狀態(tài)分布, 當(dāng)文本的描述發(fā)生變化時(shí), 會(huì)導(dǎo)致預(yù)測(cè)精度降低. 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)具有一定的非線性擬合能力, 可以從前后兩個(gè)方向?qū)渥舆M(jìn)行建模, 捕獲長(zhǎng)距離上下文信息, 自然語(yǔ)言處理(CRF)可對(duì)BiLSTM預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化, 輔助提高預(yù)測(cè)精度. 與Extended Span模型相比, 對(duì)比模型的輸入沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練語(yǔ)言模型, 所以詞向量表示的質(zhì)量可能會(huì)下降, 影響了后續(xù)訓(xùn)練. 此外, 變壓器運(yùn)維文本數(shù)據(jù)集存在實(shí)體界限模糊的現(xiàn)象, 導(dǎo)致對(duì)比模型難以準(zhǔn)確捕獲不同實(shí)體的特征. 與對(duì)比模型相比, Extended Span模型由預(yù)訓(xùn)練模型(BERT)作為編碼器, 為模型的訓(xùn)練提供了較準(zhǔn)確的詞向量表示.
Extended Span模型通過(guò)添加實(shí)體標(biāo)簽以及合并句子上下文方式進(jìn)行了實(shí)體抽取. 為驗(yàn)證本文方法的有效性, 對(duì)本文方法進(jìn)行了消融實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果列于表10.
表10 消融實(shí)驗(yàn)結(jié)果Table 10 Results of ablation experiment
由表10可見(jiàn), 添加實(shí)體標(biāo)簽的方式提升了模型的性能, 但去除上下文信息后, 模型準(zhǔn)確率和召回率明顯下降, 說(shuō)明上下文信息可使模型更好地理解句子信息. 實(shí)驗(yàn)結(jié)果表明, 本文方法給實(shí)體抽取任務(wù)帶來(lái)了幫助.
3.2.3 基于擴(kuò)展Span表示的關(guān)系抽取實(shí)驗(yàn)
本文基于所構(gòu)建的數(shù)據(jù)集驗(yàn)證所提方法在關(guān)系抽取模型上的性能, 關(guān)系抽取同樣設(shè)置上下文數(shù)量N=100, 模型參數(shù)設(shè)置列于表11.
表11 關(guān)系抽取模型參數(shù)設(shè)置Table 11 Parameters setting of relationship extraction model
為驗(yàn)證本文方法的有效性, 選取SSAN[21]深度學(xué)習(xí)模型作為對(duì)比模型. SSAN模型將每篇文檔作為輸入進(jìn)行關(guān)系抽取, 充分考慮了實(shí)體之間的共指關(guān)系. 關(guān)系抽取實(shí)驗(yàn)結(jié)果列于表12. 由表12可見(jiàn), Extended Span模型的各指標(biāo)均取得領(lǐng)先. 分析認(rèn)為, 變壓器運(yùn)維文本中關(guān)系種類(lèi)多, 但具有共指關(guān)系的實(shí)體少, 所以影響了SSAN模型的性能. 而變壓器運(yùn)維文本中多種關(guān)系存在較明顯的關(guān)系觸發(fā)詞, 且Extended Span模型以句子作為輸入, 并融合了上下文信息, 模型可更好地學(xué)習(xí)到各關(guān)系的特征, 故抽取結(jié)果高于SSAN模型.
表12 關(guān)系抽取實(shí)驗(yàn)結(jié)果Table 12 Experimental results of relationship extraction
表4中待抽取關(guān)系類(lèi)型的抽取結(jié)果列于表13. 由于變壓器運(yùn)維文本中的部件有很多別名以及代號(hào), 且變壓器和部件之間很少有觸發(fā)詞, 如“XX變954跳閘事故報(bào)告”, 954代表某一部件, 變壓器和部件之間無(wú)關(guān)系觸發(fā)詞. 關(guān)系模型難以提取它們之間的關(guān)系, 故本文不再列出.
表13 表4中特征抽取關(guān)系類(lèi)型的關(guān)系抽取實(shí)驗(yàn)結(jié)果Table 13 Experimental results of relationship extraction for types of relationships to be extracted in Table 4
由表13可見(jiàn), 模型對(duì)各關(guān)系類(lèi)別的抽取結(jié)果存在差異. 分析認(rèn)為, 變壓器運(yùn)維文本中多種關(guān)系存在較明顯的關(guān)系觸發(fā)詞, 為關(guān)系識(shí)別提供了幫助. 如“2號(hào)變局放故障開(kāi)始時(shí)間為2021-12-03”, 模型通過(guò)“開(kāi)始時(shí)間”, 可以判斷“2號(hào)變局放故障”和“2021-12-03”之間是有開(kāi)始日期的關(guān)系. 型號(hào)關(guān)系識(shí)別的準(zhǔn)確率較低, 但召回率較高, 達(dá)到90%以上, 這是由于該關(guān)系觸發(fā)詞幫助了模型識(shí)別變壓器和型號(hào)的關(guān)系, 但如果實(shí)體抽取沒(méi)能正確識(shí)別出“型號(hào)”實(shí)體, 則會(huì)間接影響關(guān)系抽取.
本文對(duì)240份變壓器運(yùn)維文本進(jìn)行實(shí)體和關(guān)系抽取后, 共形成1 278個(gè)實(shí)體和1 653條關(guān)系. 將實(shí)體之間的關(guān)系以三元組形式存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù), 進(jìn)行了展示, 圖6為部分電力變壓器運(yùn)維知識(shí)圖譜.
圖6 部分變壓器運(yùn)維知識(shí)圖譜Fig.6 Part of transformer operation and maintenance knowledge graph
圖7為基于變壓器運(yùn)維文本構(gòu)建的電力領(lǐng)域變壓器運(yùn)維知識(shí)圖譜中有關(guān)110 kV變電站1號(hào)變壓器的知識(shí), 當(dāng)該變壓器再次發(fā)生故障時(shí), 知識(shí)圖譜輔助處理人員會(huì)迅速明晰變壓器運(yùn)行工況、 歷史故障等關(guān)鍵信息, 查明故障原因.
圖7 某變壓器運(yùn)維知識(shí)圖譜的部分信息Fig.7 Part of information of a transformer operation and maintenance knowledge graph
綜上所述, 本文以電力變壓器運(yùn)維文本為對(duì)象, 構(gòu)建了電力變壓器運(yùn)維知識(shí)圖譜. 首先, 搭建了電力變壓器運(yùn)維知識(shí)圖譜框架, 完整構(gòu)建了變壓器運(yùn)維知識(shí)圖譜; 其次, 為解決變壓器運(yùn)維文本中實(shí)體界限模糊、 語(yǔ)義信息理解不充分的問(wèn)題, 提出了一種基于擴(kuò)展Span表示的知識(shí)抽取方法, 并使用特征匹配和深度模型相融合的方法抽取了實(shí)體和關(guān)系; 最后將知識(shí)抽取結(jié)果存儲(chǔ)到Neo4j圖數(shù)據(jù)庫(kù), 并進(jìn)行了展示. 實(shí)驗(yàn)結(jié)果表明, 本文知識(shí)抽取方法準(zhǔn)確率較高.
吉林大學(xué)學(xué)報(bào)(理學(xué)版)2023年5期