王慧芳 曹靖等
隨著智能電網(wǎng)建設(shè)的全面展開,以及電力信息通信與電網(wǎng)企業(yè)經(jīng)營管理的深度融合,電力數(shù)據(jù)出現(xiàn)爆發(fā)性增長。這些數(shù)據(jù)中隱藏著豐富的關(guān)系到電網(wǎng)安全穩(wěn)定經(jīng)濟運行的信息,因而成為電網(wǎng)企業(yè)寶貴的數(shù)據(jù)資產(chǎn)。
電力數(shù)據(jù)挖掘是智能電網(wǎng)的前提
電力大數(shù)據(jù)雖已成為當前熱點研究對象,然而每年只有少量的數(shù)據(jù)被挖掘利用,因此電力數(shù)據(jù)挖掘是智能電網(wǎng)發(fā)展迫切需要研究的前沿領(lǐng)域。電網(wǎng)企業(yè)是資產(chǎn)密集型企業(yè),電力設(shè)備健康狀態(tài)管理是其核心任務(wù),利用大數(shù)據(jù)進行科學(xué)管理是必然趨勢。
然而業(yè)界普遍認為,電網(wǎng)數(shù)據(jù)存在體量大、類型多、價值密度低和變化快的特點,較難利用。其中,數(shù)據(jù)價值密度低,是指絕大部分數(shù)據(jù)是電網(wǎng)正常數(shù)據(jù),只有極少量的異常數(shù)據(jù)。數(shù)據(jù)的嚴重偏斜影響基于機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能方法的挖掘效果。幸運的是,電力數(shù)據(jù)類型眾多,其中文本數(shù)據(jù),因“重要的事情常常被記錄”而具有價值密度高的特點,挖掘前景好,因此電力文本挖掘是電力設(shè)備健康管理重點關(guān)注的關(guān)鍵技術(shù)之一。
當前自然語言處理、人工智能等技術(shù)的快速發(fā)展,為電力文本挖掘提供了良好的技術(shù)基礎(chǔ);同時電網(wǎng)企業(yè)已積累了大量與電力設(shè)備健康相關(guān)的文本,如缺陷、消缺等短文本,以及試驗、故障分析報告等長文本,具備了文本挖掘的數(shù)據(jù)條件。
此外,電網(wǎng)企業(yè)已建立了諸多與設(shè)備健康相關(guān)的標準,如分別針對輸變電設(shè)備和配電網(wǎng)設(shè)備的缺陷分類標準、設(shè)備狀態(tài)評價導(dǎo)則、狀態(tài)檢修試驗規(guī)程等,為文本挖掘的應(yīng)用提供了參照與規(guī)則支持。因而,電力文本挖掘的條件已具備,且發(fā)展前景廣闊。
然而,由于現(xiàn)階段知識和技術(shù)層面上的匱乏,文本挖掘技術(shù)在國內(nèi)電力行業(yè)還屬于新興的前沿領(lǐng)域,大部分研究還處于探究試驗階段,應(yīng)用效益尚未顯現(xiàn)。與互聯(lián)網(wǎng)、醫(yī)學(xué)等行業(yè)取得的成就相比,電力行業(yè)的文本挖掘研究還有待加強。
為此,基于電力文本挖掘領(lǐng)域已做的前期探索,本文歸納了電力文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)和典型應(yīng)用,分析了這一領(lǐng)域面臨的挑戰(zhàn)。首先介紹文本挖掘技術(shù)的發(fā)展歷程,指出文本挖掘技術(shù)的難點;接著重點分析電力文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及研究現(xiàn)狀;然后介紹文本挖掘技術(shù)在電力缺陷文本中的典型應(yīng)用;最后,提出電力文本挖掘面臨的挑戰(zhàn)。
電力文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)
文本挖掘技術(shù)發(fā)展過程
文本挖掘的概念最早出現(xiàn)在20世紀80年代中期,它集成了自然語言處理和數(shù)據(jù)挖掘的部分技術(shù)與理念,至今已有30多年的歷史。早期,文本挖掘的科學(xué)性一度受到質(zhì)疑和詬病,但隨著文本挖掘技術(shù)的進步和發(fā)展,其應(yīng)用逐漸得到認可,并成為研究熱點。
狹義上,文本挖掘是指從大量文本數(shù)據(jù)中提取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息、解決問題;廣義上,文本挖掘既包括文本知識抽取,也包括面向各種應(yīng)用的文本數(shù)據(jù)處理過程。
目前,理論研究方面,文本挖掘的主要研究方向有文本結(jié)構(gòu)分析、文本語義分析、文本摘要、文本關(guān)聯(lián)分析等;應(yīng)用研究方面,在社科情報和生物醫(yī)學(xué)領(lǐng)域的研究成果較多。在社科情報領(lǐng)域,文本挖掘被用于微博熱點話題監(jiān)測、情感分析、用戶評論語義分析、垃圾郵件分類等。在生物醫(yī)學(xué)領(lǐng)域,有基于文本挖掘提取領(lǐng)域知識、通過挖掘事件記錄發(fā)現(xiàn)突發(fā)事件與醫(yī)學(xué)救援裝備之間的關(guān)聯(lián)等研究。
文本挖掘技術(shù)難點
文本數(shù)據(jù)屬于自然語言,其挖掘涉及語言學(xué)、數(shù)學(xué)、計算機科學(xué)、信息學(xué)、心理科學(xué)、認知科學(xué)以及應(yīng)用領(lǐng)域等眾多學(xué)科。
從技術(shù)角度看,文本挖掘存在數(shù)據(jù)和方法兩方面困難。數(shù)據(jù)方面,文本屬于非結(jié)構(gòu)化數(shù)據(jù),無確定形式并且缺乏機器可理解的語義,需要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)才能被進一步挖掘;同時,文本屬于自然語言范疇,容易出現(xiàn)模糊性和歧義性,準確理解和使用難度大;此外,文本采用的語言不同,挖掘技術(shù)就難以簡單地移植。方法方面,雖然現(xiàn)有的文本挖掘方法已能解決一部分問題,但依然存在效果欠佳問題,例如搜索引擎還無法根據(jù)輸入文本返回精準答案;還有很多文本挖掘問題尚無有效解決方法。
從應(yīng)用角度看,通用的文本挖掘方法運用于專業(yè)領(lǐng)域時,常會出現(xiàn)各種各樣的問題,因此專業(yè)領(lǐng)域的文本挖掘需考慮通用挖掘方法的適應(yīng)性。此外,只有引入應(yīng)用領(lǐng)域的專業(yè)知識,文本挖掘才更具有針對性與準確性,因此需要結(jié)合應(yīng)用領(lǐng)域的專業(yè)特點去探索解決文本挖掘問題的方法。 電力文本數(shù)據(jù)
挖掘關(guān)鍵技術(shù)
電力文本預(yù)處理技術(shù)
非結(jié)構(gòu)化的電力文本數(shù)據(jù)需要先進行文本預(yù)處理以及文本表示,才能轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進行挖掘。文本預(yù)處理通常包括文本分詞、詞性標注與去停用詞等。電力文本預(yù)處理還需要構(gòu)建電力領(lǐng)域本體字典。
電力本體字典的構(gòu)建是指將電力詞匯分別按照同義、近義、反義、上下位、整體-部分等本體關(guān)系進行組織,并存儲在數(shù)據(jù)庫中以供查詢、調(diào)用。構(gòu)建電力本體字典前,首先要構(gòu)建電力文本語料庫,如選擇各類電力設(shè)備的缺陷、消缺、檢修、試驗等記錄或報告,也可以選擇企業(yè)頒布的與電力設(shè)備相關(guān)的導(dǎo)則、標準,還有電力企業(yè)的各種工單、工作票、操作票等;然后結(jié)合已有的外部通用字典,采用基于統(tǒng)計的分詞模型,如采用基于隱馬爾科夫模型、條件隨機場模型等,對語料庫進行分詞,并基于詞頻對分詞結(jié)果進行排序;最后依靠具有電力領(lǐng)域?qū)I(yè)知識的人員對專業(yè)術(shù)語、通俗用語、名詞堆砌的詞串和短語詞匯等進行修正,并按照同義詞集、整體-部分關(guān)系、實體-屬性關(guān)系等構(gòu)建本體字典。需說明的是,本體字典的構(gòu)建不會是一次完成,而是隨著新語料庫的增加,會有補充或修訂。電力本體字典的構(gòu)建是必須的基礎(chǔ)工作,其質(zhì)量關(guān)系著后續(xù)電力文本挖掘的科學(xué)性。文本分詞技術(shù)可分為3類:基于本體字典的分詞技術(shù)、基于統(tǒng)計規(guī)律的無字典分詞技術(shù)以及二者的結(jié)合。本體字典的建立可以大大提高分詞的準確性與停用詞的識別效果。基于統(tǒng)計規(guī)律的無字典分詞技術(shù)雖可以減輕建立字典的負擔,但準確性難以保證,分詞后需進行詞性標注。詞性既可以是名詞、動詞等,也可以根據(jù)挖掘需求自行定義,例如文獻中的大部件、小部件、屬性、程度,以及文獻中的實體、缺陷現(xiàn)象、定性缺陷程度、定量缺陷程度等。詞性標注的本質(zhì)是分類問題。將電力文本切分為一個個詞匯后,除了有用的電力詞匯,還會出現(xiàn)人名、地名、符號等停用詞,可根據(jù)實際挖掘需求去除待處理文本中的停用詞。
電力文本表示方法
文本表示方法是指將文本數(shù)據(jù)表示成計算機可處理的形式,表示方式將直接影響后續(xù)數(shù)據(jù)挖掘的效率和效果。表示方法有很多,如向量空間模型、嵌入式向量模型等向量化表示方法,以及語義框架模型、樹/圖結(jié)構(gòu)模型、正則表達法等等。向量空間模型用于快速提取句子的整體含義,而對句子中詞匯順序不是很關(guān)注;而嵌入式向量模型用于需要突出某一個或幾個詞匯含義或順序的文本。常見的向量化方法有詞袋方法與Word2Vec方法。詞袋方法基于向量空間模型,簡單通俗,但向量維度高,而且詞向量忽略了句法;Word2Vec方法基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到,屬于嵌入式向量模型,詞向量維度低,而且由于訓(xùn)練時考慮了上下文,不同詞之間具有同義、近義、反義等語義信息,可通過計算向量相似度衡量。Doc2Vec是Word2Vec的拓展,用類似的方法將句子向量化,優(yōu)點在于可以提取句子主旨。