• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于知識圖譜的電力行業(yè)與外部數(shù)據(jù)融合研究

      2021-01-06 04:18:00劉錦隆宋立華王秋琳
      四川電力技術(shù) 2020年6期
      關(guān)鍵詞:結(jié)構(gòu)化語料圖譜

      劉錦隆,馬 進(jìn),鄒 雙,宋立華,王秋琳

      (1.國網(wǎng)四川省電力公司, 四川 成都 610041;2.四川凱普頓信息技術(shù)股份有限公司,四川 成都 610046;3.四川公眾項目咨詢管理有限公司,四川 成都 610041;4.福建億榕信息技術(shù)有限公司, 福建 福州 350001)

      0 引 言

      近年來,隨著數(shù)據(jù)中臺的建設(shè)及電力大數(shù)據(jù)技術(shù)的充分發(fā)展,電力行業(yè)逐步實(shí)現(xiàn)了行業(yè)數(shù)據(jù)的邏輯集中,對各類電力信息系統(tǒng)產(chǎn)生的海量數(shù)據(jù)的采集、存儲、加工、處理和全價值鏈的分析處理能力也得到逐步完善?;诖髷?shù)據(jù)的分析已在電力企業(yè)獲得廣泛應(yīng)用并將更加深入,為管理提升、優(yōu)化整合及服務(wù)轉(zhuǎn)型提供技術(shù)支撐[1]。

      然而,互聯(lián)網(wǎng)及政務(wù)大數(shù)據(jù)的高速發(fā)展同樣導(dǎo)致行業(yè)外部數(shù)據(jù)的爆發(fā)式增長,來自互聯(lián)網(wǎng)的公開數(shù)據(jù)資源逐漸成為電網(wǎng)企業(yè)經(jīng)營風(fēng)險監(jiān)測、電網(wǎng)運(yùn)行維護(hù)、供應(yīng)商優(yōu)選及各類決策分析中不可或缺的重要組成部分。有必要開展內(nèi)外部數(shù)據(jù)融合,將電力行業(yè)內(nèi)部數(shù)據(jù)與外部的互聯(lián)網(wǎng)公開數(shù)據(jù)及社會數(shù)據(jù)中的關(guān)鍵元數(shù)據(jù)及信息字段提取出來,融合形成統(tǒng)一的數(shù)據(jù)結(jié)構(gòu),開展數(shù)據(jù)分析及挖掘利用。

      要實(shí)現(xiàn)內(nèi)外部多源異構(gòu)數(shù)據(jù)的融合,首先要解決的是融合數(shù)據(jù)的統(tǒng)一表示。學(xué)術(shù)界先后提供網(wǎng)絡(luò)本體語言(web ontology language,OWL)、資源描述框架(resource description framework,RDF)等數(shù)據(jù)表示方案。2012年,谷歌公司提出知識圖譜技術(shù),由于其兼具嚴(yán)謹(jǐn)且務(wù)實(shí)的數(shù)據(jù)表示能力以及包括圖數(shù)據(jù)庫、圖嵌入、圖挖掘等成熟的技術(shù)配套,逐步成為多源數(shù)據(jù)融合表示的主流方法,是當(dāng)前將多源數(shù)據(jù)融合在產(chǎn)業(yè)中落地的首選。

      下面提出一種基于知識圖譜實(shí)現(xiàn)企業(yè)內(nèi)外部數(shù)據(jù)融合利用的技術(shù)方法,依托文本信息提取等人工智能技術(shù)的應(yīng)用,將來自互聯(lián)網(wǎng)的、難以分析的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),而后進(jìn)一步利用知識圖譜技術(shù),實(shí)現(xiàn)內(nèi)外部數(shù)據(jù)的融合,為各電力應(yīng)用需求提供支撐?;谒黾夹g(shù)開展了電力營銷客服領(lǐng)域的應(yīng)用研發(fā)并在某電力公司進(jìn)行了部署使用,驗(yàn)證了該技術(shù)的可行性。

      1 相關(guān)技術(shù)現(xiàn)狀

      所提出的基于知識圖譜的電力行業(yè)與外部數(shù)據(jù)融合,主要涉及以下幾個方面的關(guān)鍵技術(shù)。

      1.1 文本信息提取技術(shù)

      文本信息提取,也稱為命名實(shí)體抽取,是指從文本中提取出特定的實(shí)體[2]。在實(shí)際項目中最常用的是專有命名實(shí)體提取。不同于通用命名實(shí)體,專有命名實(shí)體通常帶有更多的限定,比如從電力營銷退補(bǔ)工單中提取出“故障開始時間”,而不是所有的“時間”,所以不能采用通用命名實(shí)體的預(yù)訓(xùn)練模型。因此,專有命名實(shí)體通常也成為“關(guān)鍵信息抽取”,下面以“關(guān)鍵信息抽取”作為簡稱。

      文本中關(guān)鍵信息的抽取,比較主流的有以下兩類方案[3-4]:

      1)基于規(guī)則的關(guān)鍵信息提取

      2)基于序列標(biāo)注的方法

      主流算法是序列標(biāo)注算法中的條件隨機(jī)場(conditional random field,CRF)算法。根據(jù)特征提取方式的不同,又可以分為人工特征工程+CRF以及深度學(xué)習(xí)特征提取+CRF,后者最主流的技術(shù)路線是BI-LSTM(雙向循環(huán)長短文本記憶神經(jīng)網(wǎng)絡(luò))+CRF。具體過程如圖1所示。

      圖1 基于序列標(biāo)注技術(shù)的信息抽取過程

      基于“序列標(biāo)注”的方法具有適應(yīng)性強(qiáng)的優(yōu)點(diǎn),其不需要由專家編寫規(guī)則,所以對于沒有明顯模式(人工很難觀察到特定規(guī)則)的關(guān)鍵信息的抽取具有較強(qiáng)的抽取能力;其缺點(diǎn)是需要一定數(shù)量的、已經(jīng)標(biāo)注好的語料作為導(dǎo)入,這部分語料的標(biāo)注工作需要人工編寫。待抽取的關(guān)鍵信息越缺乏模式、要求抽的結(jié)果越精確,需要導(dǎo)入的語料就越多。另外,序列標(biāo)注算法的缺點(diǎn)是不夠穩(wěn)定,其執(zhí)行過程是“黑盒”(不像規(guī)則判斷能夠回溯),準(zhǔn)確率不由算法決定,而主要取決于用以訓(xùn)練的標(biāo)注語料是否和目標(biāo)測試語料比較一致,所以該方法構(gòu)建出的“抽取模型”常常難以判斷是否能夠滿足業(yè)務(wù)對于抽取準(zhǔn)確性的要求。

      綜上所述,現(xiàn)有兩種文本關(guān)鍵信息抽取的技術(shù)路線各有以下優(yōu)缺點(diǎn)和適用范圍:

      1)基于規(guī)則的方法抽取效果穩(wěn)定,且不需要實(shí)現(xiàn)進(jìn)行人工標(biāo)注,但是限定性太強(qiáng),匹配的范圍比較小,對于沒有固定模版的文本抽取不適用;

      2)序列標(biāo)注方法匹配范圍較大,但需要事先準(zhǔn)備較多的人工標(biāo)注語料,且抽取效果不穩(wěn)定,準(zhǔn)確性難以預(yù)估,對抽取準(zhǔn)確性有比較嚴(yán)格要求的場景不太適用。

      1.2 知識圖譜技術(shù)

      知識圖譜是一種由節(jié)點(diǎn)和邊組成的圖數(shù)據(jù)結(jié)構(gòu),本質(zhì)上是結(jié)構(gòu)化的語義知識庫。通過把專業(yè)業(yè)務(wù)領(lǐng)域中多源異構(gòu)信息連接在一起,得到實(shí)體關(guān)系網(wǎng)絡(luò),知識圖譜能夠提供從“關(guān)系”的角度去分析問題的強(qiáng)大能力。最初,知識圖譜的提出主要用于解決與實(shí)體相關(guān)的智能問答問題,目前已經(jīng)廣泛地應(yīng)用到信息檢索、數(shù)據(jù)挖掘領(lǐng)域。在電力行業(yè),基于知識圖譜之上的關(guān)系計算、圖挖掘等能力與異常分析、靜態(tài)分析、動態(tài)分析等數(shù)據(jù)挖掘方法相結(jié)合,可用于企業(yè)經(jīng)營風(fēng)險分析中的反欺詐、不一致性驗(yàn)證以及電網(wǎng)設(shè)備故障分析、災(zāi)害防御預(yù)警、主數(shù)據(jù)質(zhì)量優(yōu)化等領(lǐng)域。

      知識圖譜的構(gòu)建大致可以劃分為兩個主要步驟。首先,結(jié)合相關(guān)領(lǐng)域的業(yè)務(wù)知識,將業(yè)務(wù)領(lǐng)域的關(guān)鍵概念實(shí)體及其之間的關(guān)系,描述為知識圖譜本體;而后,利用實(shí)體抽取[5]、實(shí)體消歧及鏈接[6]、實(shí)體關(guān)系抽取[7]、知識推理[8]等技術(shù),從實(shí)際業(yè)務(wù)數(shù)據(jù)中抽取出實(shí)體、關(guān)系相關(guān)信息字段,進(jìn)行消歧融合,按照知識圖譜的本體進(jìn)行“填充”,獲得知識圖譜數(shù)據(jù)實(shí)例,進(jìn)行知識圖譜存儲。知識圖譜技術(shù)應(yīng)用的主要挑戰(zhàn)包括知識圖譜構(gòu)建過程自動化水平不高以及數(shù)據(jù)本身存在錯誤、冗余而導(dǎo)致的數(shù)據(jù)噪聲等問題。

      下面將應(yīng)用知識圖譜,開展電力行業(yè)數(shù)據(jù)與外部數(shù)據(jù)的知識融合,為相關(guān)業(yè)務(wù)的趨勢洞察及輔助決策分析等提供數(shù)據(jù)支撐。

      2 基于知識圖譜的數(shù)據(jù)融合

      所提出的電力行業(yè)數(shù)據(jù)與外部數(shù)據(jù)融合方案,主要依托兩個步驟。首先是將外部的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行關(guān)鍵信息提取,將難以分析的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);而后通過對相關(guān)領(lǐng)域業(yè)務(wù)實(shí)體關(guān)系的分析,設(shè)計知識圖譜結(jié)構(gòu),將外部數(shù)據(jù)與電力行業(yè)結(jié)構(gòu)化數(shù)據(jù)融合到知識圖譜中,為下一步各類高級應(yīng)用提供數(shù)據(jù)基礎(chǔ)。下面重點(diǎn)介紹其中的關(guān)鍵環(huán)節(jié)。

      2.1 文本預(yù)處理

      為了開展基于非結(jié)構(gòu)化文本的分析及知識圖譜構(gòu)建,需要對數(shù)據(jù)進(jìn)行一定的預(yù)處理步驟,包括:

      1)中文分詞。待分析中文文本通常是連續(xù)的文字序列,不能直接進(jìn)行分析,需要通過中文分詞,將其切分為有意義的詞。中文分詞技術(shù)在信息檢索等文本分析挖掘領(lǐng)域都有廣泛應(yīng)用。所提方法主要采用的是基于統(tǒng)計語言模型的序列標(biāo)注方法,其基本原理是:首先準(zhǔn)備標(biāo)注數(shù)據(jù),并基于人工標(biāo)注的詞性和統(tǒng)計特征,對待分詞的文本進(jìn)行建模與參數(shù)訓(xùn)練,該模型即可一定程度上描述詞元素相對于上下文的分布;而后,利用模型對待提取文本中分詞出現(xiàn)的概率進(jìn)行預(yù)測,將概率最大的詞作為分詞分析結(jié)果。這類序列標(biāo)注算法的代表是CRF算法。

      2)構(gòu)建詞向量模型。計算機(jī)不能直接處理文本、圖像、聲音等內(nèi)容,需要將其轉(zhuǎn)化為數(shù)字特征后才能處理,詞向量就是文本中的單詞轉(zhuǎn)后的計算機(jī)能夠處理的數(shù)字化特征。所采用的是詞嵌入(word embedding)技術(shù)。其基本過程是將文本嵌入到一個數(shù)學(xué)空間里,從而使得文本中語義相似的詞用相似的向量表示。采用的具體模型是word2vec。

      2.2 文本信息提取

      在第1.1節(jié)中,介紹了目前文本信息提取的主流技術(shù)路線。針對現(xiàn)有文本關(guān)鍵信息抽取的缺點(diǎn),提出一種創(chuàng)新的方法,能夠充分利用現(xiàn)有技術(shù)方法的優(yōu)點(diǎn),同時很大程度上規(guī)避其缺點(diǎn),因而具有廣泛適用性,其主要原理和步驟如下:

      最初的兩聯(lián)供是夏天用風(fēng)盤制冷,冬天用地面輻射采暖,它只能稱之為二合一系統(tǒng),并非真正意義上的兩聯(lián)供。而且為了使用方便,空氣源熱泵廠家一律在主機(jī)內(nèi)部裝配揚(yáng)程喏功率都很大的泵。因?yàn)楸玫倪x型比較大,所以無需考慮一些水力平衡的問題,無論制熱制冷主機(jī)都能把水帶到最不利環(huán)路。 所以,有了最開始的兩聯(lián)供(見圖1)。

      1)利用“規(guī)則抽取”準(zhǔn)確性高、匹配范圍小的特點(diǎn),編寫少量的規(guī)則,實(shí)現(xiàn)從大量的語料中匹配出少量但準(zhǔn)確的抽取對象,并作為后續(xù)過程的導(dǎo)入。

      2)將步驟1中獲得的抽取結(jié)果,切割出一定比例(如80%),作為導(dǎo)入到“自動序列標(biāo)注”方法的訓(xùn)練語料,替代“人工標(biāo)注”過程。

      3)利用步驟2得到的訓(xùn)練語料,結(jié)合開源的“自動序列標(biāo)注”類算法,構(gòu)建“抽取模型”。

      4)利用步驟3的結(jié)果,對步驟2切割出的、剩余的語料(如20%)進(jìn)行自動化抽取,并對抽取結(jié)果進(jìn)行自動判斷;如果模型自動判斷的準(zhǔn)確性尚未達(dá)到業(yè)務(wù)要求,則前往步驟1,編寫更多的正則表達(dá)式,形成更多的“標(biāo)注語料”,作為模型訓(xùn)練導(dǎo)入;如果模型自動判斷的準(zhǔn)確性已經(jīng)達(dá)到業(yè)務(wù)要求,則停止該過程,并將該模型作為文本抽取最終模型部署應(yīng)用。

      完整過程如圖2所示。

      圖2 文本信息提取技術(shù)過程

      相對于現(xiàn)有技術(shù)方案,所提方案在文本關(guān)鍵信息抽取問題上取得以下提升:用基于少量規(guī)則的“規(guī)則判斷”替代“人工標(biāo)注”獲得初始標(biāo)準(zhǔn)語料,大大降低了初期人工投入;對“序列標(biāo)注”模型的抽取結(jié)果進(jìn)行自動化回測,確保模型的準(zhǔn)確性符合業(yè)務(wù)需求;整個過程是可增量迭代的。如果“序列標(biāo)注”訓(xùn)練得到的模型的抽取效果不理想,僅需要增加編寫少量的規(guī)則(正則表達(dá)式),執(zhí)行同樣的過程循環(huán),即可有效提升模型抽取效果,前期編寫的規(guī)則不會被廢棄。

      2.3 知識圖譜構(gòu)建

      完成文本信息提取后,將外部的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的關(guān)鍵字段信息;而后,結(jié)合相關(guān)業(yè)務(wù)知識,即可開展知識圖譜本體結(jié)構(gòu)的設(shè)計。采用文獻(xiàn)[9]所述的知識圖譜表示方法對知識圖譜進(jìn)行建模。首先,根據(jù)業(yè)務(wù)域知識,參照電力公共數(shù)據(jù)模型(common information model,CIM),設(shè)計知識圖譜的結(jié)構(gòu),并完成圖數(shù)據(jù)庫中對應(yīng)圖結(jié)構(gòu)的創(chuàng)建;而后,將文本信息提取的結(jié)果按照圖譜結(jié)構(gòu)組織,調(diào)用圖數(shù)據(jù)庫接口導(dǎo)入實(shí)體關(guān)系數(shù)據(jù),即可將電力行業(yè)結(jié)構(gòu)化數(shù)據(jù)及外部非結(jié)構(gòu)化文本的關(guān)鍵字段整合到知識圖譜中。

      如圖3所示,Neo4J為知識圖譜的創(chuàng)建、應(yīng)用提供了全過程支撐。在數(shù)據(jù)入庫階段,可采用批量導(dǎo)入的方式將抽取好的命名實(shí)體與實(shí)體關(guān)系導(dǎo)入至圖形數(shù)據(jù)庫中;在知識探索階段,采用Cypher語言查詢所有節(jié)點(diǎn)及關(guān)系即能獲取整個知識圖譜的全貌,也可搜索所需的節(jié)點(diǎn)及關(guān)系信息,可以為使用者提供個性化的知識服務(wù);在應(yīng)用集成階段,采用編程的方式可以調(diào)用Neo4J的RREST API接口進(jìn)一步開發(fā)知識圖譜界面。

      圖3 基于Neo4J的知識圖譜存儲及利用

      2.4 基于知識圖譜的內(nèi)外部數(shù)據(jù)融合分析

      通過上述步驟構(gòu)建的知識圖譜,能較好地實(shí)現(xiàn)內(nèi)外部數(shù)據(jù)的融合,并為數(shù)據(jù)分析提供豐富的關(guān)系查詢、計算手段。在實(shí)際應(yīng)用中,可基于知識圖譜這一良好的數(shù)據(jù)結(jié)構(gòu),結(jié)合業(yè)務(wù)需求與規(guī)則,開展更為豐富的多維風(fēng)險防控及輔助決策。主要包括以下兩種方法。

      1)基于圖規(guī)則。當(dāng)前,知識圖譜主要以圖數(shù)據(jù)庫為載體。以所選用的Neo4J為例,其提供的Cypher查詢語言支持豐富的實(shí)體、屬性及關(guān)系計算查詢能力,可以高效地執(zhí)行多維條件關(guān)系查詢,篩選出符合特定關(guān)系條件的實(shí)體關(guān)系集合。在執(zhí)行風(fēng)險分析、輔助決策時,可以將相關(guān)的業(yè)務(wù)規(guī)則轉(zhuǎn)換為圖規(guī)則Cypher語句進(jìn)行查詢?;趫D規(guī)則的知識圖譜挖掘也是目前工業(yè)界使用的主流方案。

      2)基于圖神經(jīng)網(wǎng)絡(luò)。圖神經(jīng)網(wǎng)絡(luò)的關(guān)鍵思想是將知識圖譜的實(shí)體和關(guān)系轉(zhuǎn)化為連續(xù)的向量空間,從而能夠與深度學(xué)習(xí)算法結(jié)合,基于項目風(fēng)險等樣本的知識圖譜表示進(jìn)行建模,基于圖結(jié)構(gòu)的相似性識別出潛在的同類風(fēng)險。圖神經(jīng)網(wǎng)絡(luò)目前是知識圖譜挖掘應(yīng)用的研究熱點(diǎn),有很大的應(yīng)用潛力,但由于相關(guān)的理論、算法還在持續(xù)發(fā)展完善過程中,目前還未在工業(yè)界得到廣泛應(yīng)用。

      3 應(yīng)用實(shí)例

      所提出的技術(shù)方案在電網(wǎng)工程項目管理風(fēng)險預(yù)警領(lǐng)域進(jìn)行了實(shí)踐,基于電網(wǎng)工程項目管理過程中涉及的電力行業(yè)及外部異構(gòu)數(shù)據(jù)構(gòu)建風(fēng)險知識圖譜,開展基于知識圖譜的項目管理風(fēng)險預(yù)測。

      1)數(shù)據(jù)梳理與采集

      包括電力行業(yè)數(shù)據(jù)和外部數(shù)據(jù)兩個部分。其中,電力行業(yè)數(shù)據(jù)主要包括項目合同主數(shù)據(jù)、項目執(zhí)行過程數(shù)據(jù)、供應(yīng)商評價數(shù)據(jù)等;外部數(shù)據(jù)包括招標(biāo)公告、中標(biāo)公告、企業(yè)工商數(shù)據(jù)、企業(yè)失信數(shù)據(jù)等。

      2)信息提取及知識圖譜構(gòu)建

      利用第2章提出的文本清洗及關(guān)鍵信息提取方法,將內(nèi)外部數(shù)據(jù)中關(guān)鍵的實(shí)體字段提取出來,并匯集到對應(yīng)的業(yè)務(wù)實(shí)體及其關(guān)系,主要數(shù)據(jù)結(jié)構(gòu)如圖4所示。

      圖4 電網(wǎng)工程管理風(fēng)險知識圖譜實(shí)體關(guān)系結(jié)構(gòu)

      編制腳本,將提取出的實(shí)體、屬性及關(guān)系信息按照圖數(shù)據(jù)庫Neo4J的結(jié)構(gòu)導(dǎo)入到知識圖譜中,形成的最終知識圖譜。

      圖5展示了所構(gòu)建的知識圖譜的局部內(nèi)容,通過執(zhí)行圖查詢“MATCH P==()-->()RETURN p LIMIT 25”獲得,所以限定展示最多25個節(jié)點(diǎn)。圖5中展示了公司、法律訴訟、項目、合同、招標(biāo)公告、中標(biāo)公告、供應(yīng)商不良行為、供應(yīng)商績效等節(jié)點(diǎn)以及節(jié)點(diǎn)之間的10類關(guān)系。項目過程環(huán)節(jié)的主要信息,如采購、招標(biāo)、中標(biāo)、執(zhí)行等主要環(huán)節(jié)的實(shí)體、屬性及關(guān)系都在風(fēng)險知識圖譜中進(jìn)行了清晰的展示。

      圖5 工程項目過程管理領(lǐng)域風(fēng)險知識圖譜

      基于知識圖譜中完整、規(guī)范的數(shù)據(jù),結(jié)合圖查詢、圖計算等技術(shù),即可進(jìn)行如下探查和分析:

      1)關(guān)聯(lián)交易合規(guī)性風(fēng)險分析。從工商數(shù)據(jù)中獲取電力公司與相關(guān)供應(yīng)商的股權(quán)關(guān)系,維護(hù)到知識圖譜中,形成“公司-公司股權(quán)關(guān)系”,與“公司-項目中標(biāo)關(guān)系”“公司-項目采購關(guān)系”結(jié)合,通過圖規(guī)則查詢,即可篩查出同一甲方單位采購的項目中,被具有股權(quán)關(guān)系的乙方單位中標(biāo)的個數(shù)、金額與比例,與設(shè)定的閾值比較,即可識別出關(guān)聯(lián)交易的規(guī)模,識別是否存在關(guān)聯(lián)交易風(fēng)險。

      2)項目執(zhí)行過程管控風(fēng)險。從項目執(zhí)行過程中產(chǎn)生的不同電子文件中抽取項目關(guān)鍵屬性(包括項目編號、項目名稱、項目合同簽訂時間、項目開工時間、項目約定工期、項目實(shí)際完成時間等),整合到知識圖譜。通過圖規(guī)則查詢,即可篩查出哪些項目簽訂時間晚于開工時間,即“倒簽核查”風(fēng)險;還有項目已開展的時間大于合同約定工期,即 “工程延期”風(fēng)險。還可以進(jìn)一步將風(fēng)險項目所對應(yīng)的征信數(shù)據(jù)進(jìn)行對比,如果在存在上述風(fēng)險的同時,供應(yīng)商在征信方面也存在已知風(fēng)險,則相應(yīng)增加其風(fēng)險等級。此場景體現(xiàn)了知識圖譜對多源數(shù)據(jù)融合的價值。

      3)項目單位履約及承載力不足風(fēng)險分析。提取歷史中標(biāo)公告、合同數(shù)據(jù)中的關(guān)鍵屬性,如甲方、乙方、項目開始時間、項目工期、項目金額等,整合到知識圖譜中,即可通過圖規(guī)則匯總項目單位在一段時間內(nèi)承擔(dān)的項目個數(shù)、金額,將當(dāng)前數(shù)據(jù)與歷史同期數(shù)據(jù)比較,即可篩查出相對于歷史同期承擔(dān)的項目個數(shù)、金額超過一定閾值的情況,識別可能存在的“乙方承載力不足“風(fēng)險,進(jìn)行提前預(yù)警。

      4 結(jié) 語

      行業(yè)數(shù)據(jù)與外部數(shù)據(jù)的融合分析,是大數(shù)據(jù)技術(shù)向縱深領(lǐng)域發(fā)展的主要趨勢之一。以電力行業(yè)現(xiàn)實(shí)需求為背景,針對外部非結(jié)構(gòu)化數(shù)據(jù)與行業(yè)內(nèi)部數(shù)據(jù)融合分析問題,提供基于自然語言處理的非結(jié)構(gòu)化文本關(guān)系信息提取方法以及融合知識圖譜的構(gòu)建方法,實(shí)現(xiàn)支撐業(yè)務(wù)所需的多源異構(gòu)數(shù)據(jù)的融合,為上層高級業(yè)務(wù)應(yīng)用提供堅實(shí)的知識數(shù)據(jù)基礎(chǔ)。在某省電力公司開展的工程項目過程管理領(lǐng)域風(fēng)險識別試點(diǎn)應(yīng)用,能夠較好地將內(nèi)外部異構(gòu)數(shù)據(jù)整合到知識圖譜,利用圖規(guī)則挖掘,實(shí)現(xiàn)典型風(fēng)險的驗(yàn)證,驗(yàn)證了所提方案的有效性和可行性。

      前面只重點(diǎn)闡述了基于行業(yè)數(shù)據(jù)與外部數(shù)據(jù)構(gòu)建融合知識圖譜的過程,對圖神經(jīng)網(wǎng)絡(luò)、圖嵌入等基于圖的挖掘分析未開展深入討論,這也是后續(xù)進(jìn)一步研究的方向。

      猜你喜歡
      結(jié)構(gòu)化語料圖譜
      促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      繪一張成長圖譜
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      主動對接你思維的知識圖譜
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      玉溪市| 柘荣县| 安徽省| 武鸣县| 金坛市| 若尔盖县| 桓台县| 页游| 襄汾县| 沧州市| 温宿县| 镇江市| 阜平县| 临江市| 城步| 东山县| 马尔康县| 津南区| 青阳县| 吴川市| 喀喇| 开封市| 图木舒克市| 凤翔县| 江津市| 三亚市| 齐河县| 泰安市| 诏安县| 甘南县| 深州市| 清水河县| 中超| 彰武县| 屏边| 青川县| 芜湖县| 五寨县| 资源县| 长武县| 连云港市|