汪 玉,王 鑫,張淑娟,鄭國(guó)強(qiáng),趙 龍,鄭高峰
1.國(guó)網(wǎng)安徽省電力有限公司 電力科學(xué)研究院,合肥 230601
2.國(guó)網(wǎng)安徽省電力有限公司,合肥 230022
Web 3.0與大數(shù)據(jù)時(shí)代的到來(lái)證實(shí)了多種前期技術(shù)理論的實(shí)踐與應(yīng)用可行性,谷歌公司在2012年提出的“知識(shí)圖譜”就是其代表性實(shí)例之一[1]。大數(shù)據(jù)環(huán)境中,知識(shí)圖譜通過(guò)結(jié)合不同個(gè)體的關(guān)系、屬性可視化模型與語(yǔ)義網(wǎng)技術(shù),可使復(fù)雜的異構(gòu)應(yīng)用實(shí)現(xiàn)便捷、高效的人機(jī)信息交互。作為多種現(xiàn)代技術(shù)的結(jié)合,知識(shí)圖譜的核心技術(shù)包含智能語(yǔ)義[2]、知識(shí)提取[3]、知識(shí)關(guān)聯(lián)[4]、知識(shí)融合[5]、知識(shí)加工[6]等。其中,知識(shí)融合通過(guò)利用知識(shí)推理[7]、實(shí)體/本體匹配[8]等技術(shù)途徑,從不同數(shù)據(jù)源、不同數(shù)據(jù)結(jié)構(gòu)的大數(shù)據(jù)環(huán)境中提取、關(guān)聯(lián)、合并同義或近義知識(shí),從而實(shí)現(xiàn)異構(gòu)知識(shí)圖譜的信息交互及協(xié)作應(yīng)用。
知識(shí)融合是知識(shí)圖譜的關(guān)鍵環(huán)節(jié),也是支撐知識(shí)圖譜可用性的重要要素,其核心為實(shí)體的消歧[9]與對(duì)齊[10]。實(shí)體的消歧指大量數(shù)據(jù)中同義實(shí)體的抽取及分類,一般用于海量異構(gòu)數(shù)據(jù)的知識(shí)提取及知識(shí)分類;實(shí)體的對(duì)齊指同義、近義的實(shí)體或?qū)傩蚤g相互關(guān)系的分析,一般用于復(fù)雜異構(gòu)實(shí)體的知識(shí)映射。實(shí)現(xiàn)實(shí)體的消歧與對(duì)齊通常采用基于機(jī)器學(xué)習(xí)技術(shù)的自然語(yǔ)言處理,從大量的半結(jié)構(gòu)化數(shù)據(jù)中分析、提取近義實(shí)體,對(duì)齊、映射相關(guān)屬性。機(jī)器學(xué)習(xí)算法主要分為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法。監(jiān)督學(xué)習(xí)算法(如貝葉斯估計(jì)、支持向量機(jī)等)使用歷史數(shù)據(jù)樣本訓(xùn)練數(shù)據(jù)分析模型,通過(guò)數(shù)據(jù)預(yù)測(cè)、數(shù)據(jù)聚類等途徑進(jìn)行實(shí)體對(duì)齊及屬性融合,具有較高的實(shí)時(shí)性,但較依賴于歷史數(shù)據(jù)樣本;無(wú)監(jiān)督學(xué)習(xí)算法(如主成分分析、人工神經(jīng)網(wǎng)絡(luò)等)無(wú)需樣本訓(xùn)練成本,但一般復(fù)雜度較高,尤其在多維、異構(gòu)的大數(shù)據(jù)環(huán)境中較難滿足知識(shí)融合的實(shí)時(shí)性。
據(jù)此,本文面向多維、異構(gòu)的復(fù)雜大數(shù)據(jù)環(huán)境,提出一種結(jié)合監(jiān)督學(xué)習(xí)、概念漂移檢測(cè)以及無(wú)監(jiān)督反向驗(yàn)證的高可靠、低復(fù)雜度知識(shí)融合方法。一方面,在監(jiān)督學(xué)習(xí)過(guò)程中,該方法采用貝葉斯估計(jì)算法訓(xùn)練歷史數(shù)據(jù)模型,預(yù)測(cè)待對(duì)齊實(shí)體,并周期性利用孤立深林算法檢測(cè)、修正概念漂移數(shù)據(jù)樣本,提高歷史數(shù)據(jù)模型的可靠性;另一方面,在反向驗(yàn)證過(guò)程中,該方法采用一種低復(fù)雜度自組織映射(self-organizing map,SOM)神經(jīng)網(wǎng)絡(luò)算法,分析實(shí)體歧義并根據(jù)評(píng)估結(jié)果實(shí)時(shí)調(diào)整監(jiān)督學(xué)習(xí)的權(quán)重系數(shù),進(jìn)一步提煉數(shù)據(jù)模型,加強(qiáng)知識(shí)融合的準(zhǔn)確性。
本文提出方法在公開數(shù)據(jù)集及國(guó)網(wǎng)安徽省配電網(wǎng)知識(shí)圖譜系統(tǒng)中進(jìn)行了多項(xiàng)對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,提出方法在歷史模型訓(xùn)練、知識(shí)融合效率、算法復(fù)雜度等方面均優(yōu)于常規(guī)機(jī)器學(xué)習(xí)算法。
隨著知識(shí)圖譜在各行各業(yè)的迅速普及,跨業(yè)、跨界數(shù)據(jù)的知識(shí)融合技術(shù)已然引起了學(xué)術(shù)界的廣泛關(guān)注。國(guó)內(nèi)方面,劉嶠等[11]詳細(xì)解釋了知識(shí)融合的概念、意義及知識(shí)融合在知識(shí)圖譜應(yīng)用中的重要性;于夢(mèng)月等[12]分析了現(xiàn)代知識(shí)融合的支撐理論架構(gòu),在知識(shí)融合的各階段列舉了多種知識(shí)融合理論模型;高國(guó)偉等[13]具體分析了先網(wǎng)絡(luò)環(huán)境的碎片化知識(shí)特征,提出了一種結(jié)合非線性融合模型的知識(shí)超網(wǎng)絡(luò)的融合框架;侯位昭等[14]針對(duì)解決推薦服務(wù)的信息爆炸問(wèn)題,通過(guò)在推薦服務(wù)提出了一種基于貝葉斯網(wǎng)絡(luò)模型的知識(shí)圖譜融合技術(shù);程秀峰等[15]面向用戶行為數(shù)據(jù)的采集與共享應(yīng)用,在科研數(shù)據(jù)管理系統(tǒng)中通過(guò)知識(shí)融合技術(shù)分析了科研工作者的行為數(shù)據(jù)共享機(jī)制,并通過(guò)開發(fā)、應(yīng)用移動(dòng)行為數(shù)據(jù)采集APP開展了實(shí)證研究。異構(gòu)數(shù)據(jù)的知識(shí)融合是現(xiàn)代知識(shí)圖譜技術(shù)的關(guān)鍵應(yīng)用,常用于多語(yǔ)言知識(shí)鏈接、融合等,余圓圓等[16]面向跨語(yǔ)言百科文章之間的知識(shí)融合應(yīng)用,提出了一種結(jié)合雙語(yǔ)主題模型及雙語(yǔ)詞向量的候選集排序模型,實(shí)現(xiàn)了中英文維基百科間的知識(shí)鏈接;余傳明等[17]提出了一種基于機(jī)器學(xué)習(xí),融合雙語(yǔ)詞嵌入的主題對(duì)齊模型,通過(guò)提出雙語(yǔ)主題相似度、雙語(yǔ)對(duì)齊相似度等新對(duì)齊指標(biāo),改進(jìn)了傳統(tǒng)雙語(yǔ)主題模型的語(yǔ)義共享;趙生輝[18]針對(duì)建模藏漢雙語(yǔ)融合型知識(shí)圖譜,通過(guò)從邏輯框架、知識(shí)模板和數(shù)據(jù)實(shí)例等三個(gè)層面解析建模原理,實(shí)現(xiàn)了多語(yǔ)言知識(shí)圖譜的創(chuàng)建及跨語(yǔ)言知識(shí)檢索。
國(guó)際方面,Ruta等[19]針對(duì)車載自組織網(wǎng)絡(luò)的上下文信息共享問(wèn)題,提出了一種基于非標(biāo)準(zhǔn)、非單調(diào)推理服務(wù)的知識(shí)融合算法,實(shí)現(xiàn)了車載網(wǎng)絡(luò)節(jié)點(diǎn)不一致上下文注釋的自動(dòng)協(xié)調(diào)及合并;Huang等[20]針對(duì)多源區(qū)間值(Interval-Valued)數(shù)據(jù)的動(dòng)態(tài)融合,提出了一種將多源區(qū)間值數(shù)據(jù)轉(zhuǎn)換為梯形模糊顆粒的模糊信息融合方法及增量分析算法;Sultana等[21]面向基于社交行為提示的生物識(shí)別應(yīng)用,通過(guò)融合個(gè)人知識(shí)、社交行為知識(shí)和獨(dú)有生物特征,增強(qiáng)了傳統(tǒng)生物識(shí)別系統(tǒng)的性能;Liu等[22]分析了基于知識(shí)圖譜的專家系統(tǒng)、搜索引擎及知識(shí)問(wèn)答系統(tǒng)在害蟲及作物病害的應(yīng)用,介紹了知識(shí)圖譜的知識(shí)融合技術(shù)在智慧農(nóng)業(yè)的應(yīng)用現(xiàn)狀;Han等[23]針對(duì)電力設(shè)備電源質(zhì)量問(wèn)題的多樣性及復(fù)雜性問(wèn)題,提出了一種基于知識(shí)-數(shù)據(jù)融合的神經(jīng)網(wǎng)絡(luò)模型,在常規(guī)信息、質(zhì)量信息、過(guò)程信息等異構(gòu)數(shù)據(jù)中有效提高了電源質(zhì)量問(wèn)題的分析效率;Li等[24]面向異構(gòu)知識(shí)圖譜的融合應(yīng)用,提出了一種基于圖結(jié)構(gòu)數(shù)據(jù)、圖神經(jīng)網(wǎng)絡(luò),用于融合知識(shí)圖譜實(shí)體子圖結(jié)構(gòu)的知識(shí)融合機(jī)制,實(shí)現(xiàn)了知識(shí)圖譜中實(shí)體的融合嵌入。
本文提出的算法針對(duì)大數(shù)據(jù)環(huán)境中異構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)融合,因而采用了基于實(shí)體對(duì)齊的本體映射方法。本體(Ontology)在信息學(xué)科中,是一種對(duì)于數(shù)據(jù)的抽象概念模型,是人類與智能設(shè)備間存在的概念模式以及互交模式的形式化描述[25]。本體的建模以及匹配是大數(shù)據(jù)環(huán)境中實(shí)現(xiàn)知識(shí)共享、知識(shí)重用的關(guān)鍵要素。
本文采用了較為通用的本體模型,由實(shí)體、關(guān)系、屬性三元組組成,如式(1)定義:
其中,O為本體,E為實(shí)體(Entity),R為關(guān)系(Relation),A為屬性(Attribute)。實(shí)體、關(guān)系為結(jié)構(gòu)化數(shù)據(jù)。其中,實(shí)體是本體的固有識(shí)別名,可以是物體、狀態(tài)、現(xiàn)象等對(duì)象的名稱,相同實(shí)體在異構(gòu)數(shù)據(jù)庫(kù)中可對(duì)應(yīng)不同本體;關(guān)系是本體中實(shí)體所對(duì)應(yīng)屬性的關(guān)聯(lián)規(guī)則的集合。實(shí)體、關(guān)系在同構(gòu)數(shù)據(jù)集中具有同等的定義,但在異構(gòu)數(shù)據(jù)集間存在潛在的歧義。屬性為非結(jié)構(gòu)化數(shù)據(jù),包含實(shí)體由關(guān)聯(lián)規(guī)則對(duì)應(yīng)的其他實(shí)體與對(duì)應(yīng)關(guān)系的集合,由式(2)描述:
總之,本體模型中各元組的相互關(guān)系如圖1所示。
圖1 本體模型關(guān)系圖示例Fig.1 Example of relationship diagram of ontology model
即本體中唯一的E通過(guò)R關(guān)聯(lián)A,而A為非結(jié)構(gòu)化自然文本數(shù)據(jù),可包含多項(xiàng)其他E′及R′的關(guān)聯(lián)。該模型為二維本體,可根據(jù)應(yīng)用需求及數(shù)據(jù)的信息量進(jìn)一步擴(kuò)展多維本體。
根據(jù)上述本體模型,分析本體的相關(guān)度,進(jìn)行基于貝葉斯估計(jì)法的實(shí)體對(duì)齊,通過(guò)映射相關(guān)屬性,實(shí)現(xiàn)知識(shí)融合。該過(guò)程的輸入為一個(gè)待融合本體;分析對(duì)象為目標(biāo)數(shù)據(jù)庫(kù)中具備相同或近義實(shí)體的本體,近義實(shí)體則通過(guò)常規(guī)的文本相似度分析法進(jìn)行判斷;輸出為目標(biāo)數(shù)據(jù)庫(kù)中相關(guān)度最高的本體集。目標(biāo)本體與待融合本體的相關(guān)度F(O)的計(jì)算方法有如式(3)所示:
其中,O為異構(gòu)數(shù)據(jù)庫(kù)中與待融合本體存在相同或近義實(shí)體的本體,取決于實(shí)體名稱的文本相似度;α為權(quán)重系數(shù),默認(rèn)值為0.5,根據(jù)反向驗(yàn)證結(jié)果持續(xù)更新,在后續(xù)章節(jié)詳細(xì)敘述;n為相同或近義實(shí)體的數(shù)量;C(O←A)為目標(biāo)本體與待融合本體的屬性相關(guān)度,有如式(4)所示:
其中,m為本體O所包含屬性的數(shù)量;P(R|E)為貝葉斯后驗(yàn)概率,由下式得出:
其中,P(R,E)、P(E)為先驗(yàn)概率,從數(shù)據(jù)庫(kù)中統(tǒng)計(jì)得出;考慮到R之間無(wú)直接相關(guān)性,式(3)由后驗(yàn)概率的平均值估算屬性相關(guān)度。
據(jù)此,通過(guò)計(jì)算本體間相關(guān)度,提取與待融合本體得出較高相關(guān)度的本體集合,對(duì)齊實(shí)體并連接相關(guān)屬性,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)庫(kù)的知識(shí)融合。如上公式,基于貝葉斯估計(jì)的相關(guān)度分析需充分利用歷史數(shù)據(jù)模型,統(tǒng)計(jì)實(shí)體與關(guān)系的先驗(yàn)概率。而實(shí)際應(yīng)用中,異常、突發(fā)事件的發(fā)生(如因突發(fā)事件,特定實(shí)體、關(guān)系的出現(xiàn)頻度驟增)可導(dǎo)致歷史數(shù)據(jù)的偏移,觸發(fā)概念漂移[26],從而降低貝葉斯數(shù)據(jù)模型的可靠性,如圖2。
圖2 概念漂移示意圖Fig.2 Example of concept drifting
據(jù)此,采用基于孤立森林(iForest)的異常點(diǎn)檢測(cè)算法,進(jìn)行概念漂移的檢測(cè)及數(shù)據(jù)模型的修復(fù)。該過(guò)程的具體目標(biāo)為檢測(cè)、聚類非預(yù)期數(shù)據(jù),并將其擬合至常規(guī)數(shù)據(jù)模型,提高整體歷史數(shù)據(jù)模型的可靠性,具體如下。
首先,在歷史數(shù)據(jù)中選擇定量樣本,構(gòu)建決策樹(iTree);隨后,按均勻分布提取少量檢測(cè)點(diǎn),計(jì)算檢測(cè)點(diǎn)在每棵iTree的平均高度h;最終,遍歷所有iTree,計(jì)算檢測(cè)點(diǎn)的異常概率分值,如式(6):
其中,E為0~1之間的異常概率分值;m為樣本個(gè)數(shù);ξ為歐拉常數(shù)。
由上式,設(shè)定異常閾值,將異常概率分值大于異常閾值的數(shù)據(jù)判斷為異常數(shù)據(jù)。該過(guò)程中,離散的異常數(shù)據(jù)僅視為異常事件,從數(shù)據(jù)庫(kù)隔離;而連續(xù)的異常數(shù)據(jù)則判斷為概念漂移,將第一個(gè)異常數(shù)據(jù)的位置設(shè)定為概念漂移的起點(diǎn),最后一個(gè)為終點(diǎn),對(duì)范圍內(nèi)的所有數(shù)據(jù)(包括非檢測(cè)點(diǎn)數(shù)據(jù))進(jìn)行歷史模型的擬合,如式(7)所示:
其中,Dx為第x個(gè)概念漂移數(shù)據(jù);′為概念漂移數(shù)據(jù)在iTree的平均高度;c為概念漂移范圍的異常數(shù)據(jù)總量;n為發(fā)生概念漂移前歷史數(shù)據(jù)的總量;Fb為概念漂移前貝葉斯模型的預(yù)測(cè)函數(shù)。由上式,概念漂移的修正取決于異常數(shù)據(jù)的數(shù)據(jù)量及偏移量,異常數(shù)據(jù)量較多,其擬合過(guò)程偏向于數(shù)據(jù)偏移量的大小,反之,則偏向于貝葉斯歷史數(shù)據(jù)模型。
多維、異構(gòu)的數(shù)據(jù)庫(kù)中,實(shí)體名稱的歧義可導(dǎo)致歷史數(shù)據(jù)模型的分析誤差,而反向驗(yàn)證是進(jìn)行實(shí)體消歧,提煉數(shù)據(jù)模型的有效手段。本文提出一種基于自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)的反向驗(yàn)證算法,分析已對(duì)齊實(shí)體的歧義,輔助提高知識(shí)融合過(guò)程的知識(shí)融合準(zhǔn)確率。該算法通過(guò)逆向匹配由貝葉斯數(shù)據(jù)模型對(duì)齊的實(shí)體集,進(jìn)行實(shí)體的歧義補(bǔ)正,進(jìn)一步提煉歷史數(shù)據(jù)模型的可靠性。
SOM是一種競(jìng)爭(zhēng)型、無(wú)監(jiān)督式神經(jīng)網(wǎng)絡(luò),常用于數(shù)據(jù)聚類[27]、協(xié)同控制[28]等。該神經(jīng)網(wǎng)絡(luò)中,各神經(jīng)元通過(guò)競(jìng)爭(zhēng)、聚類、加權(quán)過(guò)程的多次迭代,實(shí)現(xiàn)復(fù)雜的信息處理。本文的反向驗(yàn)證過(guò)程中,輸出神經(jīng)元對(duì)應(yīng)異構(gòu)數(shù)據(jù)庫(kù)的所有實(shí)體,輸入神經(jīng)元對(duì)應(yīng)待匹配實(shí)體,而競(jìng)爭(zhēng)過(guò)程則對(duì)應(yīng)神經(jīng)元在異構(gòu)數(shù)據(jù)庫(kù)間的匹配度比較過(guò)程。
提出的反向驗(yàn)證算法通過(guò)SOM的無(wú)監(jiān)督式迭代匹配,評(píng)估已融合本體中各實(shí)體相似度,進(jìn)行監(jiān)督式本體融合的權(quán)值更新。首先,以首個(gè)數(shù)據(jù)庫(kù)的已對(duì)齊實(shí)體為輸出神經(jīng)元,待匹配數(shù)據(jù)庫(kù)的所有實(shí)體為輸入神經(jīng)元,進(jìn)行匹配度比較并選擇獲勝神經(jīng)元,如圖3。
圖3 基于SOM的反向驗(yàn)證算法(首次迭代)Fig.3 SOM-based reversing verification algorithm(first iteration)
圖3中,數(shù)據(jù)庫(kù)的迭代順序由已融合本體的相關(guān)度F(O)(式(1))排序而定。獲勝神經(jīng)元選擇過(guò)程如式(8):
其中,winner為獲勝神經(jīng)元,i為輸入神經(jīng)元編號(hào);N為輸入神經(jīng)元集合;in為輸入神經(jīng)元;out為輸出神經(jīng)元;SIM為實(shí)體匹配度,由式(9)得出:
其中,E為比較本體所對(duì)應(yīng)的實(shí)體;sim為文本相似度;AA、AB為兩個(gè)比較實(shí)體所對(duì)應(yīng)的屬性中,具備最高文本相似度的屬性;R為關(guān)系,R對(duì)應(yīng)該屬性與相關(guān)實(shí)體;β為匹配度權(quán)值,取決于已融合本體與獲勝神經(jīng)元的本體相關(guān)度F(O)。
下一步為基于SOM規(guī)則的近義實(shí)體聚類過(guò)程。以上一次獲勝神經(jīng)元為中心,計(jì)算SOM領(lǐng)域函數(shù),如式(10):
其中,j為輸入神經(jīng)元編號(hào);δ為0到1的常數(shù),根據(jù)數(shù)據(jù)庫(kù)間的相關(guān)性設(shè)定;k為迭代次數(shù);g為最高匹配值;λ為領(lǐng)域半徑。由此,下一輪迭代的輸出神經(jīng)元為獲勝神經(jīng)元的領(lǐng)域半徑(λ)內(nèi)的所有本體,輸入神經(jīng)元為數(shù)據(jù)庫(kù)C的所有本體,而領(lǐng)域值(f)則決定各輸出神經(jīng)元的匹配權(quán)值,獲勝神經(jīng)元獲得最高權(quán)值,其他神經(jīng)元與獲勝神經(jīng)元越近,則獲取更高的權(quán)值,首次迭代結(jié)束。
再次進(jìn)行迭代競(jìng)爭(zhēng),與首次迭代不同,此時(shí)的輸出神經(jīng)元為所有領(lǐng)域半徑內(nèi)的神經(jīng)元,匹配度比較公式更新如下:
其中,j為輸出神經(jīng)元編號(hào);K為輸出神經(jīng)元集合;f為匹配權(quán)值。
由式(11),選擇該輪迭代的獲勝神經(jīng)元,如圖4。圖中,上輪的獲勝神經(jīng)元具備最高的匹配優(yōu)先度,但在數(shù)據(jù)庫(kù)B中找出最高匹配度本體的神經(jīng)元是領(lǐng)域內(nèi)其他神經(jīng)元。因而,本輪獲勝神經(jīng)元為數(shù)據(jù)庫(kù)B中與該最高匹配度本體所對(duì)應(yīng)的神經(jīng)元。
圖4 基于SOM的反向驗(yàn)證算法(二次迭代)Fig.4 SOM-based reversing verification algorithm(second iteration)
持續(xù)迭代該過(guò)程,直到在所有異構(gòu)數(shù)據(jù)庫(kù)中選出獲勝神經(jīng)元,如圖5、圖6。
圖5 基于SOM的反向驗(yàn)證算法(最終迭代)Fig.5 SOM-based reversing verification algorithm(last iteration)
圖6 提取獲勝神經(jīng)元Fig.6 Extracting winner neurons
最終,通過(guò)已融合本體與獲勝神經(jīng)元的相似度比較,更新監(jiān)督式知識(shí)融合的權(quán)重系數(shù)α(式(3)),如式(12)所示:
其中,n為SOM神經(jīng)網(wǎng)絡(luò)的迭代次數(shù)。
基于SOM神經(jīng)網(wǎng)絡(luò)的反向驗(yàn)證算法無(wú)需在數(shù)據(jù)庫(kù)中獲取先驗(yàn)知識(shí),且相比常規(guī)的無(wú)監(jiān)督式神經(jīng)網(wǎng)絡(luò)算法,在每輪迭代過(guò)程中僅在獲勝神經(jīng)元領(lǐng)域半徑內(nèi)進(jìn)行神經(jīng)元比較,從而大幅度降低了神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)復(fù)雜度,并保證了算法的收斂性。
通過(guò)在多維、異構(gòu)數(shù)據(jù)環(huán)境中進(jìn)行對(duì)比實(shí)驗(yàn),分析了提出方法的知識(shí)融合效率以及應(yīng)用可行性。
首先,利用加利福尼亞大學(xué)機(jī)器學(xué)習(xí)與智能系統(tǒng)中心的公開數(shù)據(jù)集[29],對(duì)監(jiān)督學(xué)習(xí)、概念漂移檢測(cè)、無(wú)監(jiān)督反向驗(yàn)證等提出方法的三階段運(yùn)作過(guò)程進(jìn)行了比較分析。該數(shù)據(jù)集包含了2014—2017年北京市天壇、奧體中心、萬(wàn)柳、昌平等12個(gè)區(qū)域的空氣質(zhì)量、溫度/露點(diǎn)溫度、風(fēng)向/風(fēng)速、空氣壓強(qiáng)、降雨量等時(shí)序性環(huán)境數(shù)據(jù)。
第一階段實(shí)驗(yàn)的分析對(duì)象為提出方法的概念漂移檢測(cè)算法在貝葉斯歷史數(shù)據(jù)模型的數(shù)據(jù)預(yù)測(cè)效率。預(yù)測(cè)對(duì)象為基于PM2.5值的某區(qū)域空氣質(zhì)量。實(shí)驗(yàn)中,使用30%的數(shù)據(jù)構(gòu)建了貝葉斯歷史數(shù)據(jù)模型,隨后在剩余70%數(shù)據(jù)種隨機(jī)刪減30%的數(shù)據(jù),對(duì)刪除的數(shù)據(jù)進(jìn)行了基于貝葉斯估計(jì)的數(shù)據(jù)預(yù)測(cè),實(shí)驗(yàn)結(jié)果如圖7所示??梢钥闯?,基于概念漂移檢測(cè)算法預(yù)測(cè)的數(shù)據(jù)分布與實(shí)際歷史數(shù)據(jù)分布的吻合度相比于傳統(tǒng)貝葉斯監(jiān)督學(xué)習(xí)顯著高,由此說(shuō)明結(jié)合概念漂移監(jiān)測(cè)算法,可以通過(guò)檢測(cè)、修正概念漂移數(shù)據(jù)提高數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確率,進(jìn)而提高歷史數(shù)據(jù)模型的可靠性。
圖7 原始樣本分布與預(yù)測(cè)數(shù)據(jù)分布的比較Fig.7 Comparison of distributions of original samples and predicted data
第二階段實(shí)驗(yàn)為整體方法的實(shí)體對(duì)齊效率。該階段將17種風(fēng)向與10類風(fēng)速組合文本設(shè)定為“實(shí)體”,溫度的特定區(qū)間設(shè)定為“關(guān)系”,其他對(duì)應(yīng)數(shù)據(jù)(不包含時(shí)序數(shù)據(jù))為“屬性”,以對(duì)齊實(shí)體的時(shí)間相關(guān)度差值為融合指標(biāo),進(jìn)行了12個(gè)數(shù)據(jù)集的本體融合。實(shí)驗(yàn)結(jié)果如圖8。
圖8 融合率比較Fig.8 Comparison of fusion rate
實(shí)驗(yàn)比較了提出算法三種模式的實(shí)體對(duì)齊率,實(shí)體對(duì)齊率的定義為:已融合樣本與目標(biāo)實(shí)體(第一個(gè)數(shù)據(jù)集實(shí)體)的時(shí)間相關(guān)度差值小于一定閾值的樣本所占比值。實(shí)驗(yàn)結(jié)果可以看出,相比常規(guī)的無(wú)監(jiān)督學(xué)習(xí),提出算法的概念漂移檢測(cè)及無(wú)監(jiān)督反向驗(yàn)證過(guò)程均在一定程度上提高了實(shí)體對(duì)齊能力。
以上實(shí)驗(yàn)使用了公開數(shù)據(jù)集的同構(gòu)數(shù)據(jù)。隨后,為證實(shí)提出方法在異構(gòu)數(shù)據(jù)集的應(yīng)用可行性,使用國(guó)網(wǎng)安徽省電力公司的實(shí)際業(yè)務(wù)數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)分析。該數(shù)據(jù)庫(kù)包括營(yíng)銷業(yè)務(wù)應(yīng)用系統(tǒng)、生產(chǎn)管理系統(tǒng)以及地理信息系統(tǒng)。實(shí)驗(yàn)中,將該三類數(shù)據(jù)庫(kù)拆分為9個(gè)數(shù)據(jù)集,并通過(guò)在同類數(shù)據(jù)集間設(shè)置較高的數(shù)據(jù)相關(guān)度δ(式(10)),構(gòu)建了多維異構(gòu)數(shù)據(jù)環(huán)境。本實(shí)驗(yàn)選擇了基于極大似然估計(jì)與K近鄰算法(K=10)的實(shí)體對(duì)齊方法進(jìn)行了比對(duì)分析。
實(shí)驗(yàn)方式如下:首先,根據(jù)預(yù)定義的語(yǔ)料庫(kù),對(duì)所有異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行本體關(guān)聯(lián),定義實(shí)體對(duì)齊指標(biāo)。例如,異構(gòu)數(shù)據(jù)中實(shí)體為“電纜”“纜線”,關(guān)系為“故障”“停役”等本體屬于互映射本體,其屬性為實(shí)體及關(guān)系所對(duì)應(yīng)的事件(如:發(fā)生***區(qū)域大規(guī)模停電、安排***維修員進(jìn)行現(xiàn)場(chǎng)搶修等)。之后,在一個(gè)數(shù)據(jù)庫(kù)中隨機(jī)提取一個(gè)本體,進(jìn)行實(shí)體對(duì)齊、實(shí)體消歧義及屬性融合。最終,根據(jù)實(shí)體對(duì)齊指標(biāo),計(jì)算已融合本體的TP(True Positive)、FP(False Positive)及FN(False Negative)指標(biāo),通過(guò)計(jì)算準(zhǔn)確率(Precision)與召回率(Recall),比較分析F1分?jǐn)?shù),如式(13)~(15)所示:
圖9為F1分?jǐn)?shù)的實(shí)驗(yàn)結(jié)果比較。本文提出算法的兩種模式均得出了較高分?jǐn)?shù)。實(shí)驗(yàn)中,K近鄰算法根據(jù)輸入屬性,在全局?jǐn)?shù)據(jù)庫(kù)間進(jìn)行本體的聚類,選擇數(shù)據(jù)庫(kù)間離聚類中心最為接近的本體。這種方式在低維數(shù)據(jù)中可得出較好的融合效果,但在高緯度異構(gòu)數(shù)據(jù)中,因持續(xù)累積的匹配誤差,最終得出較差的F1分?jǐn)?shù)。極大似然估計(jì)法采用了比較所有實(shí)體→屬性→關(guān)系似然值的全局搜索方式,得出了近似提出算法(無(wú)反向驗(yàn)證)的F1分值,但其全局搜索方式需要較高的時(shí)間復(fù)雜度。
圖9 F1分?jǐn)?shù)的比較Fig.9 Comparison of F1 scores
K近鄰與極大似然估計(jì)法均屬于無(wú)監(jiān)督學(xué)習(xí)算法,在多維數(shù)據(jù)庫(kù)中具有較高的時(shí)間復(fù)雜度。圖10中,該類算法的運(yùn)行時(shí)間按數(shù)據(jù)的維度指數(shù)級(jí)增長(zhǎng),因而較難應(yīng)用于高緯度數(shù)據(jù)集。提出算法的運(yùn)行時(shí)間是線性增長(zhǎng),其中,反向驗(yàn)證過(guò)程占用了約20%的算法運(yùn)行時(shí)間。實(shí)驗(yàn)中,概念漂移檢測(cè)的進(jìn)程與本體融合相互獨(dú)立,因而未納入運(yùn)行時(shí)間的比較。
圖10 算法運(yùn)行時(shí)間的比較Fig.10 Comparison of run time
總之,提出算法在F1分?jǐn)?shù)和運(yùn)行時(shí)間上均得出了較好的數(shù)值。相比K近鄰算法,得出了顯著提高的F1分?jǐn)?shù);極大似然估計(jì)法與提出算法(無(wú)反向驗(yàn)證)得出了類似的F1分?jǐn)?shù),但提出算法具有較低的時(shí)間復(fù)雜度,因此體現(xiàn)了良好的算法收斂時(shí)間。上述實(shí)驗(yàn)證明了提出算法在多維、異構(gòu)大數(shù)據(jù)環(huán)境的知識(shí)融合可行性。
本文面向大數(shù)據(jù)環(huán)境的復(fù)雜信息融合應(yīng)用,提出了一種結(jié)合監(jiān)督學(xué)習(xí)、概念漂移檢測(cè)及無(wú)監(jiān)督反向驗(yàn)證的知識(shí)融合方法。該方法通過(guò)在監(jiān)督學(xué)習(xí)中引入周期性概念漂移檢測(cè),提高數(shù)據(jù)模型的可靠性及實(shí)體對(duì)其效率,并在異構(gòu)數(shù)據(jù)集間利用無(wú)監(jiān)督式反向驗(yàn)證算法,有效、高速地進(jìn)行實(shí)體消歧義。目前,提出算法在國(guó)網(wǎng)安徽省電力公司知識(shí)圖譜系統(tǒng)中進(jìn)行著試點(diǎn)應(yīng)用,未來(lái)工作為選擇、比較及優(yōu)化符合監(jiān)督學(xué)習(xí)-概念漂移檢測(cè)-無(wú)監(jiān)督反向驗(yàn)證的先進(jìn)算法,進(jìn)一步提升知識(shí)圖譜系統(tǒng)在異構(gòu)大數(shù)據(jù)環(huán)境的應(yīng)用可行性。