趙三珊,齊曉曼,朱 文
(1.國網(wǎng)上海市電力公司電力科學(xué)研究院,上海200437;2.國家電網(wǎng)有限公司華東分部,上海200120)
知識圖譜的概念最早由谷歌公司在2012 年提出,其主要目的是實現(xiàn)智能、高效的搜索方式,提升用戶的搜索體驗[1-3]。 隨著智能信息服務(wù)涉獵領(lǐng)域的不斷擴大,知識圖譜已被廣泛應(yīng)用在人工智能搜索、智能問答以及用戶個性化定制等方面。 從實質(zhì)意義上來講,知識圖譜是展示不同實體間特性關(guān)系的語義網(wǎng)絡(luò),能夠?qū)ΜF(xiàn)實世界的物體及其關(guān)聯(lián)性進行結(jié)構(gòu)化描述[4-6]。
目前,知識圖譜被廣泛應(yīng)用在多個領(lǐng)域中。 文獻[7]重點探究了在組建專家團隊、明確技術(shù)領(lǐng)域、提升專家預(yù)見能力等方面應(yīng)用知識圖譜的必要性和可行性,并論證了該應(yīng)用的可行性;文獻[8]提出一種協(xié)同過濾推薦算法,使用知識圖譜表示學(xué)習(xí)方法,通過計算物品之間的語義相似性,將物品的語義信息與協(xié)同過濾算法相融合,應(yīng)用結(jié)果證明了其在增強推薦準(zhǔn)確性方面的作用;文獻[9]通過引入知識圖譜作為媒體層,結(jié)合基于內(nèi)容和協(xié)同過濾兩種方法來提高推薦準(zhǔn)確性,在云環(huán)境中的系統(tǒng)測試結(jié)果充分證明該方法的可行性;文獻[10]提出一種基于社區(qū)結(jié)構(gòu)和個人興趣的協(xié)同過濾推薦算法,通過將社區(qū)結(jié)構(gòu)和個人興趣融入矩陣分解模型中獲得推薦結(jié)果,有效緩解了推薦系統(tǒng)數(shù)據(jù)稀疏性的問題;文獻[11]將知識圖譜應(yīng)用于數(shù)字人文研究的系統(tǒng)框架,建立了中國歷代人物傳記資料庫的關(guān)聯(lián)數(shù)據(jù)平臺,有效地展現(xiàn)了人物之間豐富的親屬及社會關(guān)系,實現(xiàn)了人物之間隱性關(guān)系的挖掘與呈現(xiàn);文獻[12]基于知識圖譜理論對Web of Science 核心合集上的關(guān)于顧客契合的相關(guān)文獻進行文獻計量分析,繪制了共同被引知識圖譜和共詞聚類知識圖譜,分析出了該課題的研究熱點和研究趨勢;文獻[13]提出端到端將知識圖譜引入推薦系統(tǒng)的用戶偏好神經(jīng)建模框架,基于知識圖譜搭建的不同實體間的關(guān)聯(lián)關(guān)系架構(gòu),學(xué)習(xí)用戶的行為模式,同時使用注意力網(wǎng)絡(luò)融合各傳播階段偏好特征以構(gòu)建最終的用戶偏好向量,實驗結(jié)果證實了該方法的實用性。
上述研究充分展現(xiàn)了知識圖譜應(yīng)用之廣,但鮮少有研究將知識圖譜應(yīng)用于電力系統(tǒng)中,基于上述研究可知傳統(tǒng)基于協(xié)同過濾算法的搜索技術(shù)存在稀疏性問題,對搜索結(jié)果的推薦性不佳,為此,本文對知識圖譜的技術(shù)特性展開分析,將知識圖譜中物品的向量化表示方法與協(xié)同過濾算法結(jié)合,充分應(yīng)用知識圖譜中物品的語義信息以及用戶對物品的行為數(shù)據(jù),搭建了基于知識圖譜的協(xié)同過濾算法模型,并詳細分析了算法的計算過程,應(yīng)用交叉驗證法對所提模型的有效性進行驗證。
如圖1 所示,為知識圖譜的基本模型,主要包括知識獲取、知識融合、知識存儲、查詢式的語義理解、知識檢索以及可視化展現(xiàn)六大模塊[14]。
圖1 知識圖譜的基本模型
知識庫作為知識圖譜的核心,其建立過程是一個持續(xù)不間斷的過程,知識庫中的內(nèi)容不是一成不變的,而是需要不斷迭代更新、融合貫通的。 每當(dāng)有用戶進行搜索時,通過對用戶輸入的查詢語句進行智能語義理解,在知識庫中對存儲內(nèi)容進行自動檢索并匹配,將結(jié)果以可視化的方式呈現(xiàn)出來。
如前所述,知識圖譜中的內(nèi)容是經(jīng)過不斷迭代更新、融合貫通、長期積累的結(jié)果。 知識庫中除了存儲著來自百度百科、維基百科等各類權(quán)威科普類網(wǎng)站所描述的不同領(lǐng)域內(nèi)教科書般的定論定理之外,還需要及時補充一些帶有鮮明時代特色的時代產(chǎn)物知識,如網(wǎng)絡(luò)信息飛速發(fā)展的當(dāng)下網(wǎng)絡(luò)用戶在進行信息數(shù)據(jù)交互時生成的各類數(shù)據(jù)信息,包括用戶相關(guān)的行為數(shù)據(jù)、網(wǎng)絡(luò)信息從出生到消亡的全過程都是重要的知識來源。 知識庫中所含有內(nèi)容的數(shù)量與質(zhì)量,是決定其能夠提供多廣、多深服務(wù)的重要基礎(chǔ)[15]。
由于知識圖譜獲取知識內(nèi)容的途徑多而廣,因此無法在確保知識數(shù)量的同時保證知識的質(zhì)量,不可避免會出現(xiàn)大量重復(fù)、無效知識內(nèi)容的情況,為此需要對初步獲取到的知識進行融合[16]。 知識融合包括異構(gòu)數(shù)據(jù)整合、實體重要性計算、推理驗證以及知識拓展分類等步驟,以同一種框架標(biāo)準(zhǔn)對初步獲取的知識內(nèi)容進行規(guī)范化、統(tǒng)一性處理,便于知識圖譜的管控,降低知識檢索的復(fù)雜性,增加知識檢索的全方位性和有效性。
知識庫作為知識圖譜中的存儲器,用于存放經(jīng)知識融合處理后的各類有序、強關(guān)聯(lián)性的知識,通過生成不同類別的索引,使用戶在進行查詢時,能夠更加高效智能地匹配出相應(yīng)的檢索結(jié)果。
在知識圖譜中,查詢式的語義理解又細分為以下幾個重要步驟:首先,對查詢語句進行分詞、詞性備注以及查詢糾錯;接著,對句子成分進行分析,明確句子的主語、謂語、賓語等成分;然后,對用戶需求進推理,結(jié)合用戶行為以及語境判斷用戶需求;最后,進行查詢式擴展,綜合上述分析、推理及判斷的中間產(chǎn)物,在知識圖譜中對用戶需求進行搜索[17-18]。
知識檢索主要包含兩層含義:一是傳統(tǒng)意義上的根據(jù)關(guān)聯(lián)性在知識庫中查找對應(yīng)的實體。 二是基于查找到的對應(yīng)實體,進一步剖析該實體的種類及強關(guān)聯(lián)性的其他信息找到其他實體,向用戶推薦同一領(lǐng)域或是相關(guān)領(lǐng)域更深更廣的知識內(nèi)容等,激發(fā)用戶求知欲或是靈感進行更多的操作行為。
知識圖譜的可視化展示能夠?qū)z索結(jié)果以多樣化的形式呈現(xiàn)在用戶面前,包括具有邏輯性的文字、簡明扼要的圖表、智能化語音播報等,增加了知識內(nèi)容的可接受性和易理解性,一定程度上提升了用戶的搜索體驗,有助于用戶獲取更多知識。
如圖2 所示,為基于知識圖譜協(xié)同過濾算法的基本流程。 該算法的基本思路是基于知識圖譜和用戶對物品的交互行為分別求解出的物品相似度,再將二個物品相似度進行結(jié)合,求出物品融合相似度矩陣,以此為基礎(chǔ)對不同用戶對不同物品的操作可能性進行預(yù)測排序,進而生成推薦列表。 這樣一來,電網(wǎng)運維檢修班組無需詳細翻閱歷史操作用戶的操作記錄或是一一對電氣設(shè)備的運行狀態(tài)進行排查,系統(tǒng)能夠自動根據(jù)歷史所有操作用戶對本區(qū)域內(nèi)所有電氣設(shè)備的運維檢修操作記錄,向當(dāng)值班操作用戶推薦當(dāng)前需安排檢修的電氣設(shè)備以制定出勤工作計劃。
圖2 基于知識圖譜協(xié)同過濾算法的基本流程
2.1.1 基于知識圖譜的電氣設(shè)備相似度計算
從電氣設(shè)備自身的基本特性出發(fā)(如:電壓/電流等級、功率大小、功能特性等),找到具有相似特征的電氣設(shè)備。 以物品的嵌入向量為基準(zhǔn),對電氣設(shè)備的相似度進行計算:
基于式(2)可知,電氣設(shè)備Ii和電氣設(shè)備Ij之間的距離d(Ii,Ij)滿足d(Ii,Ij)≥0,進一步地將其限制在(0,1]區(qū)間內(nèi),則有基于知識圖譜的相似度simkn為:
當(dāng)simkn(Ii,Ij)=0 時,表明電氣設(shè)備Ii和電氣設(shè)備Ij語義相似度極低,兩者大相徑庭;當(dāng)simkn(Ii,Ij)=1 時,表明電氣設(shè)備Ii和電氣設(shè)備Ij語義相似度極高,兩者幾乎完全一致;當(dāng)0 <simkn(Ii,Ij)<1時,隨著該值的增大,電氣設(shè)備Ii和電氣設(shè)備Ij的語義相似度增加。
2.1.2 基于用戶行為的相似度計算
從一定層面來說,用戶對物品的行為數(shù)據(jù)決定了該用戶對該物品的種類劃分。 因此,本節(jié)采用基于物品的協(xié)同過濾算法,從用戶操作行為出發(fā)(如:輸電線路檢修、變電站內(nèi)部器械檢修、工器具更換等行為),找到具有相似特征的電氣設(shè)備,以操作用戶在電氣設(shè)備整個生命周期過程中的操作頻率作為電氣設(shè)備向量化的基準(zhǔn),來衡量不同物品向量之間的語義相似度。 假定系統(tǒng)中存在m 個操作用戶以及n個電氣設(shè)備,則將不同操作用戶對不同電氣設(shè)備的操作頻率表示成矩陣形式:
若Rmi=0,表示操作用戶m 從未對電氣設(shè)備Ii產(chǎn)生過操作行為。 應(yīng)用余弦相似度公式求解得到電氣設(shè)備Ii和電氣設(shè)備Ij基于操作用戶行為的相似度simbe為:
當(dāng)simbe(Ii,Ij)=0 時,表明電氣設(shè)備Ii和電氣設(shè)備Ij語義相似度極低,兩者大相徑庭;當(dāng)simbe(Ii,Ij)=1 時,表明電氣設(shè)備Ii和電氣設(shè)備Ij語義相似度極高,兩者幾乎完全一致;當(dāng)0<simbe(Ii,Ij)<1 時,隨著該值的增大,電氣設(shè)備Ii和電氣設(shè)備Ij的語義相似度增加。
綜上所述,將基于知識圖譜的相似度simkn以及基于用戶行為的相似度simbe進行結(jié)合求出物品最終的融合相似度:
式中:α 為加權(quán)系數(shù),取值范圍在0 ~1 之間。 若α =0,表示以用戶行為作為判定電氣設(shè)備相似度的主導(dǎo)因子;若α =1,表示以知識圖譜作為判定電氣設(shè)備相似度的主導(dǎo)因子。 經(jīng)過式(7)的融入計算后,得到各電氣設(shè)備間的相似度矩陣表達式為:
式中:sij為電氣設(shè)備Ii和電氣設(shè)備Ij的相似度,且sij=sji;當(dāng)i=j(luò) 時,sij=1。
結(jié)合前文的分析可知,在求解得到電氣設(shè)備的相似度矩陣后,應(yīng)該對不同用戶對不同電氣設(shè)備的操作可能性進行預(yù)測排序,進而生成推薦列表。
以Pmi表示操作用戶m 對電氣設(shè)備i 操作概率的預(yù)測值:
式中:N(m)表示操作用戶m 操作過的所有電氣設(shè)備集合,S(i,k)表示與電氣設(shè)備i 相似度最高的k個電氣設(shè)備集合。 基于這個概率預(yù)測公式,能夠找到與用戶歷史上操作頻率相似的物品推薦給用戶,整個預(yù)測過程如圖3 所示。
基于式(9)所述的預(yù)測準(zhǔn)則,對不同操作用戶對不同電氣設(shè)備的操作概率進行預(yù)測,得到不同操作用戶對應(yīng)的一個含有n 個電氣設(shè)備的推薦列表。在此推薦列表中,用戶對物品操作概率的預(yù)測值越大,則認定該物品對該用戶更具有價值,則系統(tǒng)推薦該物品給用戶的優(yōu)先級別越高,按照預(yù)測值的大小對物品推薦的優(yōu)先級別進行排序并推薦,其基本流程如圖4 所示。
圖3 預(yù)測的基本流程
圖4 用戶推薦信息的生成過程
為了驗證本文所提出的基于知識圖譜協(xié)同過濾算法的預(yù)測性能,本文采用簡單交叉驗證法將原始數(shù)據(jù)隨機劃分為k 個互不相關(guān)的子集,選擇其中k-1 個子集作為訓(xùn)練用數(shù)據(jù),剩下1 個子集作為性能測試用數(shù)據(jù),具體步驟如圖5 所示。
圖5 簡單交叉驗證法的具體步驟
本文采用準(zhǔn)確率、召回率以及覆蓋率來衡量推薦系統(tǒng)的預(yù)測準(zhǔn)確率[20]。 準(zhǔn)確率P 的基本定義為系統(tǒng)推薦且存在于測試數(shù)據(jù)子集中的實體數(shù)占總推薦數(shù)的比率,其計算公式為:
式中:NTP為推薦系統(tǒng)推薦了且實際的用戶行為也確實發(fā)生了的樣本數(shù)量;NFP為推薦系統(tǒng)推薦了,但實際的用戶行為并沒有發(fā)生的樣本數(shù)量。
召回率R 的基本定義為系統(tǒng)推薦且存在于測試數(shù)據(jù)子集中的實體數(shù)占測試數(shù)據(jù)子集數(shù)據(jù)總量的比率,其計算公式為:
式中:NFN為推薦系統(tǒng)沒有推薦的,但實際的用戶行為發(fā)生了的樣本數(shù)量。
覆蓋率C 的基本定義為推薦系統(tǒng)為所有用戶推薦的物品占總物品的比例。 C 值越高,說明系統(tǒng)的推薦性能越好,推廣性越強,其計算公式為:
式中:I 為推薦系統(tǒng)中的物品總數(shù),U 為所有的用戶集合,R(m)為推薦系統(tǒng)為用戶m 推薦的長度為N的物品列表。
本文使用某地區(qū)電網(wǎng)內(nèi)所有電氣設(shè)備的維護數(shù)據(jù)以及相應(yīng)的操作用戶作為研究對象,推薦算法融合了基于知識圖譜以及基于用戶行為的物品相似度,為每個操作用戶推薦n 個特征相近的電氣設(shè)備,并通過概率預(yù)測的方式為操作人員推薦本區(qū)域近期需要維護的電氣設(shè)備,實驗選取k =5,n =20。 如2.1小節(jié)所述,α 的取值范圍為[0,1],以0.1 為間隔分別從準(zhǔn)確率、召回率、覆蓋率三個方面對加權(quán)系數(shù)的取值進行選擇,圖6 為不同加權(quán)系數(shù)下測試集的驗證結(jié)果。
圖6 不同融合度下的預(yù)測性能
結(jié)合圖6(a)和圖6(b)來看,當(dāng)α=0.6 時,基于知識圖譜的協(xié)同過濾算法的準(zhǔn)確率和召回率達到了最大值,相比對單純基于知識圖譜的物品相似度推薦結(jié)果或是基于協(xié)同過濾算法的物品相似度推薦結(jié)果,其準(zhǔn)確率和召回率均有顯著的提升,隨著加權(quán)系數(shù)α 取值的增大,準(zhǔn)確率和召回率呈現(xiàn)下降趨勢,且下降幅度進一步增大。 從圖6(c)的仿真結(jié)果來看,隨著加權(quán)系數(shù)α 取值的增大,預(yù)測結(jié)果的覆蓋率隨之升高,當(dāng)α =1 時,預(yù)測結(jié)果在測試集數(shù)據(jù)中占的覆蓋率最大,達到了45%,即采用基于知識圖譜的物品相似度進行推薦時,推薦結(jié)果最優(yōu)。
綜上所述,選取α 的取值范圍在(0.6,0.8)區(qū)間時,基于知識圖譜的協(xié)同過濾算法相比于傳統(tǒng)基于知識圖譜以及基于協(xié)同過濾算法的推薦結(jié)果在準(zhǔn)確率、召回率和覆蓋率達到顯著優(yōu)化效果,能夠顯著提升系統(tǒng)推薦的效用,給用戶良好的操作體驗。
本文將知識圖譜與協(xié)同過濾算法進行結(jié)合,提出了一種基于知識圖譜的協(xié)同過濾算法模型,詳細分析了算法的計算過程。 文章以某地區(qū)電網(wǎng)電氣設(shè)備的維護數(shù)據(jù)作為研究對象,應(yīng)用交叉驗證法對所提模型的有效性進行驗證,并從準(zhǔn)確率、召回率和覆蓋率三方面對預(yù)測結(jié)果進行分析驗證,實驗結(jié)果充分證明本文所提算法模型在提升檢索推薦性能方面的有效性。