• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于知識(shí)圖譜的電網(wǎng)科技評(píng)審專家推薦方法研究

      2023-01-03 06:54:04魏冠元王冠群劉紫熹王其清
      青海電力 2022年3期
      關(guān)鍵詞:圖譜專家電網(wǎng)

      徐 翀,魏冠元,王冠群,劉紫熹,王其清,張 炎

      (1.國(guó)網(wǎng)能源研究院有限公司,北京 102209;2.國(guó)網(wǎng)智聯(lián)電商有限公司,天津 300000)

      0 前言

      近些年,國(guó)家逐步加大對(duì)電網(wǎng)科技創(chuàng)新的投入,并將其作為重點(diǎn)突破的方向,電網(wǎng)科技項(xiàng)目也迎來(lái)更大的發(fā)展空間。然而,伴隨著現(xiàn)代信息技術(shù)的融合發(fā)展,各個(gè)學(xué)科領(lǐng)域間的交叉、合作項(xiàng)目變得越來(lái)越常見[1],再加上電網(wǎng)科技專家?guī)斓囊?guī)模的不斷增加,導(dǎo)致目前以人工篩選專家進(jìn)行項(xiàng)目評(píng)審的電網(wǎng)企業(yè)面臨挑戰(zhàn)。具體來(lái)說(shuō),電網(wǎng)科技項(xiàng)目評(píng)審管理方面存在著項(xiàng)目管理人數(shù)較少,且管理人員對(duì)項(xiàng)目領(lǐng)域不了解等情況,難以應(yīng)對(duì)規(guī)模日益增長(zhǎng)的專家?guī)旌陀l(fā)模糊的學(xué)科邊界所帶來(lái)的評(píng)審專家遴選準(zhǔn)確性和效率低下的問(wèn)題。

      為解決上述一系列問(wèn)題,已有學(xué)者提出采用推薦系統(tǒng)算法去解決人工遴選評(píng)審專家的問(wèn)題[2],主要可分為基于內(nèi)容的推薦算法、基于協(xié)同過(guò)濾的推薦算法和基于混合推薦方法。文獻(xiàn)[3]提出基于協(xié)同過(guò)濾和混合相似性的推薦算法,擬解決協(xié)同過(guò)濾算法數(shù)據(jù)稀疏和冷啟動(dòng)問(wèn)題;文獻(xiàn)[4]提出基于混合貝葉斯個(gè)性化推薦算法,設(shè)計(jì)了更個(gè)性化的混合推薦算法,具有一定的實(shí)用價(jià)值;文獻(xiàn)[5]提出一種基于語(yǔ)義分析的推薦算法,主要針對(duì)語(yǔ)義的關(guān)聯(lián)規(guī)則進(jìn)行推薦系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)。

      為了克服評(píng)審專家推薦的冷啟動(dòng)問(wèn)題,本文提出一種基于知識(shí)圖譜的電網(wǎng)科技項(xiàng)目評(píng)審專家推薦算法,該法首先構(gòu)建包含專家、研究領(lǐng)域、項(xiàng)目及其關(guān)系的領(lǐng)域知識(shí)圖譜,再利用同義概念對(duì)齊算法進(jìn)行節(jié)點(diǎn)融合,形成面向評(píng)審專家推薦的電網(wǎng)科技知識(shí)圖譜,在此基礎(chǔ)上再采用關(guān)鍵詞描述專家和待評(píng)項(xiàng)目的研究領(lǐng)域特征,通過(guò)音形碼轉(zhuǎn)碼實(shí)現(xiàn)中文關(guān)鍵詞相似度的準(zhǔn)確計(jì)算,得到關(guān)鍵詞向量與領(lǐng)域知識(shí)圖譜概念間的距離,最后根據(jù)計(jì)算出的余弦相似度找到匹配度最高的評(píng)審專家,并通過(guò)算例驗(yàn)證了所提方法的有效性。

      1 相關(guān)理論

      1.1 知識(shí)圖譜技術(shù)

      知識(shí)圖譜的概念在2012年由谷歌公司提出[6],目的在于加強(qiáng)搜索引擎的性能,伴隨著人工智能和互聯(lián)網(wǎng)的不斷發(fā)展,知識(shí)圖譜因其高效的知識(shí)表達(dá)與強(qiáng)大的知識(shí)推理能力在人工智能領(lǐng)域得到了廣泛關(guān)注。知識(shí)圖譜本質(zhì)上是一種大型的語(yǔ)義網(wǎng)絡(luò),它用圖中節(jié)點(diǎn)表示實(shí)體,用節(jié)點(diǎn)間的連線表示實(shí)體間的關(guān)系,將復(fù)雜的實(shí)體關(guān)系映射到一個(gè)可視化的二維圖形上。

      知識(shí)圖譜的一般構(gòu)建過(guò)程可分為圖1所示的知識(shí)獲取、知識(shí)表示、知識(shí)融合和知識(shí)推理4個(gè)步驟,其中知識(shí)獲取是知識(shí)圖譜構(gòu)建的基礎(chǔ),目的在于從數(shù)據(jù)中提取包括頭實(shí)體、尾實(shí)體和關(guān)系在內(nèi)的知識(shí)三元組,形成基礎(chǔ)語(yǔ)義單元。本文構(gòu)建面向評(píng)審專家推薦的電力科技領(lǐng)域知識(shí)圖譜,并采用基于知識(shí)圖譜的特征學(xué)習(xí)方法實(shí)現(xiàn)評(píng)審專家推薦。

      圖1 知識(shí)圖譜構(gòu)建過(guò)程

      1.2 基于音形碼的中文相似度匹配算法

      字符串相似度匹配算法指通過(guò)一定的方式計(jì)算兩個(gè)字符串間的相關(guān)程度,其相似程度通常用一個(gè)百分?jǐn)?shù)加以表示。傳統(tǒng)的字符串相似度匹配算法如編輯距離算法、N-gram算法等均是通過(guò)計(jì)算兩個(gè)字符間的轉(zhuǎn)化代價(jià)進(jìn)行量化,轉(zhuǎn)化代價(jià)越高,則字符串越不相關(guān)。但是由于傳統(tǒng)的字符串相似度匹配算法大多針對(duì)拉丁文字發(fā)明,用來(lái)計(jì)算象形文字的中文字符串時(shí)會(huì)導(dǎo)致準(zhǔn)確率大大降低。

      對(duì)于中文字符串相似度匹配算法,文獻(xiàn)[7]中李星提出基于時(shí)間翹曲距離的短文本語(yǔ)義相似度計(jì)算方法,針對(duì)短文本相似度匹配可以得到較為精確的結(jié)果,但對(duì)于單字和詞語(yǔ)的匹配效果欠佳;文獻(xiàn)[8]中作者提出一種基于詞向量模型的改進(jìn)中文序列對(duì)比算法,較傳統(tǒng)的序列對(duì)比法提高了精確性和適應(yīng)性,但更適合中文長(zhǎng)句間的相似度對(duì)比;文獻(xiàn)[9]中作者提出了融合詞性特征的中文相似度計(jì)算方法,可以通過(guò)調(diào)整權(quán)重,使匹配結(jié)果更加準(zhǔn)確,但該法僅考慮語(yǔ)義層面上的相似度,并未對(duì)中文字形信息進(jìn)行考慮。綜上所述,本文擬采用文獻(xiàn)[10]中提到的基于音形碼的漢字相似度對(duì)比算法。該法考慮到漢字字音、字形、筆畫、結(jié)構(gòu)等影響,將漢字進(jìn)行重新編碼再計(jì)算相似度,更適用于中文短詞的相似度計(jì)算,可用來(lái)比對(duì)專家和待評(píng)項(xiàng)目的關(guān)鍵詞相似性。

      1.3 TF-IDF算法

      TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),其基本思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率很高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力[11]。TF-IDF常用來(lái)評(píng)估字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。

      記文檔語(yǔ)料庫(kù)大小為 D = {d1,d2,… ,dN},dj表示第j個(gè)文檔,N為文檔個(gè)數(shù),從所有文檔中提取得到的非重復(fù)關(guān)鍵詞構(gòu)成詞典T = {t1,t2,… ,tn},tk表示第k個(gè)關(guān)鍵詞。TF-IDF 由術(shù)語(yǔ)詞頻(TF)和逆文檔詞頻(IDF)構(gòu)成,其中術(shù)語(yǔ)詞頻計(jì)算公式為

      式中:fk,j表示術(shù)語(yǔ)tk在文檔dj中的出現(xiàn)頻次;max{ fk,j}表示文檔dj中術(shù)語(yǔ)的最高頻次。逆文檔詞頻的計(jì)算公式為:

      式中:nk表示語(yǔ)料庫(kù)中包含術(shù)語(yǔ)tk的文檔個(gè)數(shù)。綜合可得術(shù)語(yǔ)的IF-IDF分?jǐn)?shù):

      2 基于知識(shí)圖譜的電網(wǎng)科技項(xiàng)目評(píng)審專家推薦流程

      本文所提基于知識(shí)圖譜的電網(wǎng)科技項(xiàng)目評(píng)審專家推薦方法如圖2所示,通過(guò)構(gòu)建的領(lǐng)域知識(shí)圖譜,分別將專家關(guān)鍵詞、項(xiàng)目關(guān)鍵詞映射到各個(gè)節(jié)點(diǎn),再計(jì)算其相似度得到與待評(píng)審項(xiàng)目最為匹配的候選專家。

      圖2 基于知識(shí)圖譜的專家推薦算法流程

      2.1 領(lǐng)域知識(shí)圖譜構(gòu)建

      領(lǐng)域知識(shí)圖譜是以領(lǐng)域概念作為節(jié)點(diǎn),以概念間的共現(xiàn)關(guān)系作為邊組成的關(guān)系網(wǎng)絡(luò)圖[12]。通過(guò)構(gòu)建領(lǐng)域知識(shí)圖譜,可以將生活中不同概念映射到同一節(jié)點(diǎn)挖掘與其他概念間的關(guān)系。對(duì)于本文所構(gòu)建的電網(wǎng)科技領(lǐng)域知識(shí)圖譜,需先建立圖譜的基礎(chǔ)三元組[13](h,r,t),其中h,t分屬頭、尾實(shí)體,r表示兩實(shí)體間的關(guān)系。在本文中,實(shí)體共三類:專家、領(lǐng)域和項(xiàng)目;而關(guān)系分為:專家與專家的合作關(guān)系、專家與研究領(lǐng)域的關(guān)系,以及不同研究領(lǐng)域的交叉關(guān)系和專家研究領(lǐng)域與項(xiàng)目的相關(guān)關(guān)系。圖3展示了電力專家知識(shí)圖譜構(gòu)成的基本結(jié)構(gòu)。

      圖3 電力專家知識(shí)圖譜構(gòu)成的基本結(jié)構(gòu)

      2.2 關(guān)鍵詞抽取

      關(guān)鍵詞抽取分為對(duì)專家領(lǐng)域關(guān)鍵詞抽取與項(xiàng)目關(guān)鍵詞抽取,目的是將輸入的段落文字轉(zhuǎn)化成形如<關(guān)鍵詞,音形碼,權(quán)重>的特征向量,便于下一步將向量映射到知識(shí)圖譜節(jié)點(diǎn)。

      每位評(píng)審專家都發(fā)表過(guò)一定的學(xué)術(shù)成果,比如論文、專利等。這些成果蘊(yùn)含著每位專家的主要研究方向和興趣點(diǎn),是對(duì)專家進(jìn)行關(guān)鍵詞提取的核心數(shù)據(jù)。本文擬采用TD-IDF算法對(duì)評(píng)審專家論文進(jìn)行關(guān)鍵詞提取,獲得專家擅長(zhǎng)領(lǐng)域的關(guān)鍵詞特征向量,并將其按照權(quán)重降序排列,再將關(guān)鍵詞利用音形碼重新編碼,最終得到第i個(gè)評(píng)審專家的候選關(guān)鍵詞特征向量Ki為:

      其中:ijv表示第i個(gè)專家的所有論文集合中根據(jù)TF-IDF提取關(guān)鍵詞并按照權(quán)重降序后的第j個(gè)關(guān)鍵詞;ijn表示關(guān)鍵詞ijv經(jīng)過(guò)音形碼重新編譯的編碼;ijs表示關(guān)鍵詞ijv所對(duì)應(yīng)的權(quán)重。

      同理,利用TF-IDF算法對(duì)電網(wǎng)待審項(xiàng)目進(jìn)行關(guān)鍵詞提取,并將結(jié)果按照權(quán)重降序排列得第i個(gè)電網(wǎng)待審項(xiàng)目的關(guān)鍵詞特征向量iP為:

      其中:'ijv表示待審項(xiàng)目根據(jù)TF-IDF算法提取關(guān)鍵詞并按照權(quán)重降序后的第j個(gè)關(guān)鍵詞;'ijn表示關(guān)鍵詞'ijv根據(jù)音形碼重新編譯的編碼;'ijs表示關(guān)鍵詞'ijv所對(duì)應(yīng)的權(quán)重。

      2.3 領(lǐng)域圖譜節(jié)點(diǎn)映射

      考慮到領(lǐng)域知識(shí)圖譜的節(jié)點(diǎn)上會(huì)形成諸如電力系統(tǒng)、電力系統(tǒng)自動(dòng)化和電力系統(tǒng)及其自動(dòng)化等同一概念的不同中文表達(dá)方式,這些節(jié)點(diǎn)理應(yīng)在知識(shí)圖譜上被合并為同一節(jié)點(diǎn),當(dāng)不進(jìn)行此項(xiàng)操作時(shí)會(huì)造成知識(shí)圖譜語(yǔ)義發(fā)散,進(jìn)而影響評(píng)審專家推薦的精度。針對(duì)此問(wèn)題,本文采用基于機(jī)器翻譯的同義概念對(duì)齊方法針對(duì)相同概念的不同表達(dá)形式的領(lǐng)域關(guān)鍵詞進(jìn)行合并。

      設(shè)C為概念集合且 C = {c1,c2,… ,cn},將每個(gè)領(lǐng)域關(guān)鍵詞設(shè)置為一個(gè)中英文對(duì)照的集合即ci= {chi,eni},則基于機(jī)器翻譯的同義概念對(duì)齊算法可表示為:

      則對(duì)應(yīng)領(lǐng)域知識(shí)圖譜一個(gè)節(jié)點(diǎn)的概念可表示為:

      通過(guò)機(jī)器翻譯,可將知識(shí)圖譜某節(jié)點(diǎn)表示為類似{配電網(wǎng)自動(dòng)化、配電自動(dòng)化、自動(dòng)化配電、配網(wǎng)自動(dòng)化,Distribution network automation,distribution automation,dms}的概念集合,從而有效解決語(yǔ)義發(fā)散問(wèn)題。

      為了解決節(jié)點(diǎn)對(duì)齊問(wèn)題,本文將專家關(guān)鍵詞向量和項(xiàng)目關(guān)鍵詞向量重新根據(jù)音形碼進(jìn)行編碼,再分別與領(lǐng)域知識(shí)圖譜的領(lǐng)域節(jié)點(diǎn)間通過(guò)編輯距離計(jì)算實(shí)現(xiàn)加權(quán)轉(zhuǎn)換,實(shí)現(xiàn)專家關(guān)鍵詞向量、項(xiàng)目關(guān)鍵詞向量映射至知識(shí)圖譜同一節(jié)點(diǎn),獲取專家和項(xiàng)目最為匹配的領(lǐng)域特征向量。

      將式(7)知識(shí)圖譜節(jié)點(diǎn)概念利用音形碼規(guī)則進(jìn)行重新編譯,編譯結(jié)果記為 ci' = {< ci1, ci'1>,<其中ci'j表示概念cij利用音形碼編譯后的編碼,由式(4)得到評(píng)審專家關(guān)鍵詞特征向量Ki=(,vi2,ni2,si2>,…),將兩個(gè)音形碼n1與n2之間的編輯距離用函數(shù)ED(n1,n2)表示,則專家某個(gè)關(guān)鍵詞vij與知識(shí)圖譜領(lǐng)域節(jié)點(diǎn)ck之間的相似度sim( vij,ck)可表示為:

      則通過(guò)相似度計(jì)算和排序,可得到專家關(guān)鍵詞 iK映射到知識(shí)圖譜節(jié)點(diǎn)的向量PAi為:

      其中:simij取值為

      同理可得到電網(wǎng)待選項(xiàng)目關(guān)鍵詞映射到知識(shí)圖譜節(jié)點(diǎn)的特征向量PBi為

      2.4 相似度匹配

      根據(jù)式(9)和式(10)可得到評(píng)審專家和待評(píng)項(xiàng)目映射到知識(shí)圖譜節(jié)點(diǎn)的特征向量PAi和PBi,本文采用余弦相似度算法計(jì)算二者之間的匹配相似度,見式(11)。

      利用該公式,可以計(jì)算出待選項(xiàng)目與所有評(píng)審專家的匹配分?jǐn)?shù),實(shí)現(xiàn)項(xiàng)目專家的最佳匹配。

      3 算例分析

      3.1 實(shí)驗(yàn)評(píng)測(cè)指標(biāo)

      令u表示推薦人,()R u表示根據(jù)人工推薦方式做出的推薦列表,()T u表示使用推薦算法做出的推薦列表,則推薦結(jié)果準(zhǔn)確率可表示為:

      推薦結(jié)果的召回率可表示為:

      綜合考察的F分?jǐn)?shù)可表示為:

      3.2 實(shí)驗(yàn)結(jié)果分析

      本文根據(jù)某電網(wǎng)企業(yè)科技項(xiàng)目的研究領(lǐng)域分類,從知網(wǎng)選取27 915篇論文構(gòu)建了電網(wǎng)科技領(lǐng)域知識(shí)圖譜(圖4),采集該企業(yè)科技評(píng)審專家?guī)煜嚓P(guān)專家發(fā)表的15 000篇論文基礎(chǔ)數(shù)據(jù),提取專家擅長(zhǎng)領(lǐng)域的關(guān)鍵詞。將該電網(wǎng)企業(yè)某年度科技項(xiàng)目中的50個(gè)待審項(xiàng)目作為所提評(píng)審專家推薦方法測(cè)試數(shù)據(jù),為進(jìn)行對(duì)照,分別采取人工推薦、傳統(tǒng)向量相似度計(jì)算和貝葉斯推薦方法作為對(duì)比。

      圖4 學(xué)科知識(shí)圖譜

      本實(shí)驗(yàn)中,為了增強(qiáng)推薦算法的準(zhǔn)確性,采取K近鄰法。其中,近鄰數(shù)K分別選擇10、20、30、40,實(shí)驗(yàn)結(jié)果取5次試驗(yàn)的平均值。由于本場(chǎng)景基于內(nèi)容推薦的特殊性,一般算法難以在本場(chǎng)景下進(jìn)行運(yùn)用,故本文分別采取知識(shí)圖譜算法(KGR)、向量相似度算法(vsREC)和貝葉斯算法(BPR)進(jìn)行對(duì)照,其結(jié)果如圖5、6所示。

      圖5 不同近鄰數(shù)K下的準(zhǔn)確率

      實(shí)驗(yàn)結(jié)果表明,隨著近鄰數(shù)的增加,3種算法推薦均在K=10時(shí)取得最優(yōu)值。由于BPR在實(shí)驗(yàn)過(guò)程中存在矩陣過(guò)于稀疏問(wèn)題,導(dǎo)致推薦結(jié)果準(zhǔn)確性大幅落后于其余二法。并且相較于傳統(tǒng)的向量相似度計(jì)算方法,本文提出的基于知識(shí)圖譜的向量映射方法在整個(gè)閾值內(nèi)準(zhǔn)確性優(yōu)于傳統(tǒng)計(jì)算方法,在實(shí)際推薦過(guò)程中可以有效解決專家與項(xiàng)目之間的模糊推薦問(wèn)題,使推薦結(jié)果更具準(zhǔn)確性。

      圖6 不同近鄰數(shù)K下的召回率

      4 結(jié)論

      本文通過(guò)構(gòu)建領(lǐng)域知識(shí)圖譜,關(guān)鍵詞提取、音形碼轉(zhuǎn)碼、向量映射、相似度匹配實(shí)現(xiàn)電網(wǎng)項(xiàng)目與領(lǐng)域?qū)<业钠ヅ?。在?gòu)建知識(shí)圖譜時(shí),從大量論文中抽取出概念間的相關(guān)關(guān)系,利用同義概念對(duì)齊算法進(jìn)行節(jié)點(diǎn)融合,構(gòu)建科學(xué)知識(shí)圖譜。再根據(jù)TF-IDF算法抽取論文、專家關(guān)鍵詞并運(yùn)用音形碼進(jìn)行轉(zhuǎn)碼。將轉(zhuǎn)碼后的關(guān)鍵詞利用編輯算法進(jìn)行關(guān)系映射,計(jì)算出關(guān)鍵詞向量與領(lǐng)域知識(shí)圖譜概念間的距離,最后根據(jù)計(jì)算出的余弦相似度找到匹配度最高的評(píng)審專家,實(shí)現(xiàn)專家和待審項(xiàng)目的匹配過(guò)程。通過(guò)實(shí)驗(yàn)驗(yàn)證,本文提出的基于知識(shí)圖譜的內(nèi)容推薦算法能夠較好的實(shí)現(xiàn)專家的遴選,對(duì)于提升電網(wǎng)科技項(xiàng)目評(píng)審質(zhì)量與效率具有積極意義。但本文算法仍存在一些諸如關(guān)鍵詞提取閾值設(shè)置、同義概念對(duì)齊等問(wèn)題,在后續(xù)的工作中,筆者會(huì)進(jìn)一步改進(jìn)算法,在更大數(shù)據(jù)集上驗(yàn)證并提高推薦精度。

      猜你喜歡
      圖譜專家電網(wǎng)
      致謝審稿專家
      穿越電網(wǎng)
      繪一張成長(zhǎng)圖譜
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      請(qǐng)叫我專家
      電網(wǎng)也有春天
      河南電力(2016年5期)2016-02-06 02:11:32
      專家面對(duì)面
      一個(gè)電網(wǎng)人的環(huán)保路
      河南電力(2015年5期)2015-06-08 06:01:46
      電網(wǎng)環(huán)保知多少
      河南電力(2015年5期)2015-06-08 06:01:46
      通化县| 石景山区| 乌兰县| 新乡市| 贡嘎县| 合江县| 新乡市| 寿光市| 奇台县| 积石山| 康马县| 永寿县| 长丰县| 鄯善县| 津市市| 临清市| 来凤县| 台南县| 盐亭县| 绥中县| 类乌齐县| 陆川县| 健康| 千阳县| 大邑县| 杭锦后旗| 新民市| 镇宁| 康保县| 富裕县| 遵义县| 临汾市| 北宁市| 建始县| 巴林右旗| 东山县| 克东县| 宾川县| 武定县| 新绛县| 浠水县|