• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入的姓名實體消歧方法

      2020-07-14 04:57:48王建霞張玉璇許云峰
      河北科技大學(xué)學(xué)報 2020年3期
      關(guān)鍵詞:自然語言處理

      王建霞 張玉璇 許云峰

      摘 要:為了解決大型學(xué)術(shù)數(shù)據(jù)庫中重名作者的歧義消解問題,提出了基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入的姓名實體消歧模型。使用大型在線學(xué)術(shù)搜索系統(tǒng)DBLP上的公開數(shù)據(jù)集,首先抽取學(xué)術(shù)出版物的作者信息、標(biāo)題和會議期刊名稱等特征屬性,再利用word2vec模型工具生成的特征屬性詞嵌入輸入到GRU網(wǎng)絡(luò)中進行訓(xùn)練,構(gòu)造出一個PHNet矩陣網(wǎng)絡(luò)進行隨機游走操作,從而捕捉不同類型節(jié)點之間的關(guān)系,最后進行相似節(jié)點的劃分,完成姓名消歧工作。實驗結(jié)果顯示,新方法的精確度為0.865,召回率為0.792,F(xiàn)1值為0.815?;谠窂降漠悩?gòu)網(wǎng)絡(luò)嵌入模型的精確度、召回率等指標(biāo)都優(yōu)于對比模型。因此,所提出的模型在提高大型學(xué)術(shù)數(shù)據(jù)庫的消歧精準(zhǔn)度方面具有良好的應(yīng)用前景。

      關(guān)鍵詞:自然語言處理;計算機神經(jīng)網(wǎng)絡(luò);實體消歧;網(wǎng)絡(luò)嵌入;異構(gòu)網(wǎng)絡(luò)

      中圖分類號:TP311.13 文獻標(biāo)識碼:A

      doi:10.7535/hbkd.2020yx03005

      Disambiguation method of name entities embedded in meta-path

      heterogeneous networks

      WANG Jianxia, ZHANG Yuxuan, XU Yunfeng

      (School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China)

      Abstract:

      In order to solve the problem of disambiguation of duplicate authors in large academic databases, a name entity disambiguation model based on meta-path heterogeneous network was proposed. Based on the public data of the large online academic search system DBLP, the author information, title, name of conference journal and other characteristic attributes of academic publications were extracted first. Then the characteristic attribute words generated by the word2vec model tool were embedded into the GRU network for training, so that a PHNet matrix network for random walk operation was constructed to capture the relationship between different types of nodes and finally similar nodes were divided to complete the name disambiguation. The experimental results show that the accuracy of the method is 0.865, the recall rate is 0.792, and the F1 value is 0.815.The meta-path-based heterogeneous network embedding model is superior to the comparison model in terms of accuracy and recall rate. Therefore, the proposed model has a good application prospect in improving the accuracy of disambiguation of large academic databases.

      Keywords:natural language processing; computer neural network; entity disambiguation; network embedding heterogeneous network

      現(xiàn)今,人們檢索學(xué)術(shù)論文主要依賴學(xué)術(shù)搜索引擎,如Google Scholar、百度學(xué)術(shù)、DBLP(DataBase systems and logic programming)等。這些大型學(xué)術(shù)數(shù)據(jù)庫共同面臨的一個具有挑戰(zhàn)性的問題是作者姓名的歧義消解,即通過作者的姓名來準(zhǔn)確識別現(xiàn)實世界中的人。這一問題的解決對于DBLP這樣的大型數(shù)據(jù)庫圖書館尤為重要。DBLP是Schloss Dagstuhl-Leibniz信息學(xué)中心和特里爾大學(xué)的聯(lián)合服務(wù)機構(gòu)。Schloss Dagstuhl是一家“gemeinnutzige GmbH”,是被德國法律所允許的一個非盈利慈善組織,是為了增進世界計算機科學(xué)界的學(xué)術(shù)信息交融而成立的。Schloss Dagstuhl主要進行數(shù)字方法和論文書目元數(shù)據(jù)處理等研究。DBLP在處理計算機科學(xué)數(shù)據(jù)的同時,還提供計算機學(xué)術(shù)論文所涉及到的論文作者的相關(guān)屬性。除了公共領(lǐng)域所提供的論文數(shù)據(jù)外,DBLP不會向任意第三方公開論文的私密數(shù)據(jù),并且DBLP用戶的行為也不會被系統(tǒng)跟蹤,與此同時,DBLP不會使用用戶的任何數(shù)據(jù)進行廣告宣傳。總之,DBLP就是一個僅僅提供計算機學(xué)術(shù)界科學(xué)會議和期刊論文出版記錄的大型學(xué)術(shù)數(shù)據(jù)庫。

      本文針對DBLP數(shù)據(jù)庫的重名作者消歧問題進行以下研究。

      2.1 論文信息預(yù)處理

      本文使用的DBLP數(shù)據(jù)信息包括論文的標(biāo)題、作者、出版物名稱、年份和id編號等信息。由于數(shù)據(jù)信息中存在噪音數(shù)據(jù),所以首先需要進行預(yù)處理。預(yù)處理過程依次對論文信息進行去噪處理,包括去掉特殊字符串,去掉標(biāo)點符號及特殊符號,去掉多余空格和換行符,去掉停用詞等,然后提取需要的信息歸納到一起。

      以歧義人名Bo Liu(見圖1)為例,該人名下的出版物論文為124篇,根據(jù)論文標(biāo)題的內(nèi)容可知,Bo Liu名下有研究神經(jīng)網(wǎng)絡(luò)的論文,也有研究基于圖挖掘算法等研究方向的論文,再依據(jù)organization可粗略看出,有從屬于清華大學(xué)、北京科技大學(xué)和暨南大學(xué)等的Bo Liu,甚至很多Bo Liu并未顯示其所屬研究機構(gòu)。這樣有歧義的人名,本試驗一共使用了109個,其中出版物數(shù)量最多的是Wen Gao數(shù)據(jù)集,其包含484條出版記錄。

      在預(yù)處理工作中,將109個XML格式的生數(shù)據(jù)集處理為5個TXT文件,分別為paper_author.txt,paper_author1.txt,paper_conf.txt,paper_title.txt和paper_word.txt。圖2為paper_title.txt部分文本內(nèi)容,其中包含內(nèi)容為出版物論文id以及論文標(biāo)題,其中論文標(biāo)題經(jīng)過處理,將其統(tǒng)一使用小寫字母表示,并且去掉了標(biāo)題中的多種符號。對于論文標(biāo)題的處理有助于后續(xù)生成paper_word.txt文檔,該文檔保留的內(nèi)容如圖3所示,即是論文id以及去掉預(yù)設(shè)的諸多停止詞(例如,at,based,in等)。每一詞都另起一行,與論文id成行。另外3個文檔內(nèi)容不再贅述,都是與出版物論文id的結(jié)合。

      2.2 訓(xùn)練基于GRU的編碼器學(xué)習(xí)深層語義表示

      該部分進行的是基于GRU的深度表示學(xué)習(xí),應(yīng)用gensim庫中的word2vec模型生成出版物標(biāo)題的詞嵌入,訓(xùn)練單詞向量時維數(shù)=100。嵌入向量的維數(shù)定義batch大小為128,嵌入大小為64,學(xué)習(xí)率為0.001。

      GRU即Gated Recurrent Unit,是LSTM網(wǎng)絡(luò)的一種的變體。試驗發(fā)現(xiàn)使用GRU可以使訓(xùn)練成果得到提升。

      更新門和重置門是GRU模型中僅有的2個門,具體結(jié)構(gòu)如圖4所示。

      圖4中的更新門用zt表示,重置門用rt表示。其中用于控制之前時刻的狀態(tài)信息被帶入到當(dāng)前狀態(tài)中的程度是更新門的任務(wù),這個值越大,代表前一時刻帶入的狀態(tài)信息越多。重置門的作用是調(diào)控之前狀態(tài)有多少信息被寫入到當(dāng)前的候選集t,重置門的值越小,代表之前狀態(tài)寫入的信息越少。

      根據(jù)圖4的GRU模型圖,網(wǎng)絡(luò)的前向傳播公式如式(1)—式(3)所示。

      rt=σ(Wr·[ht-1,xt]),(1)

      zt=σ(Wz·[ht-1,xt]),(2)

      t=tanh(W·[rt*ht-1,xt]) ?? 。??????????????????????? (3)

      先利用重置門控rt來獲得“重置”之后的數(shù)據(jù)ht-1·rt,再與輸入xt進行拼接,之后再經(jīng)過一個tanh激活函數(shù)來處理數(shù)據(jù),將其放縮到-1~1的范圍內(nèi)。此時的包含了輸入數(shù)據(jù)xt。式(3)對t的操作與LSTM的選擇記憶階段類似,可以理解為記憶了當(dāng)前時刻的狀態(tài)。

      在更新記憶階段,使用了式(2)得到的更新門控zt進行遺忘和記憶2個操作。更新表達式見式(4)。

      ht=(1-zt)*ht-1+zt*t。(4)

      式中:zt(門控信號)的區(qū)域是0~1,若記憶下的數(shù)據(jù)越多,則門控信號越逼近1,遺忘的數(shù)據(jù)越多則越逼近0;(1-zt)*ht-1是對原本隱藏狀態(tài)進行的選擇性遺忘;(1-zt)作為遺忘門,用來遺忘ht-1中一些不緊要的內(nèi)容;zt*t是對包含當(dāng)前節(jié)點信息的t進行選擇性“記憶”。

      yt=σ(Wo·ht)。??? (5)

      需要說明的是,[]用來代表有2個向量相連,*是Hadamard Product,代表操作矩陣中對應(yīng)的元素相乘,此時要求2個相乘矩陣是同型的,+表示矩陣加法操作的進行,σ為sigmoid函數(shù),利用sigmoid函數(shù)能夠?qū)?shù)據(jù)處理為0~1范圍內(nèi)的數(shù)值,從而來充當(dāng)門控信號。激活函數(shù)tanh能夠幫助調(diào)節(jié)流經(jīng)網(wǎng)絡(luò)的值,而且tanh函數(shù)的輸出值一直在區(qū)間(-1,1)內(nèi)。

      在輸出層中,計算loss使用的是softmax的交叉熵(labels和logits)+平均值。

      2.3 構(gòu)造一個PHNet并生成隨機游走

      使用基于元路徑的隨機游走操作來捕捉不同節(jié)點間的關(guān)系,即通過論文標(biāo)題、論文作者、論文發(fā)表期刊,構(gòu)建PHNet(異構(gòu)網(wǎng)絡(luò))矩陣。本文所構(gòu)建的異構(gòu)網(wǎng)絡(luò)中的節(jié)點類型只有論文一種,關(guān)系類型為3種(合著作者、共同標(biāo)題、共同發(fā)表期刊)。在一個PHNet中,2個論文節(jié)點之間可以通過多個無向關(guān)系進行連接,由這些無向關(guān)系連接的節(jié)點序列可以看作是從論文到論文的表述。受網(wǎng)絡(luò)嵌入DeepWalk和Metapath2Vec方法的啟發(fā),利用隨機游走策略和跳躍圖模型學(xué)習(xí)網(wǎng)絡(luò)節(jié)點表示。本文提出了一種元路徑和關(guān)系權(quán)值引導(dǎo)的隨機游走策略,用于加權(quán)異構(gòu)網(wǎng)絡(luò)上的采樣路徑。

      元路徑通過異構(gòu)關(guān)系捕獲節(jié)點間的相關(guān)性,在異構(gòu)網(wǎng)絡(luò)嵌入中得到了廣泛的應(yīng)用。本文在采樣路徑上考慮了PHNet中關(guān)系的權(quán)值,從直觀上看,兩個節(jié)點之間的關(guān)系值越大,它們之間的相似性就越大。在每一步游走中,當(dāng)游走到一個鄰居時,連接當(dāng)前節(jié)點到鄰居節(jié)點的關(guān)系值越高,就越有可能對該鄰居進行采樣。具體來說,本文依次選擇PHNet中的一個論文節(jié)點作為路徑的第一個節(jié)點,生成一個長度為100的元路徑,然后選擇最后一個節(jié)點作為另一條元路徑的第一個節(jié)點。每個隨機遞歸采樣網(wǎng)絡(luò)中的節(jié)點,都會生成一條由論文節(jié)點引導(dǎo)的長路徑,直到滿足固定長度,最后生成的結(jié)果輸入到WMRW.txt文檔中,如圖5所示。

      2.4 基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入

      當(dāng)前進行網(wǎng)絡(luò)研究應(yīng)用較多的是同構(gòu)網(wǎng)絡(luò)。若要把基于同構(gòu)信息網(wǎng)絡(luò)的方法用在異構(gòu)信息網(wǎng)絡(luò)中,需要將異構(gòu)網(wǎng)絡(luò)映射為同構(gòu)網(wǎng)絡(luò),或者忽略節(jié)點間的連接信息,只是上述這2種方法都將會產(chǎn)生信息丟失的情況。因此,直接在異構(gòu)信息網(wǎng)絡(luò)上進行數(shù)據(jù)挖掘的方法是非常必要的。由于在異構(gòu)信息網(wǎng)絡(luò)中節(jié)點的連接是通過不同的語義意義,從而提出最好充分利用異構(gòu)信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式期盼。網(wǎng)絡(luò)模式即是了解信息網(wǎng)絡(luò)的元結(jié)構(gòu),能夠?qū)W(wǎng)絡(luò)的檢索和數(shù)據(jù)挖掘進行指導(dǎo),對于分析和理解網(wǎng)絡(luò)中對象和關(guān)系的語義意義大有幫助。簡單而言,就是一種基于元路徑的方法。元路徑就是在網(wǎng)絡(luò)模式上加以定義的路徑,代表了在2個對象類型之間的關(guān)系,同時能夠定義實體之間新的或現(xiàn)存的關(guān)系。

      現(xiàn)實世界中普遍存在著異構(gòu)信息網(wǎng)絡(luò),本文選用的DBLP數(shù)據(jù)集是非常經(jīng)典的異構(gòu)網(wǎng)絡(luò),包含了4類實體:Paper,Venue,Author,Term。對于每篇論文,它都有一組4類實體的連接。此網(wǎng)絡(luò)也包含了一些論文的信息,即論文之間有論文引用的論文集合。圖6—圖8為學(xué)術(shù)網(wǎng)絡(luò)與元路徑示意圖。

      為了將異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)合并到skip-gram中,提出了在異構(gòu)網(wǎng)絡(luò)中基于元路徑的隨機游走。與傳統(tǒng)的方法相比,潛在空間表示學(xué)習(xí)的優(yōu)勢在于即使沒有連接元路徑,也能夠?qū)?jié)點之間的相似性進行建模。在嵌入時定義每次掃描的數(shù)據(jù)大小為128,嵌入向量的維數(shù)為64,上下文取得詞的個數(shù)為2,每次移動的窗口大小為1,負(fù)樣本的個數(shù)為5,定義完畢后度量當(dāng)前詞向量與其他詞向量的相似度,采用余弦定理計算,完成重名作者的歧義消解工作。

      2.5 評估結(jié)果

      評估指標(biāo)為精確度、召回率、F1值,其中精確度和召回率中對TP,TP_FP和TP_FN的定義是:TP為正確預(yù)測到同一作者的配對,TP_FP為對同一作者的預(yù)測總對數(shù),TP_FN為同一作者的總對數(shù)。

      精確度 precision=TP/TP_FP

      召回率 recall=TP/TP_FN

      F1 f1=(2*precision*recall)/(precision+recall)。

      實驗結(jié)果部分截圖如圖9、圖10所示。圖10中name一列為實驗數(shù)據(jù)集中歧義作者名,可與圖9生數(shù)據(jù)集相對照,每一個有歧義的人名歸結(jié)為一個XML文檔。

      3 實驗結(jié)果分析

      本文使用DBLP數(shù)據(jù)集進行實驗,有歧義的人名為101個,論文出版物有7 585篇,其中包含的節(jié)點特征有作者id,作者名以及出版物的詳細信息。詳細信息包含:論文標(biāo)題、出版年份、作者(論文所有的作者)、出版期刊、出版物id、作者所屬單位。因較多人的所屬單位信息為空白,所以該特征屬性在本次消歧任務(wù)中不作為側(cè)重點。本次實驗整理數(shù)據(jù)側(cè)重于利用論文標(biāo)題、作者集合、出版物期刊名稱、出版年份和id編號等特征屬性進行消歧操作。

      為了驗證本文所提出方法的消歧性能,將其與另外4種方法進行比較,這4種方法包括:DeepWalk,LINE,Node2Vec和PTE,都是目前最先進的頂點嵌入方法。為了公平起見,所有這些方法都使用相同的數(shù)據(jù)來實現(xiàn)姓名消歧。

      DeepWalk:DeepWalk是近期所提出的一種網(wǎng)絡(luò)嵌入方法。在給定論文合作關(guān)系的情況下用來捕獲與關(guān)聯(lián)文檔集合中的一對人員之間的協(xié)作,并采用均勻隨機游走的方法來獲取其鄰域的上下文信息進行文檔嵌入。

      LINE:LINE不再采用隨機游走的方法,它在圖上定義一階相似度和二階相似度,對節(jié)點的信息進行了補充,從而得到更豐富的節(jié)點嵌入。

      Node2Vec:和DeepWalk近似,Node2Vec為實現(xiàn)文檔嵌入設(shè)計了一個有偏差的隨機游走過程。

      PTE:預(yù)測性文本嵌入框架的目標(biāo)是捕獲詞-詞、詞-文檔和詞標(biāo)簽之間的關(guān)系。可是,該種方式不能捕捉文檔間的連接信息。

      表1顯示了本論文所提出的方法與對比方法在處理多個不同人名姓名歧義消除方面的性能(表1用于DBLP數(shù)據(jù)集)。在表1中,列1為需要消歧的作者姓名,第3列—第6列為各種方法的F1值。F1值表示各種方法給定姓名數(shù)據(jù)集下的消歧性能。最后一列顯示了本文所提出的方法相較于對比方法的改進水平。

      表1表明,本文方法相較于對比方法的總體改進比較大。PTE的表現(xiàn)很差,因為它沒有將相關(guān)的結(jié)構(gòu)信息整合到實驗中。DeepWalk的方法忽略了邊緣權(quán)值,這一點恰恰在異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中是非常重要的。這幾種基于嵌入的對比方法都不能利用多個網(wǎng)絡(luò)信息來處理消歧任務(wù),本論文的模型利用了這一點,提出了基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入實現(xiàn)姓名消歧的方法,這可能是該方法優(yōu)于現(xiàn)有的基于網(wǎng)絡(luò)嵌入方法的一個重要原因。

      4 結(jié) 語

      筆者提出了一個有效解決作者姓名消歧問題的框架。該框架對DBLP數(shù)據(jù)集中有待消解歧義的作者姓名的數(shù)據(jù)集進行了預(yù)處理操作,利用word2vec模型進行嵌入,再輸入到GRU網(wǎng)絡(luò)中進行訓(xùn)練,根據(jù)節(jié)點間的關(guān)系構(gòu)造了PHNET網(wǎng)絡(luò),最后基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入實現(xiàn)姓名消歧。該方法所提出的表示學(xué)習(xí)方案比其他現(xiàn)有的網(wǎng)絡(luò)嵌入方法能更有效地將屬于同名作者的文檔進行消歧處理。實驗結(jié)果驗證了該方法的可行性和有效性。

      本研究雖實現(xiàn)了預(yù)期目標(biāo),但是在組合不同類型的特征屬性(如利用文本信息的語義信息和離散特征)來學(xué)習(xí)有待消歧作者論文的有效表示方面仍有進步空間。在未來的工作中,將嘗試把此方法應(yīng)用于分布式計算系統(tǒng),進一步提高大型學(xué)術(shù)數(shù)據(jù)庫的消歧速度和效果。

      參考文獻/References:

      [1] DENG H, KING I, LYU M R. Formal models for expert finding on DBLP bibliography data[C]//Eighth IEEE International Conference on Data Mining. [S.l.]: [s.n.], 2008: 163-172.

      [2] HUANG Zhixing, YAN Yan, QIU Yuhui, et al. Exploring emergent semantic communities from DBLP bibliography database[C]//International Conference on Advances in Social Network Analysis and Mining. [S.l.]: [s.n.], 2009: 219-224.

      [3] FRANCESCHET M. Collaboration in computer science: A network science approach[J]. Journal of the American Society for Information Science and Technology, 2011, 62(10): 1992-2012.

      [4] KIM J, KIM H, DIESNER J. The impact of name ambiguity on properties of coauthorship networks[J]. Journal of Information Science Theory and Practice, 2014, 2(2): 6-15.

      [5] CAVERO J M, VELA B, CACERES P. Computer science research: More production, less productivity[J]. Scientometrics, 2014, 98(3): 2103-2111.

      [6] SHI Quan, XU Bo, XU Xiaomin, et al. Diversity of social ties in scientific collaboration networks[J]. Physica A: Statistical Mechanics and Its Applications, 2011, 390(23/24): 4627-4635.

      [7] REITZ F, HOFFMANN O. Learning from the past: An analysis of person name corrections in the DBLP collection and social network properties of affected entities[J]. Social Network Analysis and Mining, 2013,6: 427-453.

      [8] 余傳明,林奧琛,鐘韻辭,等.基于網(wǎng)絡(luò)表示學(xué)習(xí)的科研合作推薦研究[J]. 情報學(xué)報,2019,38(5):500-511.

      YU Chuanming, LIN Aochen, ZHONG Yunci, et al. Research of author name disambiguation based on network embedding[J]. Journal of the China Society for Scientific and Technical Information, 2019, 38(5): 500-511.

      [9] GARFIELD E. British quest for uniqueness versus American egocentrism[J]. Nature, 1969, 223(5207): 763-763.

      [10]LEY M. DBLP: Some lessons learned[J]. Proceedings of the VLDB Endowment, 2009, 2(2): 1493-1500.

      [11]KIM J. Evaluating author name disambiguation for digital libraries: A case of DBLP[J]. Scientometrics, 2018, 116(3): 1867-1886.

      [12]HAZIMEH H, YOUNESS I, MAKKI J, et al. Leveraging co-authorship and biographical information for author ambiguity resolution in DBLP[C]/Advanced Information Networking and Applications (AINA). [S.l.]: [s.n.], 2016: 1080-1084.

      [13]HAN H, GILES L, ZHA H, et al. Two supervised learning approaches for name disambiguation in author citations[C]//Proceedings of the 2004 Joint ACM/IEEE Conference on Digital Libraries. [S.l.]: [s.n.], 2004: 296-305.

      [14]GILES C L, ZHA H, HAN H. Name disambiguation in author citations using a K-way spectral clustering method[C]//Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'05). [S.l.]:[s.n.], 2005: 334-343.

      [15]MALIN B. Unsupervised name disambiguation via social network similarity[C]//Workshop on Link Analysis, Counterterrorism, and Security[S.l.]: [s.n.], 2005:93-102.

      [16]ZHANG Baichuan, AL-HASAN M. Name disambiguation in anonymized graphs using network embedding[C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. [S.l.]:[s.n.], 2017: 1239-1248.

      [17]PERZZI B, AL-RFOU R, SKIENA S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]:[s.n.], 2014: 701-710.

      [18]TANG Jian, QU Meng, WANG Mingzhe, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. [S.l.]: International World Wide Web Conferences Steering Committee, 2015: 1067-1077.

      [19]TANG Jian, QU Meng, MEI Qiaozhu. PTE: Predictive text embedding through large-scale heterogeneous text networks[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]:[s.n.], 2015: 1165-1174.

      [20]GROVER A, LESKOVEC J. Node2vec: Scalable feature learning for networks[J]. Knowledge Discovery and Data Mining, 2016: 855-864.

      [21]PHAM T H, PHAM X K, NGUYEN T A, et al. NNVLP: A neural network-based Vietnamese language processing toolkit[C]//International Joint Conference on Natural Language Processing. [S.l.]:[s.n.], 2017: 37-40.

      [22]WU Fangzhao, LIU Junxin, WU Chuhan, et al. Neural Chinese named entity recognition via CNN-LSTM-CRF and joint training with word segmentation[J]. The World Wide Web Conference, 2019: 3342-3348.

      [23]甄然,于佳興,趙國花,等.基于卷積神經(jīng)網(wǎng)絡(luò)的無人機識別方法仿真研究[J]. 河北科技大學(xué)學(xué)報, 2019, 40(5): 397-403.

      ZHEN Ran, YU Jiaxing, ZHAO Guohua, et al. Simulation research on UAV recognition method based on convolutional neural network[J]. Journal of Hebei University of Science and Technology, 2019, 40(5): 397-403.

      [24]紀(jì)志強,魏明,吳啟蒙,等.基于遞歸神經(jīng)網(wǎng)絡(luò)的TVS電磁脈沖響應(yīng)建模[J]. 河北科技大學(xué)學(xué)報, 2015, 36(2): 157-162.

      JI Zhiqiang, WEI Ming, WU Qimeng, et al. EMP response modeling of TVS based on the recurrent neural network[J]. Journal of Hebei University of Science and Technology, 2015,36(2): 157-162.

      收稿日期:2020-03-25;修回日期:2020-05-25;責(zé)任編輯:馮 民

      基金項目:中國留學(xué)基金委地方合作項目(201808130283);中國教育部人工智能協(xié)同育人項目(201801003011);河北科技大學(xué)校立課題(82/1182108);河北科技大學(xué)霧霾與空氣污染防治科研項目(82/1182169);河北省科技支撐計劃項目(17210104D, 18210109D);河北省高等學(xué)??茖W(xué)技術(shù)研究項目(ZD2015099);河北省高層次人才資助項目(A2016002015)

      第一作者簡介:王建霞(1970—),女,河北臨城人,教授,碩士,主要從事網(wǎng)絡(luò)與數(shù)據(jù)庫、圖像處理方面的研究。

      通訊作者:許云峰副教授。E-mail:hbkd_xyf@hebust.edu.cn

      王建霞,張玉璇,許云峰.

      基于元路徑異構(gòu)網(wǎng)絡(luò)嵌入的姓名實體消歧方法

      [J].河北科技大學(xué)學(xué)報,2020,41(3):233-241.

      WANG Jianxia, ZHANG Yuxuan, XU Yunfeng.

      Disambiguation method of name entities embedded in meta-path heterogeneous networks

      [J].Journal of Hebei University of Science and Technology,2020,41(3):233-241.

      猜你喜歡
      自然語言處理
      基于LSTM自動編碼機的短文本聚類方法
      自然語言處理與司法案例
      魅力中國(2017年24期)2017-09-15 04:35:10
      國外基于知識庫的問答系統(tǒng)相關(guān)研究進展及其啟示
      中國市場(2016年39期)2017-05-26 17:55:58
      基于依存句法的實體關(guān)系抽取
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      詞向量的語義學(xué)規(guī)范化
      漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
      拉萨市| 淮滨县| 玉田县| 河西区| 舟曲县| 丰宁| 吴忠市| 林甸县| 公安县| 湄潭县| 县级市| 固始县| 柳江县| 华宁县| 三门峡市| 新乡县| 惠州市| 开封市| 渝中区| 甘泉县| 南充市| 济宁市| 梧州市| 潢川县| 高雄县| 诸暨市| 虞城县| 吴江市| 永德县| 明光市| 吉林省| 铜陵市| 广宗县| 攀枝花市| 崇阳县| 海门市| 马公市| 林州市| 横山县| 霍州市| 崇州市|