• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)TextRank的鐵路文獻(xiàn)關(guān)鍵詞抽取算法

      2021-06-04 01:13:16趙占芳劉鵬鵬李雪山
      關(guān)鍵詞:語料復(fù)雜度權(quán)重

      趙占芳,劉鵬鵬,李雪山

      (1.河北地質(zhì)大學(xué) 信息工程學(xué)院,石家莊 050031;2.河北省光電信息與地球探測技術(shù)重點(diǎn)實(shí)驗(yàn)室,石家莊 050031; 3.中國鐵道科學(xué)研究院 科學(xué)技術(shù)信息研究所,北京 100081)

      伴隨著中國鐵路的高速發(fā)展,國內(nèi)外鐵路科技信息資源越來越豐富.但鐵路行業(yè)涉及較多專業(yè)技術(shù)領(lǐng)域,且各學(xué)科高度交叉融合,面對海量的信息資源,科研人員往往需要投入大量的時(shí)間和精力來進(jìn)行信息的檢索、篩選、翻譯、分析和內(nèi)化等工作.作為信息資源的基礎(chǔ)性建設(shè)工作,如何對鐵路科技信息資源進(jìn)行有效地組織分類并提供智能化、個(gè)性化和專業(yè)化的檢索與服務(wù),已經(jīng)成為鐵路科技工作者亟待解決的重要問題[1-2].關(guān)鍵詞自動(dòng)抽取技術(shù)是解決該問題的關(guān)鍵技術(shù)之一.關(guān)鍵詞自動(dòng)抽取是指利用計(jì)算機(jī)技術(shù)從文獻(xiàn)中抽取反映文獻(xiàn)主題的詞語[3],該技術(shù)可以為信息資源的自動(dòng)標(biāo)引、分類和智能檢索提供基礎(chǔ)元數(shù)據(jù).

      當(dāng)前,關(guān)鍵詞自動(dòng)抽取技術(shù)主要應(yīng)用基于統(tǒng)計(jì)學(xué)的方法、基于語言學(xué)的方法、基于機(jī)器學(xué)習(xí)的方法以及其他一些融合方法.基于統(tǒng)計(jì)學(xué)的方法是利用文本特征的統(tǒng)計(jì)信息進(jìn)行關(guān)鍵詞的抽取,例如詞頻[4]、詞長[5-7]、詞共現(xiàn)[8-10]、詞性及句法特征[11-13]等.基于統(tǒng)計(jì)學(xué)的方法是目前應(yīng)用較為廣泛的關(guān)鍵詞自動(dòng)抽取方法,TF-IDF(Term Frequency Inverse Document Frequency)算法[4]和TextRank算法[8]是較為經(jīng)典的算法;基于語言學(xué)的方法是從人類語言學(xué)的角度出發(fā),對文本的詞、句、段落、篇章等進(jìn)行層級分析進(jìn)而抽取文本關(guān)鍵字,例如基于詞匯鏈的方法[14-16].基于語言學(xué)的方法由于關(guān)鍵詞抽取的精確度不高,經(jīng)常與統(tǒng)計(jì)學(xué)的方法結(jié)合使用;基于機(jī)器學(xué)習(xí)的方法把關(guān)鍵詞的識別看作分類問題,這類方法需要對大規(guī)模語料進(jìn)行學(xué)習(xí),提取關(guān)鍵詞特征,構(gòu)建關(guān)鍵詞識別的分類模型.常見的算法有貝葉斯算法[17-18]、決策樹[19-20]、神經(jīng)網(wǎng)絡(luò)[21-22]和支持向量機(jī)[23-24]等.這類方法因?yàn)閷φZ料的數(shù)量和質(zhì)量要求很高,沒有被廣泛的應(yīng)用.

      基于以上研究,本文作者以鐵路行業(yè)領(lǐng)域的知網(wǎng)學(xué)術(shù)期刊資源為基礎(chǔ)語料,提出了一種融合Word2Vec模型的改進(jìn)TextRank的關(guān)鍵詞抽取方法,與經(jīng)典算法相比,該方法在性能上有一定優(yōu)勢,具有實(shí)際應(yīng)用價(jià)值,可以為鐵路行業(yè)基礎(chǔ)詞庫建設(shè)提供技術(shù)支持,為鐵路科技信息資源的智能檢索、分類標(biāo)引和知識導(dǎo)航提供基礎(chǔ)元數(shù)據(jù).

      1 Word2Vec模型

      Word2Vec是一種將詞轉(zhuǎn)化為詞向量的淺層神經(jīng)網(wǎng)絡(luò)模型,得到的詞向量是包含上下文信息的一種分布式向量表示.這種分布式的向量表示蘊(yùn)含著潛在的語義信息,具有相近的語義和語法關(guān)系的詞,訓(xùn)練所得的詞向量在向量空間中的距離就越近[25].因此,借助于詞向量相似度的計(jì)算可以判定詞匯之間的語義相似關(guān)系.

      Word2Vec包含Skip-Gram和CBOW(Continuous Bag-of-Words)兩種基本的訓(xùn)練模型.Skip-Gram模型是根據(jù)當(dāng)前詞的One-hot向量,得到上下文的詞向量概率分布,如圖1所示.CBOW模型與之相反,通過上下文的One-hot向量的輸入得到中心詞的概率分布,如圖2所示.Skim-Gram模型所需訓(xùn)練的時(shí)間要比CBOW模型要長,對于語料較大的數(shù)據(jù)計(jì)算的復(fù)雜度較高,適合數(shù)量較少的計(jì)算;CBOW模型更適合文本語料較大的運(yùn)算,并且具有較高的計(jì)算精度.

      圖1 Skip-Gram模型Fig.1 Skip-Gram model

      圖2 CBOW模型Fig.2 CBOW model

      Skip-gram模型是基于某個(gè)中心詞來生成它在文本序列中周圍的詞,假設(shè)在給定中心詞的條件下上下文背景詞的生成相互獨(dú)立,給定任意一中心詞生成所有背景詞的條件概率為

      (1)

      式中:m為上下文的窗口大小;T為文本序列的長度;W(t)為時(shí)間步t的詞.

      由圖1可以看到, Skip-gram網(wǎng)絡(luò)模型分別是:輸入層(Input Layer)、投影層(Projection Layer)、輸出層(Output Layer).其中輸入層的輸入是中心詞的One-hot向量,投影層的訓(xùn)練任務(wù)是通過最大化似然函數(shù)來學(xué)習(xí)模型參數(shù),等價(jià)于最小化的損失函數(shù),得出

      (2)

      給定中心詞生成背景詞的條件概率如下

      (3)

      式中:vi是中心詞向量表示;ui是背景詞向量表示.Skip-gram的輸出層表示成一棵二叉樹,其中葉子節(jié)點(diǎn)就是訓(xùn)練樣本中出現(xiàn)的詞,以各詞在訓(xùn)練語料中出現(xiàn)的頻次作為權(quán)值構(gòu)造Huffman樹.

      圖2中CBOW模型的假設(shè)基于某中心詞在文本序列的上下文背景詞來生成該中心詞.輸入層包含樣本W(wǎng)的上下文窗口中對應(yīng)詞的One-hot向量,即V(W(t-2)),…,V(W(t+2)):將輸入層2m個(gè)詞向量累加后求平均;輸出層同樣表示成一棵Huffman 樹.

      2 經(jīng)典TextRank算法

      TextRank算法[26]根據(jù)網(wǎng)絡(luò)圖的定義構(gòu)建詞圖G(V,E),詞語的集合為V,詞語之間的連接集合為E,計(jì)算公式如下

      T(vi)=(1-d)+d×

      (4)

      式中:T(vi)表示節(jié)點(diǎn)vi的TextRank值;d為阻尼系數(shù);I(vi)代表指向節(jié)點(diǎn)vi的節(jié)點(diǎn)集合;O(vi)是節(jié)點(diǎn)vi所指向的節(jié)點(diǎn)集合;wij指的是節(jié)點(diǎn)vi到vj之間邊的權(quán)重即轉(zhuǎn)移概率.

      TextRank算法可以僅根據(jù)文本語料自身的信息就可以得到文本的關(guān)鍵詞.但是,TextRank作為一種完全基于圖關(guān)系的分析方法,在關(guān)鍵詞抽取應(yīng)用上具有一定的缺點(diǎn):1)每個(gè)詞匯初始化權(quán)重相同,忽略了詞匯位置、詞頻及專業(yè)性等重要特征;2)詞語之間的連接權(quán)重值相同,未考慮詞語之間的語義相關(guān)關(guān)系.

      3 改進(jìn)TextRank的關(guān)鍵詞抽取算法

      本文提出一種融合Word2Vec模型的改進(jìn)TextRank的關(guān)鍵詞抽取算法,將詞頻、詞位置及外部鐵道敘詞庫信息綜合應(yīng)用于詞匯的初始化權(quán)重信息,借助于Word2Vec模型訓(xùn)練的詞匯間相似度矩陣作為TextRank算法的概率轉(zhuǎn)移矩陣,應(yīng)用于鐵路文獻(xiàn)關(guān)鍵詞的抽取.

      3.1 融合多因素特征構(gòu)建詞節(jié)點(diǎn)初始化權(quán)重

      經(jīng)典TextRank算法將每個(gè)詞匯節(jié)點(diǎn)的初始權(quán)重默認(rèn)設(shè)置為1或1/N(N為節(jié)點(diǎn)個(gè)數(shù)),再通過鄰接關(guān)系進(jìn)行迭代計(jì)算,更新節(jié)點(diǎn)的權(quán)重,在計(jì)算詞匯節(jié)點(diǎn)的權(quán)重貢獻(xiàn)時(shí)以權(quán)重均勻分配的方式向相鄰節(jié)點(diǎn)傳遞.事實(shí)上,每個(gè)詞匯節(jié)點(diǎn)的重要程度不一樣,應(yīng)該綜合多源因素,根據(jù)每個(gè)詞匯節(jié)點(diǎn)自身的重要程度不同賦予不同的值作為各自的初始權(quán)重.

      利用詞頻、詞匯位置同時(shí)結(jié)合鐵路敘詞表對詞匯節(jié)點(diǎn)的初始權(quán)重進(jìn)行加權(quán)度量,詞圖節(jié)點(diǎn)中的詞匯初始權(quán)重計(jì)算如下

      W(vi)=tf(vi)+pos(vi)+val(vi)

      (5)

      式中:W(vi)代表詞節(jié)點(diǎn)vi的初始化權(quán)重;tf(vi)表示詞vi出現(xiàn)的頻次;pos(vi)表示節(jié)點(diǎn)vi的位置權(quán)重;val(vi)表示出現(xiàn)在鐵道敘詞庫中的詞的權(quán)重.

      針對位置加權(quán),采取的方案是如果候選關(guān)鍵詞出現(xiàn)在標(biāo)題中,則給其一個(gè)權(quán)重ρ,反之為0,位置權(quán)重的設(shè)置如下

      (6)

      此外,如果候選關(guān)鍵詞在鐵道敘詞庫中出現(xiàn),則給其賦予一個(gè)大于零的權(quán)重θ,反之為0,則鐵道專有名詞的權(quán)重設(shè)置如下

      val(vi)=

      (7)

      通過以上方式計(jì)算出每個(gè)節(jié)點(diǎn)的初始權(quán)重,最后將得到的每一個(gè)節(jié)點(diǎn)的初始權(quán)重值歸一化后的結(jié)果作為最終的初始權(quán)重W′(vi).假設(shè)鐵路文本語料T經(jīng)過預(yù)處理后包含N個(gè)候選關(guān)鍵詞,即文本T所對應(yīng)的候選關(guān)鍵詞圖可由N個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)的初始值可以通過式(5)求出,最終所有節(jié)點(diǎn)的初始權(quán)重值可以用向量T0表示為

      T0=(W′(v1),W′(v2),…,W′(vn))

      (8)

      改進(jìn)后TextRank候選關(guān)鍵詞圖見圖3,A~F代表詞圖節(jié)點(diǎn),W′(A)~W′(F)代表不同節(jié)點(diǎn)的初始權(quán)重,有向邊表示節(jié)點(diǎn)間的轉(zhuǎn)移概率.

      圖3 候選關(guān)鍵詞圖示例Fig.3 Example of candidate keyword graphs

      3.2 基于Word2Vec構(gòu)造概率轉(zhuǎn)移矩陣

      經(jīng)典的TextRank模型是一種無向加權(quán)圖,圖中詞匯節(jié)點(diǎn)之間的邊的權(quán)值都是相等的,即詞圖模型中每條邊都是以等概率的方式進(jìn)行節(jié)點(diǎn)間的權(quán)重傳遞,無法體現(xiàn)出詞圖模型中相連詞節(jié)點(diǎn)之間關(guān)系的差異.Word2Vec模型能將詞映射到低維的向量空間中并能體現(xiàn)出詞匯之間潛在的語義相似度信息,因此可以將Word2Vec訓(xùn)練得到的詞間相似度作為詞圖節(jié)點(diǎn)之間邊的權(quán)值,即轉(zhuǎn)移概率.

      假設(shè)預(yù)處理后的文檔是由N個(gè)候選關(guān)鍵詞組成的詞匯集合T=[v1,v2,…vN],那么詞間相似度的計(jì)算如下

      (9)

      (10)

      式中:Sij表示節(jié)點(diǎn)vi與節(jié)點(diǎn)vj之間的相似度;M為詞節(jié)點(diǎn)間的相似度矩陣.當(dāng)詞圖模型中兩個(gè)詞之間的相似度越大,表明詞間相關(guān)性就越強(qiáng),權(quán)重傳遞到與之相連的詞節(jié)點(diǎn)的概率也就越大.最后,TextRank的迭代計(jì)算如下

      Ti=(1-d)T0+d×M×Ti-1

      (11)

      式中:d為阻尼系數(shù),通常取值為0.85;Ti為通過 TextRank 算法迭代計(jì)算得到的權(quán)重值.

      3.3 TextRank的關(guān)鍵詞抽取算法

      1)語料預(yù)處理.

      利用Jieba分詞工具,并引入鐵路核心詞庫作為自定義詞典對N篇語料文檔進(jìn)行分詞,過濾停用詞,獲得詞匯集(V1,V2,…,VN),每一個(gè)詞匯集Vi對應(yīng)一篇文檔,詞匯集的并集得到語料詞典D.

      2)構(gòu)建詞圖并初始化詞匯節(jié)點(diǎn)權(quán)重.

      基于語料的上下文關(guān)系建立詞圖節(jié)點(diǎn)間的連接關(guān)系,根據(jù)詞頻、詞位置以及鐵路敘詞表計(jì)算每個(gè)詞匯節(jié)點(diǎn)權(quán)重的加權(quán)和,即初始化節(jié)點(diǎn)的權(quán)重.

      3)構(gòu)建概率轉(zhuǎn)移矩陣.

      針對預(yù)處理后得到的語料詞典D,利用Word2Vec模型進(jìn)行文本訓(xùn)練得到詞匯的向量表征,通過余弦相似度計(jì)算得到詞匯間的相似度關(guān)聯(lián)關(guān)系,將其作為詞匯間的轉(zhuǎn)移概率.在語料D中訓(xùn)練所得的相似度矩陣作為TextRank算法概率轉(zhuǎn)移矩陣,即初始化詞間關(guān)系權(quán)重.

      4)迭代計(jì)算每個(gè)詞匯節(jié)點(diǎn)的TextRank值.

      針對詞圖中每一個(gè)詞匯節(jié)點(diǎn)分別迭代計(jì)算TextRank值.

      5)抽取關(guān)鍵詞.

      對詞圖中每個(gè)詞匯節(jié)點(diǎn)的TextRank值進(jìn)行排序,輸出前N個(gè)最大的值所對應(yīng)的詞作為最終抽取的關(guān)鍵詞.

      3.4 時(shí)間復(fù)雜度分析

      假設(shè)共有m篇文檔,每篇文檔有n個(gè)候選關(guān)鍵詞.在本次實(shí)驗(yàn)中TF-IDF算法的時(shí)間復(fù)雜度主要體現(xiàn)在對每篇文檔每個(gè)詞的TF-IDF值的計(jì)算上,其時(shí)間復(fù)雜度為O(m×n).TextRank算法抽取關(guān)鍵詞的時(shí)間復(fù)雜度主要體現(xiàn)在轉(zhuǎn)移概率矩陣的構(gòu)建上,其時(shí)間復(fù)雜度為O(n2).改進(jìn)算法在原始的TextRank的基礎(chǔ)之上增加了Word2Vec模型訓(xùn)練以及初始權(quán)重的設(shè)置,訓(xùn)練部分采用CBOW模型結(jié)合Hierarchical Softmax的訓(xùn)練方式,該過程的復(fù)雜度為O(logV),V代表語料詞庫詞典的規(guī)模,此時(shí)V=m×n;初始權(quán)重設(shè)置過程的時(shí)間復(fù)雜度為O(n),因此,改進(jìn)的算法相較于TextRank的時(shí)間復(fù)雜度為O(n2)+O(log(mn))+O(n),其時(shí)間復(fù)雜度依然為O(n2),所以改進(jìn)的算法沒有明顯提高復(fù)雜度.

      由于TF-IDF算法需構(gòu)建語料庫,該過程因不斷用到字符串查找匹配及讀取等操作需大量時(shí)間消耗,雖然計(jì)算速度較快,但復(fù)雜度較高,TextRank算法的時(shí)間復(fù)雜度主要體現(xiàn)在概率轉(zhuǎn)移矩陣的構(gòu)建和迭代計(jì)算的過程中,對于較長文本來說,兩者的復(fù)雜度可能比較接近.改進(jìn)的算法利用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練出詞向量,從語義的角度上改善TextRank的概率轉(zhuǎn)移矩陣并結(jié)合詞節(jié)點(diǎn)本身的特征改變節(jié)點(diǎn)的初始權(quán)重設(shè)置,明顯提高了關(guān)鍵詞抽取的準(zhǔn)確率、召回率以及F:值,但時(shí)間復(fù)雜度沒有改善.

      4 實(shí)驗(yàn)與分析

      4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

      實(shí)驗(yàn)使用的語料來源于中國知網(wǎng)學(xué)術(shù)期刊中鐵路行業(yè)領(lǐng)域的中文文獻(xiàn),從中選取了31 547篇文獻(xiàn)作為本次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù),首先對31 547篇語料進(jìn)行預(yù)處理得到詞匯集文本D,然后利用Word2Vec模型訓(xùn)練預(yù)處理后的文本語料D得到語料中詞匯的向量表征,隨機(jī)抽取1 000篇語料測試關(guān)鍵詞抽取的效果.

      Word2Vec模型的訓(xùn)練及實(shí)驗(yàn)測試的整個(gè)流程在騰訊云上部署,GPU為Intel Xeon Skylake 6133(2.5 GHz),內(nèi)存為40 G.本文算法基于Python 3.7實(shí)現(xiàn),采用Jieba分詞模塊,訓(xùn)練詞向量采用Gensim 庫的Word2Vec 模塊訓(xùn)練候選關(guān)鍵詞語料.本實(shí)驗(yàn)Word2Vec模型初始化的主要輸入?yún)?shù):size=100,window=8, min_count=1,sg=0,hs=1,其中size是詞向量維度,window是上下文窗口大小,sg=0則采用CBOW算法,hs=1代表采用Hierarchical Softmax技巧加速訓(xùn)練.

      將文本語料通過分詞以及去停用詞等預(yù)處理操作后得到訓(xùn)練語料,將訓(xùn)練語料輸入到Word2Vec模型中進(jìn)行訓(xùn)練,Word2Vec模型可以將輸入的經(jīng)過預(yù)處理的文本嵌入到向量空間中,從而輸出訓(xùn)練后的文本中每個(gè)詞的詞向量,本次實(shí)驗(yàn)訓(xùn)練詞向量共計(jì)耗時(shí)4 h17 min,最終得到訓(xùn)練后的詞向量文件,然后基于詞圖模型中相連節(jié)點(diǎn)之間的詞間相似度構(gòu)建概率轉(zhuǎn)移矩陣.截取詞的部分向量如下

      地鐵車站 -0.00042947268 0.0017898704 0.0007452105 -0.0016284916…

      城市軌道交通 0.003786283 0.0028316667 -0.00455604 -0.0024452142…

      地下連續(xù)墻 0.0010942959 -0.0018053391 0.0013831913 -0.004778044…

      盾構(gòu)隧道 -0.00082359917 -0.004505363 -0.002531063 -0.00094276527…

      圍護(hù)結(jié)構(gòu) -0.0041449596 -0.00023882258 -0.004767135 -0.0033635767…

      4.2 評判標(biāo)準(zhǔn)

      本實(shí)驗(yàn)用平均準(zhǔn)確率P,平均召回率R及平均F值3個(gè)指標(biāo)來評估關(guān)鍵詞抽取的效果,因F值可綜合反映準(zhǔn)確率和召回率的效果,因此以F值作為最終的評判標(biāo)準(zhǔn),3種指標(biāo)的計(jì)算公式如下

      (12)

      (13)

      (14)

      式中:xi表示第i篇文獻(xiàn)通過算法提取出來的關(guān)鍵詞集合;yi表示第i篇文獻(xiàn)人工標(biāo)記的關(guān)鍵詞集合;N代表算法測試的文本數(shù)量,在本實(shí)驗(yàn)中N=1 000.

      4.3 實(shí)驗(yàn)參數(shù)確定

      由于F值是綜合反映準(zhǔn)確率與召回率的指標(biāo),因此本文通過F值來反映實(shí)驗(yàn)效果進(jìn)而根據(jù)實(shí)驗(yàn)效果來確定ρ和θ的取值,當(dāng)設(shè)置式(5)中val(vi)=0,關(guān)鍵詞抽取數(shù)量為5時(shí)研究ρ的取值,通過大量實(shí)驗(yàn)測試數(shù)據(jù)得出當(dāng)ρ取值為11時(shí)F值達(dá)到最大的0.427,當(dāng)ρ取值大于11時(shí),不同的取值對F值的影響基本趨于一致.圖4(a)展示了抽取關(guān)鍵詞個(gè)數(shù)為5時(shí),F(xiàn)值隨參數(shù)ρ的變化趨勢.在此基礎(chǔ)之上,以同樣的方式來研究參數(shù)θ的取值,當(dāng)參數(shù)θ=16時(shí),F(xiàn)值得到最大0.448,當(dāng)θ的取值超過16之后,不同的取值對F值的影響也基本趨于一致.圖4(b)展示了抽取關(guān)鍵詞個(gè)數(shù)為5時(shí)F值隨參數(shù)θ的變化趨勢.抽取關(guān)鍵詞個(gè)數(shù)為3和7時(shí),實(shí)驗(yàn)效果基本一致,因此,本次實(shí)驗(yàn)的權(quán)重參數(shù)選取ρ=11,θ=16.

      圖4 關(guān)鍵詞個(gè)數(shù)為5時(shí)F值隨不同參數(shù)的變化趨勢Fig.4 Changes trend of F value with different parameters when the number of keywords is 5

      4.4 實(shí)驗(yàn)結(jié)果與分析

      TF-IDF和TextRank算法是關(guān)鍵詞抽取的經(jīng)典算法,本實(shí)驗(yàn)將所提出的改進(jìn)算法與這兩種經(jīng)典算法做了對比實(shí)驗(yàn),在部署的騰訊云上對1 000篇測試語料進(jìn)行關(guān)鍵詞抽取.當(dāng)設(shè)置關(guān)鍵詞抽取的數(shù)量為3、5、7時(shí),計(jì)算各算法的平均準(zhǔn)確率、平均召回率和F值,評價(jià)指標(biāo)的對比結(jié)果如表1所示.

      表1 關(guān)鍵詞抽取的3種算法的評價(jià)指標(biāo)對比Tab.1 Evaluation indexes comparisons of three algorithms of keyword extraction

      從表1可以看出,針對鐵路運(yùn)輸領(lǐng)域的測試語料進(jìn)行關(guān)鍵詞的抽取實(shí)驗(yàn),本文所提出的融合Word2Vec模型的改進(jìn)TextRank的關(guān)鍵詞抽取算法在準(zhǔn)確率,召回率和F 值上均明顯優(yōu)于經(jīng)典的 TextRank 算法和TF-IDF算法.在本實(shí)驗(yàn)中關(guān)鍵詞抽取個(gè)數(shù)為5時(shí),改進(jìn)的算法F值最大,實(shí)驗(yàn)效果達(dá)到最佳.

      本文所提出的改進(jìn)算法能夠得到較好的關(guān)鍵詞抽取效果的原因是:1)在語料預(yù)處理階段,使用Jieba工具時(shí),引用鐵路核心詞庫作為自定義詞典對文檔進(jìn)行分詞,避免了分詞結(jié)果的粒度過細(xì),保證了分詞結(jié)果中詞匯的專業(yè)性特征;2)詞頻代表詞匯在文檔中出現(xiàn)的頻次,出現(xiàn)次數(shù)越多的詞匯其重要性也越大,出現(xiàn)在文檔標(biāo)題部分的詞匯相對更重要,鐵道敘詞庫中的詞匯表明了詞匯的專業(yè)性.所提出的改進(jìn)算法綜合考量了詞頻、詞位置和鐵道敘詞庫等因素,對詞匯節(jié)點(diǎn)的權(quán)重進(jìn)行了加權(quán)求和并初始化,對提升關(guān)鍵詞抽取的準(zhǔn)確性有積極意義;3)利用Word2Vec訓(xùn)練詞匯向量,既考慮了詞匯之間在文本中的相對位置關(guān)系,還保留了詞匯之間的語義相關(guān)關(guān)系,利用詞匯間的相似度距離作為詞匯之間的轉(zhuǎn)移概率,充分考慮了詞匯之間的關(guān)聯(lián)關(guān)系.

      5 結(jié)論

      1)提出了一種融合Word2Vec模型的改進(jìn)TextRank的關(guān)鍵詞抽取算法,該算法不僅考慮了詞匯出現(xiàn)的頻次、位置信息,還考慮了詞匯在鐵路專業(yè)領(lǐng)域的專業(yè)性、文本的上下文信息及語義相似度.

      2)所提出的算法應(yīng)用于鐵路運(yùn)輸類文獻(xiàn)語料的關(guān)鍵詞抽取上,與經(jīng)典的TF-IDF和TextRank算法相比,在準(zhǔn)確率、召回率和F值的性能評價(jià)上均有明顯的優(yōu)勢,具有實(shí)際的應(yīng)用價(jià)值.

      鐵路行業(yè)基礎(chǔ)詞庫可以為海量的鐵路科技信息資源的使用提供有效的知識組織工具.將關(guān)鍵詞的自動(dòng)抽取技術(shù)應(yīng)用于鐵路行業(yè)基礎(chǔ)詞庫建設(shè),應(yīng)用于鐵路文獻(xiàn)的自動(dòng)標(biāo)引分類,為鐵路科技信息資源的智能化管理和應(yīng)用提供新手段是本研究下一步的主要工作.

      猜你喜歡
      語料復(fù)雜度權(quán)重
      權(quán)重常思“浮名輕”
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      求圖上廣探樹的時(shí)間復(fù)雜度
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      出口技術(shù)復(fù)雜度研究回顧與評述
      《苗防備覽》中的湘西語料
      玛纳斯县| 凤山市| 济宁市| 辽阳县| 张掖市| 四川省| 安吉县| 淳安县| 蓝山县| 云霄县| 靖远县| 乳山市| 鄂伦春自治旗| 长治县| 黄石市| 阜城县| 东阳市| 黎平县| 应城市| 桐城市| 南丹县| 丹江口市| 广德县| 宝应县| 保德县| 利川市| 县级市| 沽源县| 锡林浩特市| 绵竹市| 高淳县| 陵水| 乌兰县| 镇远县| 辽源市| 浦城县| 昌黎县| 车致| 上虞市| 东兴市| 泊头市|