• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進LDA模型的鐵路領域主題發(fā)現(xiàn)研究*

      2022-04-14 02:00:10龍藝璇安源王東晉翟夏普伊惠芳
      數(shù)字圖書館論壇 2022年2期
      關鍵詞:短語語義鐵路

      龍藝璇 安源 王東晉 翟夏普 伊惠芳

      (1. 中國鐵道科學研究院科學技術信息研究所,北京 100081;2. 中國科學院文獻情報中心,北京 100190)

      “千古百業(yè)興,先行在交通?!敝袊F路營業(yè)里程從1949年時僅有2.18萬公里到2021年底突破15萬公里[1],中國鐵路已然成為中國走向世界的亮麗名片。中國鐵路取得舉世矚目成就的背后,離不開科研人員的努力和科研成果的支撐。如今,鐵路領域科研成果數(shù)量與日俱增,科研成果類型百花齊放。面對海量的多源異構鐵路領域科研成果資源,如何在短時間內對科研成果內容開展有效遴選,成為鐵路科研人員亟待解決的重要問題。

      在科學學視角下,主題的內涵包含兩個層面:一是單篇科技文獻中的主題思想,二是某學科領域下多篇科技文獻的總體研究方向。從主題的表現(xiàn)形式來看,主題由可以表征主題語義的主題詞或主題短語構成[2]。本文探討的主題為第二種,即某學科領域下的主要研究方向,并聚焦于鐵路領域。主題發(fā)現(xiàn)可以實現(xiàn)從海量的文本中抽取主要語義內容,有助于科研知識的梳理與歸納。當前已有眾多學者嘗試利用主題發(fā)現(xiàn)算法開展特定科研領域的主題發(fā)現(xiàn)研究[3-5]。本文通過調研得知,相較于傳統(tǒng)的文獻計量方法,以LDA(Latent Dirichlet Allocation)主題模型為代表的主題發(fā)現(xiàn)算法因其能深入文本內容、適應大規(guī)模文本分析、支持計算主題之間的相關關系等優(yōu)勢,成為主題發(fā)現(xiàn)的主流算法[6]。不過傳統(tǒng)的LDA主題模型基于詞袋(bag of words)模型實現(xiàn),即假設所有的單詞都是相互獨立的,由于鐵路行業(yè)技術化程度高、專業(yè)交叉屬性強、科研成果類型豐富,使得鐵路領域科研成果呈現(xiàn)多源異構及多單詞短語居多等特點[7],這就極大地限制了傳統(tǒng)LDA主題模型在鐵路領域科研成果主題發(fā)現(xiàn)上的應用。

      基于此,本文從鐵路領域科研成果特點出發(fā),在傳統(tǒng)LDA主題模型基礎上,提出一種適用于英文文獻的LDA模型改進算法。該算法與傳統(tǒng)LDA算法相比,能夠提升多單詞短語的識別效果,增加主題發(fā)現(xiàn)結果的可解釋性和可識別性,最終實現(xiàn)鐵路領域海量科研成果數(shù)據(jù)的語義內容分析,為科研人員快速遴選科研內容以及提高科研工作效率提供支持。

      1 主題發(fā)現(xiàn)相關理論及方法

      1.1 主題發(fā)現(xiàn)方法

      主題發(fā)現(xiàn)(topic discovery)又被稱為主題識別,指利用一系列語義理解方法,從復雜的大規(guī)模信息源中抽取關鍵詞或術語,并在此基礎上加以聚類,從而發(fā)現(xiàn)文獻主題的技術方法,旨在處理和分析大規(guī)模信息并且使用戶以快速有效的方式了解信息內容,發(fā)現(xiàn)信息中的主題[8]。

      目前,主題發(fā)現(xiàn)主要有基于文獻計量的方法和基于文本挖掘的方法兩大類。文獻計量分析是科學學和情報學領域的重要研究方法,基于文獻計量的主題發(fā)現(xiàn)方法依靠文獻引證、關鍵詞等文獻特征,采用引文網(wǎng)絡聚類、詞頻分析、共詞分析等方法開展主題挖掘研究,以期為研究前沿發(fā)現(xiàn)、技術機會識別、學科領域演化、研究趨勢歸納等研究提供方法支持。這類主題發(fā)現(xiàn)方法計算成本普遍較低,且方法相對成熟,但普遍存在語義表示匱乏、主題之間關系無法揭示等缺點,不利于主題內容的解讀與領域知識內容的分析。隨著計算機技術逐漸滲透各個學科,加之文獻數(shù)量急劇增加,近年來以文本聚類、主題模型為代表的文本挖掘方法開始應用于主題發(fā)現(xiàn),為主題發(fā)現(xiàn)研究提供了新思路與新方法?;谖谋就诰虻闹黝}發(fā)現(xiàn)方法的優(yōu)勢在于能夠深入文本內容揭示主題,但基于文本聚類的方法仍處于探索階段,文本特征提取和聚類方法仍需進一步完善。目前,主題模型已成為基于文本挖掘主題發(fā)現(xiàn)領域的主流方法,近年來已有眾多學者嘗試利用主題模型開展主題發(fā)現(xiàn)研究,例如:Fang等[9]采用LDA模型從圖書館領域文獻摘要中提取潛在主題,然后對文檔-主題進行回歸分析,并區(qū)分出冷門研究主題和熱門研究主題;王曰芬等[10]采用LDA模型以國內知識流領域為例,多維度對比該領域全局主題和學科主題的差異性。

      1.2 主題模型

      主題模型是一種語言模型,可以發(fā)現(xiàn)一系列文檔中隱藏的主題信息,最終實現(xiàn)文本語義層面的挖掘。應用主題模型可以快速掃描大數(shù)據(jù)量文本,協(xié)助研究人員理解文本內容,迅速掌握文本內容重點。目前主題模型已經(jīng)廣泛應用到文本聚類[11]、主題演化[12]等眾多研究中。從主題模型的原理來看,可以將其視為一種生成概率模型,其基本思想可以總結為:每一篇文檔都可以看作多個主題構成的概率分布,而每一個主題都可以看作多個主題特征詞構成的概率分布[13]。1999年,Hofmann[14]提出PLSA(Probabilistic Latent Semantic Analysis)主題模型,開啟了文本分析領域主題挖掘新篇章。目前最具有代表性的主題模型是Blei等[15]提出的LDA模型。

      2 LDA主題模型的改進

      隨著LDA主題模型在主題發(fā)現(xiàn)領域的廣泛應用,有學者發(fā)現(xiàn)LDA主題模型的識別結果在語義可解釋性上仍存在很大提升空間[16]。這是因為LDA主題模型依賴詞袋模型實現(xiàn),即假設所有的單詞都是相互獨立的,而在許多文本挖掘任務開展過程中,語序和短語往往是捕獲文本語義的關鍵,不但對于句法分析很重要,而且對于單詞語義同樣重要,一個短語的語義遠遠超越了單一單詞[17]。本文聚焦的鐵路領域正是傳統(tǒng)LDA主題模型使用受限的典型領域,多單詞短語形式表現(xiàn)的科研術語占比多。以機電系統(tǒng)(electromechanical system)為例,主要研究方向包含信號通信系統(tǒng)(signal communication system)、控制系統(tǒng)設備(control system equipment)、牽引供電系統(tǒng)設備(traction power supply system equipment)、車站設備(station equipment)、監(jiān)控設備(monitoring equipment)等,因此語序與短語對于鐵路領域科研成果的內容表示至關重要。

      經(jīng)調研,目前國內外學者在LDA主題模型基礎上開展語義優(yōu)化方面的改進模型主要有LDA Collocation模型[18]、PhraseLDA模型[19-20]和Chunk-LDAvis模型[17],現(xiàn)有模型的改進體現(xiàn)出兩種思路:一是在預處理階段開展短語抽取研究,之后采用LDA主題模型對詞組進行建模:二是主題模型構建完成后再對主題詞進一步豐富語義。筆者認為,兩種改進思路均有可取之處,且可以互為補充。第一種思路在預處理階段抽取短語,可以盡可能將原有語序信息保留;第二種思路可以解決主題詞中短語占比較低問題,進一步擴充語義。因此,筆者嘗試從這兩個角度同時對LDA主題模型進行改進,充分擴充其主題發(fā)現(xiàn)結果的語義內涵,具體算法流程如圖1所示。

      圖1 改進LDA模型算法流程

      (1)深度預處理。在構建LDA主題模型前需要對文本進行預處理。除了進行常規(guī)的特殊字符剔除、分詞、詞性標注、詞形還原、去停用詞等,還基于Python語言nltk自然語言處理庫中的pos_tag對文獻標題和摘要進行詞性標注,標注的詞性包含名詞(NN)、動詞(VB)、形容詞(JJ)、副詞(RB)、介詞或從屬連詞(IN)、連詞(CC)和感嘆詞(UH)。再根據(jù)詞性標注結果在語料中抽取其中的名詞短語、動詞短語、名詞和動詞。

      (2)LDA主題模型。對文檔進行LDA主題識別后,計算每一個文檔所屬概率最大的主題,將其標識為該文檔所屬主題。按照所屬主題對文檔進行分類,同一主題的文檔劃分為一組,作為該主題下主題詞擴充的語料來源。

      (3)TextRank算法抽取關鍵詞。目前文本關鍵詞抽取算法主要有TF-IDF算法和TextRank算法。兩者的區(qū)別在于以下3點。①從時間復雜度來看,TF-IDF算法在開始運算之前需要構建一個語料庫,在之后的統(tǒng)計過程中還需要在已構建的語料庫中進行讀取操作,這些步驟的時間代價比較高;TextRank算法的時間主要花費在迭代算法的計算上,因此當文本數(shù)據(jù)量較小時,TextRank算法的時間復雜度應更低一些,而當文本數(shù)據(jù)量特別大時,兩者差距不大。②從空間復雜度來看,TF-IDF算法主要集中在語料庫對空間的需求;對于TextRank算法來說,主要集中在圖鏈接矩陣的存儲,但相比較而言,TF-IDF算法對內存的要求更高一些。③從語義復雜度來看,TF-IDF在計算的過程中沒有考慮文檔中詞間的關聯(lián)性,僅基于單詞出現(xiàn)的次數(shù)計算,而TextRank算法在構建有向加權圖時考慮了詞間的關聯(lián)性?;谝陨戏治觯褂肨extRank算法對每一主題下的擴充語料抽取其關鍵詞,并按照關鍵詞權重降序排列。

      (4)PMI算法抽取關鍵詞組塊。使用TextRank算法抽取某主題下的關鍵詞之后,為了擴展主題詞語義信息,需要考慮關鍵詞之間的相關性,因此提出關鍵詞組塊的概念,即關聯(lián)程度密切的關鍵詞。在信息論中,互信息(NMI)是對信號之間關聯(lián)程度的描述[21]。PMI正是從互信息中衍生而來。PMI從統(tǒng)計的角度出發(fā),通過計算詞語之間的共現(xiàn)次數(shù),得出詞語之間的相關性,即統(tǒng)計兩個關鍵詞在文本中同時出現(xiàn)的概率,如果概率越大,其相關性就越高,關聯(lián)度也越高。通過PMI算法計算詞語之間的相關性,可以找到與關鍵詞最相關的組塊,相比于單詞而言,關鍵詞組塊包含的語義信息會更加豐富。因此,用PMI算法計算結果中最大概率的關鍵詞組塊替換相應主題下的主題詞,可以提高主題發(fā)現(xiàn)結果的可解釋性與可識別性。

      3 改進LDA模型在鐵路領域主題發(fā)現(xiàn)中的應用

      3.1 數(shù)據(jù)獲取與實驗條件

      本文從Web of Science核心合集(以下簡稱WoS核心合集)中獲取相關實驗數(shù)據(jù),并選擇“牽引供電系統(tǒng)”(traction power supply system)研究方向開展實證研究。牽引供電系統(tǒng)可以將地方電網(wǎng)中的電能源源不斷地輸送至動車組,為動車組的高速運行持續(xù)提供強大電能,其安全性與穩(wěn)定性是動車組運行的重要保障。鐵路牽引供電系統(tǒng)主要包含三部分,分別是牽引變電所、自耦所和牽引網(wǎng),其設計與實現(xiàn)離不開材料科學與工程、計算機科學與技術、電氣工程、交通運輸工程等多學科的交叉融合,技術性強、精度要求高、結構復雜、專業(yè)性明顯,是鐵路領域重要的研究方向。因此,通過主題發(fā)現(xiàn)研究協(xié)助科研人員及時梳理牽引供電系統(tǒng)的研究進展,把握牽引供電系統(tǒng)的研究主題具有重要意義。

      依托中國鐵道科學研究院,在鐵路領域相關研究方向專家的指導下,構建英文檢索式。由于WoS核心合集類別中未將“鐵路”相關研究單獨列為一個研究領域,因此以“traction power supply”為主題詞進行英文文獻檢索,檢索時間限定為2017—2021年,文獻類型選擇“paper”,再請相關研究方向專家人工對檢索結果進行篩選,剔除與鐵路領域不相關的文獻,最終得到774條檢索結果。

      實驗基于Window10系統(tǒng),內存為16GB,處理器為X64。經(jīng)典LDA算法選擇的Python3版本下第三方模塊LDA工具包,具體運行時LDA主題模型的參數(shù)設定為alpha(document—topic associations)=50/k,beta(topic—term associations)=0.01,5 000次迭代,其中k代表設定語料庫中的最優(yōu)主題個數(shù)。關于最優(yōu)主題個數(shù)的選取,選擇Perplexity-Var指標,該指標將主題相似度與困惑度相結合,使用JS散度表征主題相似度,并將相似度視為隨機變量,引入隨機變量方法作為主題抽取結果差異性與穩(wěn)定性的評判依據(jù)[22],改善了困惑度指標數(shù)目偏大、辨識度不高的缺陷[23]。

      3.2 實驗過程

      第一,將WoS核心合集中獲取的數(shù)據(jù)導入MySQL數(shù)據(jù)庫,利用中英文標題、摘要和關鍵詞開展深度預處理,抽取其中的名詞短語、動詞短語、名詞和動詞。

      第二,利用傳統(tǒng)LDA主題模型對2017—2021年時間窗內深度預處理后的數(shù)據(jù)進行建模,根據(jù)Perplexity-Var指標,最優(yōu)主題個數(shù)確定為10。

      第三,對建模后的數(shù)據(jù)開展語義擴充。使用PMI算法和TextRank算法融合處理,成功抽取出共同出現(xiàn)頻率高且相對重要的詞語組塊,按照PMI值降序排列,與原有主題詞對比后替換,實現(xiàn)關鍵詞組塊對主題詞擴充。由于篇幅有限,下文實驗結果部分僅列出語義擴充后主題強度排名前三的主題,對比主題語義擴充前后主題詞變化,展示改進LDA模型主題發(fā)現(xiàn)結果的可解釋性與可識別性的優(yōu)越性。主題強度主要描述主題在某時間窗口中的活躍程度。在同一時間窗口中主題強度值越大,說明主題熱度越高,受到的關注程度越高。主題強度計算參考任智軍等[24]在2015年提出的算法,該算法已被業(yè)內學者認可并廣泛應用[25]。

      3.3 實驗結果與分析

      為更清晰地展示改進LDA主題模型與傳統(tǒng)LDA主題模型建模結果的不同,本文以表格形式展示建模結果(見表1)。

      表1 兩種主題模型對比結果(主題強度排名前三)

      表1中,右側展示的為采用改進LDA主題模型進行語義擴充后的關鍵詞組塊,可見經(jīng)語義擴充后,語義信息明顯更加豐富。T0中,左側表格根據(jù)“traction power system”“energy conservation”“renewable energy”等主題詞確定該研究方向主要內容為鐵路領域牽引供電系統(tǒng)環(huán)保相關研究,但難以聚焦到具體研究方向,在右側表格中“energy efficiency”“regenerative braking energy”“energy management”“l(fā)oad modeling”等新增關鍵詞組塊,可以進一步將研究方向集中在通過再生制動能量的充分利用以及新興復合材料嘗試等方式開展牽引供電系統(tǒng)的能源效率研究,具體主要包括制動儲能控制、能量評估方法研究、再生制動仿真建模研究等研究內容;T4中,左側表格根據(jù)“traction power supply system”“power quality”“electric railway”等主題詞確定該研究方向主要內容為鐵路領域牽引供電系統(tǒng)電能質量研究,但主題詞描述相對模糊,在右側表格中“harmonic resonance”“power system harmonics”“power harmonic filter”“reactive power compensation”等新增關鍵詞組塊,將研究方向進一步集中于無功、諧波、負序和末端電壓偏低等4類電能質量問題,由于電氣化鐵路的單相獨立不對稱性、負載電流隨機波動性、諧波的頻譜分布廣等特點,負序、諧波問題影響也日益嚴重,從而影響到電力系統(tǒng)公共電網(wǎng)。無源和有源電力濾波器的應用研究用以諧波治理,其中SVG控制無功補償、APF控制諧波補償,在交流牽引網(wǎng)中逐步使用SVG來兼顧低次諧波的治理;T7中,左側表格根據(jù)“rail transportation”“traction power supply system”“fault”等主題詞確定該研究方向總結為鐵路領域牽引供電系統(tǒng)故障處理研究,而在右側表格中,根據(jù)擴充的“mathematical model”“fault diagnosis”“traction transformer”“catenary fault”等關鍵詞組塊,可以將研究內容進一步鎖定在牽引變壓器、接觸網(wǎng)故障、牽引電機故障等,此外,采用數(shù)學模型或仿真模型針對牽引供電系統(tǒng)故障分析屬于故障定位分析的主要途徑。通過以上分析,可以證明本文提出的主題模型改進方法對鐵路領域文本數(shù)據(jù)的主題發(fā)現(xiàn)有較為明顯的提升作用。

      3.4 實驗結果驗證

      本文主要采取了主觀與客觀兩種實驗驗證方式。首先,本文依托中國鐵道科學研究院,采用專家驗證方式,咨詢機車車輛研究所牽引供電系統(tǒng)相關研究專家對于本文主題發(fā)現(xiàn)結果的指導意見。專家認可本文提出的改進LDA主題模型在提升主題發(fā)現(xiàn)語義時發(fā)揮的積極作用,認為該算法相比較于傳統(tǒng)的LDA主題模型發(fā)現(xiàn)結果,更為準確地總結了國際上牽引供電系統(tǒng)的主要研究方向,并相對明確地指出了每個方向的主要研究突破點,同時提出增加可視化效果等未來工作指導。此外,本文通過將2017—2021年鐵路領域牽引供電系統(tǒng)研究方向下WoS核心合集所有科技文獻數(shù)據(jù)導入VOSviewer軟件,依據(jù)共現(xiàn)關系,構建關鍵詞共詞網(wǎng)絡,自動生成“Network Visualization”,通過調整“Attraction”參數(shù)為1,“Repulsion”參數(shù)為0,“Resolution”參數(shù)為0.7,最終得出界限較為清晰的3個關鍵詞聚類簇。通過與本文提出的改進LDA主題模型的主題發(fā)現(xiàn)結果對比,關鍵詞聚類結果與本文改進LDA主題模型建模后得出的主題強度排名前三的主題基本吻合。其中,關鍵詞類1根據(jù)“traction power supplies”“energy management”“energy storge system”等關鍵詞可以得出與T0內容基本一致,均為鐵路領域牽引供電系統(tǒng)能源節(jié)約環(huán)保相關研究;關鍵詞類2根據(jù)“power quality”“harmonics”“electrified railway”等關鍵詞可以得出與T4內容相符,均為鐵路領域牽引供電系統(tǒng)電能質量提升相關研究;關鍵詞類3根據(jù)“traction power supply system”“fault diagnosis”“analytical model”等關鍵詞可以得出與T7內容更為吻合,均為鐵路領域牽引供電系統(tǒng)故障發(fā)現(xiàn)與處理相關研究。此外,通過對比可以得出,本文主題發(fā)現(xiàn)結果的主題詞中,多單詞短語出現(xiàn)頻率要比關鍵詞共現(xiàn)聚類結果更高,因此對于研究內容的概括更全面,主題發(fā)現(xiàn)結果語義可解釋性更強。綜上,證明本文提出的改進LDA主題模型可以極大提升鐵路領域英文文本數(shù)據(jù)主題發(fā)現(xiàn)能力。

      4 結語

      伴隨著大科學時代的到來,科研管理信息服務除滿足日??蒲泄芾硇枨笾猓鎸蒲腥藛T科研信息服務的新需求,亟需調整自身服務業(yè)態(tài),實現(xiàn)從信息服務到知識服務的結構性變革??焖馘噙x重要研究成果,是鐵路領域科研人員面對海量國際鐵路科研成果資源時亟待解決的重要問題。以LDA主題模型為代表的主題發(fā)現(xiàn)方法可以實現(xiàn)從海量的文本數(shù)據(jù)中快速抽取主要語義內容,為海量鐵路科技信息資源的有效梳理與組織提供支持。本文針對傳統(tǒng)LDA主題模型在面對多單詞短語居多的鐵路領域研究文本時使用受限的問題,創(chuàng)新性地提出改進LDA主題模型,并以鐵路領域“牽引供電系統(tǒng)”為例,驗證了該算法有助于提升鐵路領域主題發(fā)現(xiàn)結果的可解釋性與可識別性,可以為后續(xù)鐵路領域科研管理中知識服務的實現(xiàn)提供技術支撐,也可以為科研人員在針對其他多單詞短語居多的領域開展主題發(fā)現(xiàn)研究時提供有效的方法支持。

      猜你喜歡
      短語語義鐵路
      沿著中老鐵路一路向南
      云南畫報(2021年12期)2021-03-08 00:50:54
      語言與語義
      鐵路通信線路維護體制改革探索與實踐
      “上”與“下”語義的不對稱性及其認知闡釋
      無人機在鐵路工程建設中的應用與思考
      GSM-R在鐵路通信中的應用
      認知范疇模糊與語義模糊
      語義分析與漢俄副名組合
      外語學刊(2011年1期)2011-01-22 03:38:33
      志丹县| 宾阳县| 通榆县| 聂荣县| 霞浦县| 汽车| 广河县| 马边| 汉源县| 冕宁县| 商都县| 交口县| 台州市| 东山县| 海口市| 陕西省| 德昌县| 巩义市| 庆云县| 枣强县| 卓资县| 石城县| 太原市| 城固县| 井研县| 邹平县| 桐梓县| 嵩明县| 承德县| 油尖旺区| 泾源县| 孝感市| 乌拉特后旗| 凤山县| 筠连县| 宁南县| 育儿| 浦东新区| 岚皋县| 临猗县| 诸城市|