丁祎姍 杜彥輝 朱衍丞 聶世民
摘 要:隨著自然語言處理研究的不斷深入,學界出現(xiàn)了大量關鍵詞抽取技術相關文獻。為了對其進行更高層次的分析 ,利用文獻數(shù)據(jù)分析國內關鍵詞抽取技術研究現(xiàn)狀及進展,基于科學計量學方法,從CNKI數(shù)據(jù)庫中檢索關鍵詞抽取文獻數(shù)據(jù),從研究的時空分布、共現(xiàn)網(wǎng)絡、時序圖等方面,利用CiteSpace引文空間分析方法以知識圖譜的形式呈現(xiàn),對時空知識圖譜、共詞圖譜、研究前沿關鍵詞時序圖譜、突現(xiàn)詞混合共引網(wǎng)絡圖譜進行分析,梳理該領域研究現(xiàn)狀和熱點,預測其發(fā)展趨勢,為相關研究提供支撐和參考。
關鍵詞:關鍵詞抽取;知識圖譜;CiteSpace
DOI:10. 11907/rjdk. 192453 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2020)002-0273-05
英標:Research of Keyword Extraction Based on Knowledge Graph
英作:DING Yi-shan1, DU Yan-hui1,2,ZHU Yan-cheng1, NIE Shi-min1
英單:(1. Information Technology & Network Security Institute, Peoples Public Security University of China;2. CIC of Security & Law for Cyberspace, Peoples Public Security University of China, Beijing 100038, China)
Abstract: With the development of natural language processing, there are a lot of research literatures about keyword extraction. In order to analyze and make better use of these data to analyze the research situation of keyword extraction technology in China, this paper retrieves the key words from CNKI database to extract relevant research literature data with the method of scientometrics. From the aspects of temporal and spatial distribution of authors and research institutions, key words co-occurrence network, research frontier time sequence, CiteSpace citation spatial analysis method is used to present in the form of knowledge graph, and through spatiotemporal knowledge graph, co-word graph, research frontier key words graph. The analysis of time sequence graph and emergent words mixed citation network graph combs the research status and hot spots in this field and forecasts the development trend, which provides certain support and reference for this field.
Key Words: keyword extraction; knowledge graph; CiteSpace
0 引言
近年來,關鍵詞抽取技術在自然語言處理、情報學等學科領域備受關注。早期的關鍵詞抽取依賴于專家系統(tǒng)和人工標注[1-3],隨著人工智能的不斷發(fā)展,自動關鍵詞抽取技術取得了長足進步,相關模型和算法日趨豐富,但目前抽取性能與人類抽取結果差距甚遠。該領域發(fā)展初期,文獻檢索系統(tǒng)不提供全文搜索,關鍵詞作為檢索依據(jù)是文檔中必須設置的詞條。隨著信息時代的發(fā)展,海量的沒有標注關鍵詞的各類本文需要處理,這就需要人工、專家系統(tǒng)結合計算機對其進行關鍵詞抽取[4-6]。文獻自動標引方法的提出是關鍵詞抽取研究的開端,國內學者將該技術引進并應用于中文關鍵詞抽取領域。第一個自動關鍵詞抽取系統(tǒng)實現(xiàn)后,包括我國在內的大量科研力量投入到該領域中,逐步形成了現(xiàn)有基于統(tǒng)計、語言分析、AI等的數(shù)個技術體系[7-8]。目前,該領域研究成果較為豐碩,但是欠缺對整體研究情況的梳理。本文以關鍵詞抽取相關文獻為研究對象,結合知識圖譜可視化分析,梳理其演進情況、應用熱點和研究動態(tài)。
1 數(shù)據(jù)來源與研究方法
1.1 數(shù)據(jù)采集方式
文獻數(shù)據(jù)來自信息檢索平臺CNKI數(shù)據(jù)庫,檢索步驟如下:通過主題檢索方式,搜索關鍵詞抽取或關鍵詞提取,以所有年為跨度,選定期刊、會議、碩博士論文為文獻類型。本文共采集有效文獻數(shù)據(jù)725篇,將其輸出為Refworks格式。
1.2 研究方法
知識圖譜可在特定空間及時間維度呈現(xiàn)知識發(fā)展進程與結構關系,揭示知識的演進變化規(guī)律,呈現(xiàn)宏觀研究情況。通過知識圖譜清晰反映該知識領域的研究現(xiàn)狀、作者及機構間的合作情況、研究熱點、前沿與趨勢等[9-10]。本文對725篇關鍵詞抽取相關文獻數(shù)據(jù)進行分析,得到關鍵詞抽取研究領域的隱藏知識、來源及發(fā)展變化規(guī)律,具體流程如圖1所示。
2 時空知識圖譜處理結果及分析
2.1 關鍵詞抽取技術研究時間分布
檢索CNKI數(shù)據(jù)庫,1996-2019年關鍵詞抽取技術相關文獻數(shù)量和作者數(shù)量逐年變化趨勢如圖2所示。20世紀末期,研究者利用詞頻—逆文檔頻率即TF-IDF算法提取關鍵詞,該方法將文本中TF-IDF值大于閾值的詞視為關鍵詞,是一種樸素無監(jiān)督方法。從論文數(shù)量逐年變化趨勢可以看出,21世紀初,國內學者對關鍵詞抽取技術研究進入第一個高峰期[11-12]。隨著國際學者在該領域研究的不斷深入,1999年,有監(jiān)督分類學習方法被引入,即用關鍵詞特征創(chuàng)建出分類器,分類器所用特征為詞頻和詞性,再用二分類思想對文本中的所有詞進行判斷其是否為關鍵詞,最終將是關鍵詞的集合作為抽取關鍵詞的結果[13]。隨后樸素貝葉斯方法被引入分類器創(chuàng)建中,一定程度上促進了國內關鍵詞抽取研究,該方法針對網(wǎng)頁內容分析、論文關鍵詞識別、協(xié)議分析等領域,多使用決策樹算法、樸素貝葉斯算法、支持向量機等[14-15]。從圖2可以看出,該方向的研究成果呈現(xiàn)明顯增長趨勢,為有監(jiān)督的關鍵詞抽取技術奠定了基礎,成為后續(xù)改進的有監(jiān)督方法和其它關鍵詞抽取方法的重要參考。2017年,PositionRank算法和基于條件隨機場的方法被提出??梢钥闯?,國內關鍵詞抽取研究也隨之進入了新的高峰[16-18]。整體而言,2008-2019年的研究成果是1996-2007年的近20倍。
2.2 關鍵詞抽取技術研究空間分布
2.2.1 機構分布
分析國內關鍵詞抽取技術研究的學術團體和機構,將期刊發(fā)文量閾值設置為5篇,LRF=2,LBY=8,生成關于機構間合作關系的圖譜并統(tǒng)計結果,如圖3所示。其中,標簽大小代表中心性,節(jié)點環(huán)描述年輪,邊表示合作關系。結果N=15(網(wǎng)絡中節(jié)點),E=1(網(wǎng)絡中邊),Density=0.009 5(網(wǎng)絡密度),表明國內關鍵詞抽取領域的研究人員呈現(xiàn)分散狀態(tài),不同機構間合作較少。經(jīng)調研,機構間合作也呈現(xiàn)明顯的地域性特征。
CNKI數(shù)據(jù)庫中關鍵詞抽取相關主題論文共涉及744個不同單位,位列前三的單位有哈爾濱工業(yè)大學(27篇)、北京郵電大學(24篇)、合肥工業(yè)大學(18篇)。發(fā)文量不是衡量研究水平的唯一指標,但由此可看出上述研究單位在該領域投入了較多的科研力量,也取得了較強的影響力。同時,中國中文信息學會等10家單位也在關鍵詞抽取領域投入了較多的研究力量。
2.2.2 作者分布
在參數(shù)設置中,重點分析Author Keywords Plus、Term Source-title、Abstruct,將Node Types設定為Author,其它參數(shù)設為默認值。采用最小生成樹算法,得到關鍵詞抽取領域研究者的知識圖譜如圖4所示,據(jù)高產(chǎn)定律統(tǒng)計發(fā)文量最高作者如圖5所示。以這些作者為中心,構成了我國相關領域研究的重要團隊,研究團隊建設保證了國內關鍵詞抽取技術相關研究的深入和創(chuàng)新。
3 研究熱點、前沿知識圖譜分析及發(fā)展趨勢預測
關鍵詞是體現(xiàn)文獻主要內容的最小單位,對關鍵詞的分析可以直觀反映文獻情況。本文將處理后的知網(wǎng)文獻數(shù)據(jù)導入CiteSpace,經(jīng)過最優(yōu)化調參生成如圖6所示的共詞圖譜,統(tǒng)計前10個關鍵詞如圖7所示。
3.1 熱點演化分析
把握研究熱點有助于掌握該領域研究動向和發(fā)展規(guī)律,以進一步明確其研究方向[19-21]。在分析研究熱點時采用文獻的關鍵詞作為研究對象。文獻關鍵詞是其核心和概括,關鍵詞在形式上也較為規(guī)范。因此,統(tǒng)計、分析關鍵詞,將關鍵詞作為熱點詞源,可將頻次較高的關鍵詞作為該領域研究熱點的判斷依據(jù)。
據(jù)此,將檢索得到的725條數(shù)據(jù)源導入 CiteSpace中,將關鍵詞作為網(wǎng)絡節(jié)點,即可運行得到關鍵詞的知識圖譜,利用 CiteSpace選取熱點詞中頻次較高的詞,經(jīng)統(tǒng)計可得到該領域的熱點詞。由圖6可以看出,關鍵詞抽取和自然語言處理兩個關鍵詞的節(jié)點最大,這是由于數(shù)據(jù)收集過程中進行文獻搜索所使用的關鍵詞就是關鍵詞抽取。TF-IDF、TextRank、LDA出現(xiàn)的頻次也較高,可知該領域研究大多基于以上算法。此外,詞向量、相似度計算、深度學習、文本分類、文本挖掘等,也都是關鍵詞抽取技術研究的熱點[22-24]。
3.2 前沿關鍵詞分析
本文利用膨脹詞探測(Burst Detection)技術運行關鍵詞抽取相關文獻數(shù)據(jù),得到研究前沿時序知識圖譜。筆者設置按時間片切分關鍵詞Top N%=20%,Top N=40,得到關鍵詞抽取研究前沿關鍵詞時序圖譜如圖8所示。
突變檢測算法能夠在不依賴其引用頻次的基礎上識別出突然出現(xiàn)的專業(yè)術語。本文通過CiteSpace輸入前文數(shù)據(jù)進行“Burst Phrases”分析,繪制得到混合突現(xiàn)詞共引圖譜如圖9所示。
在混合突現(xiàn)詞共引圖譜中,基于突現(xiàn)詞標注,結合關鍵節(jié)點文獻分析,以共引時間順序將共引網(wǎng)絡劃分為對關鍵詞抽取的主題聚類。本文將聚類形成的類簇用C0,C1,C2 ……表示[25-27]。
聚類C0中出現(xiàn)的突現(xiàn)詞有關鍵詞提取、文本聚類、特征權重、學術論文、古詩生成、二進制協(xié)議,這類研究范圍較廣,應用場景豐富,因此相關研究較為充分,主要依賴專家系統(tǒng)、標記數(shù)據(jù)以及分類器。類簇 C1的突現(xiàn)詞主要有“協(xié)議逆向工程”“特征選擇”“聚類分析”“自然語言處理”“詞匯鏈”“語義相似度”等。類簇C2的突現(xiàn)詞主要有“詞向量”“TFIDF模型”“主題模型”“TextRank算法”“文本分類”等[28-30],標志著關鍵詞抽取技術已從統(tǒng)計學方法逐漸過渡到基于語義理解的方法,通過計算詞向量間的余弦值度量詞與詞之間的詞義相關性。同時,還出現(xiàn)了大量基于主題方法的研究,結合突現(xiàn)詞混合共引網(wǎng)絡圖譜,其具有重要研究價值?;谥黝}的方法更契合人類寫作習慣,通過模擬人類寫文章的方式建立概率模型,可以很好計算出文本語義相似度關系,解決中文文本大量存在的一詞多義的語義理解難題,避免主題外噪聲數(shù)據(jù)對關鍵詞抽取準確性的影響。主題模型引入國內的時間不長,但其應用十分廣泛[31]。目前,我國應用LDA主題模型研究文本相似度、微博等短文本的關鍵詞抽取、文本話題演變分析、文本分割等,促進了關鍵詞抽取算法的改進和優(yōu)化。類簇C3由若干個小的類簇共同構成,突現(xiàn)詞主要有“復雜網(wǎng)絡”“機器學習”“文本挖掘”“網(wǎng)絡輿情”“情感分析”等,表明國內關鍵詞抽取技術已從基于主題的方法逐漸過渡到基于網(wǎng)絡圖的方法,復雜網(wǎng)絡是一種基于圖論的關鍵詞抽取方法??梢阅M人類語言的復雜網(wǎng)絡,利用語言特性構建語言網(wǎng)絡圖,用網(wǎng)絡圖反映詞與詞之間的關系,也可以用加權方式度量詞與詞之間的聯(lián)系強弱關系。機器學習可利用人工智能的方法作關鍵詞抽取,核心思想是基于人類經(jīng)驗得出關鍵詞抽取特征,由此改善計算機抽取關鍵詞的精確度,這就需要大量標記數(shù)據(jù)作為支撐,這種方法需以數(shù)據(jù)分析為前提。文本挖掘是隨著大數(shù)據(jù)處理需求應運而生的,基本思想是從海量文本中挖掘出有用信息,目前在電商行業(yè)用戶分析、多元異構數(shù)據(jù)處理中有較為廣泛的應用,機器學習算法與文本挖掘進一步產(chǎn)生了與其它方法的融合[32-33],由此產(chǎn)生了關鍵詞抽取技術在網(wǎng)絡輿情、情感分析等方面更為廣泛的應用。
對突現(xiàn)詞混合共引網(wǎng)絡圖譜進行分析可知,當前關鍵詞抽取技術研究的3個前沿方向為:
(1)提高語義理解能力,實現(xiàn)短文本關鍵詞抽取、情感分析等更多方面的突破。目前,自然語言處理中的多種文本表示模型都不能充分體現(xiàn)文本語義之間的關系,包括布爾模型、概率模型、網(wǎng)絡圖模型等,在詞的表征要素中都各有取舍以適應不同的算法。這導致關鍵詞抽取算法在語義理解上很難做到全面準確,造成關鍵詞抽取過程中語義理解的局限性。因此,如何融合以上模型或者創(chuàng)建新的模型構建全面表征語義要素的模型,提高語義理解能力是關鍵詞抽取領域的關鍵問題,也是研究需要攻克的前沿問題。
(2)基于多種方法融合,提高關鍵詞抽取準確性。每一種抽取算法都基于不同的因素,一種方法很難給出一個綜合的抽取要素,很難得到最優(yōu)抽取結果,因此關鍵詞抽取必然需要多種抽取方法的融合。目前較為前沿的抽取方法對多種方法進行加權疊加,或者采取分布式抽取策略,用一種方法的輸出作為另一種方法的輸入,疊加得到相對準確的抽取結果[34-35]。
(3)新型模型探索,比如云計算、深度學習、知識圖譜、空間關鍵詞等。從共現(xiàn)詞知識圖譜中發(fā)現(xiàn),這類研究相對稀缺,但是伴隨著云計算、深度學習、知識圖譜、空間關鍵詞等新技術的不斷發(fā)展,不難預見這些新技術將為關鍵詞抽取技術研究帶來突破,如何加以創(chuàng)新值得思考。
3.3 發(fā)展趨勢預測
(1)研究力量方面。國內關鍵詞抽取技術的主要研究力量來自高校和科研院所,通過發(fā)文突增性可以看出,哈爾濱工業(yè)大學在該領域有非常突出的貢獻,可知未來關鍵詞抽取的發(fā)展依然依賴于高校和科研院所的研究力量。
(2)研究熱點方面。本文通過詞頻分析明確了關鍵詞抽取領域中,復雜網(wǎng)絡、機器學習、深度學習、知識圖譜、情感分析、短文本、注意力機制、問答系統(tǒng)、網(wǎng)絡輿情、文本挖掘等是目前國內關鍵詞抽取技術研究領域的前沿與趨勢[36-37]。
(3)根據(jù)文獻分析可知,多種算法融合是進一步提高關鍵詞抽取準確率的有效途徑。
(4)伴隨著自然語言處理的持續(xù)研究,基于語義理解的深入研究將為關鍵詞抽取提供新思路。
4 結語
從總體脈絡看,國內研究者對于關鍵詞抽取的研究起初是基于統(tǒng)計的方式,即將文檔中詞語的統(tǒng)計信息作為文檔關鍵詞抽取依據(jù),包括基于詞權重、詞的文檔位置、詞的關聯(lián)信息等[38]。隨著對自然語言處理的深入研究,關鍵詞抽取技術逐漸由基于統(tǒng)計的方式向基于主題的方式發(fā)展[39]。近年來,將復雜網(wǎng)絡引入關鍵詞抽取技術領域,產(chǎn)生了無監(jiān)督方法,包括系統(tǒng)科學法、綜合特征值法、隨機游走法等。隨著大數(shù)據(jù)時代的到來,最新研究多以融合法為主,將數(shù)據(jù)挖掘、機器學習、深度學習、強化學習的方法與傳統(tǒng)方法相融合抽取關鍵詞,更加適應當前海量文本數(shù)據(jù)處理的現(xiàn)實需求。
從微觀視角看,研究模式從理論分析到應用研究,實踐性逐漸增強。但該領域的研究仍然存在一定局限性:一是機構與學者之間的交流較少,導致研究成果具有明顯的離散性,建議科研單位在深入研究的同時,積極開展科研交流活動,避免重復工作;二是自然語言處理在語義理解方面未打破技術壁壘,導致關鍵詞抽取技術無法達到更高的準確性,建議該領域研究者在語義理解層面取得突破,向解釋力更強的方向發(fā)展,逐步提升關鍵詞抽取技術的準確性,推動研究往更深方向發(fā)展。
參考文獻:
[1] 張建娥. 基于多特征融合的中文文本關鍵詞提取方法[J]. 情報理論與實踐,2013,36(10):105-108.
[2] 李春虎,張宏,武偉娜. 微博用戶對于基因編輯新聞態(tài)度的輿情分析[J]. 信息與電腦(理論版),2019(7):145-146.
[3] 常耀成,張宇翔,王紅,等. 特征驅動的關鍵詞提取算法綜述[J]. 軟件學報,2018,29(7):2046-2070.
[4] 肖根勝. 改進TFIDF和譜分割的關鍵詞自動抽取方法研究[D]. 武漢:華中師范大學,2012.
[5] 王燦輝,張敏,馬少平,等. 基于相鄰詞的中文關鍵詞自動抽取[J]. 廣西師范大學學報(自然科學版),2007(2):161-164.
[6] 方康,韓立新. 基于HMM的加權Textrank單文檔的關鍵詞抽取算法[J]. 信息技術,2015(4):114-116,120.
[7] 蘇楠,張璇,楊紅崗,等. 基于知識圖譜的國內網(wǎng)絡輿情研究可視化分析[J]. 情報雜志,2012,31(10):42-47,58.
[8] 肖明,陳嘉勇,李國俊. 基于CiteSpace研究科學知識圖譜的可視化分析[J]. 圖書情報工作,2011,55(6):91-95.
[9] 包楚晗. 基于Citespace的復雜網(wǎng)絡可視化圖譜研究[J]. 信息與電腦(理論版),2017(2):133-134.
[10] 司莉,劉劍楠. 三種信息可視化軟件的比較研究——基于KOS研究的可視化實驗分析[J]. 圖書館雜志,2014,33(1):61-67.
[11] 高廷麗. 面向網(wǎng)頁排序的關鍵詞權值計算[D]. 北京:中國社會科學院研究生院,2013.
[12] 王濤,李明. 改進的關鍵詞提取算法研究[J]. 重慶師范大學學報(自然科學版),2019,36(3):98-104.
[13] 柳林青,余瀚,費寧,等. 一種基于TextRank的單文本關鍵字提取算法[J]. 計算機應用研究,2018,35(3):705-710.
[14] 江林升,張春霞. 含關鍵字的新浪微博獲取與輿情分析[J]. 寶雞文理學院學報(自然科學版),2014,34(1):51-54.
[15] 郭永輝. 面向短文本分類的特征擴展方法[D]. 哈爾濱:哈爾濱工業(yè)大學,2013.
[16] 張少迪,鄭炅,艾山·吾買爾,等. 基于Django的中文關鍵詞提取系統(tǒng)的設計與實現(xiàn)[J]. 電腦知識與技術,2019(13):220-222.
[17] 蘇紅剛.? 基于SVM的中文文本分類系統(tǒng)實現(xiàn)[D]. 長春:吉林大學,2012.
[18] 劉開瑛,薛翠芳,鄭家恒,等. 中文文本中抽取特征信息的區(qū)域與技術[J]. 中文信息學報,1998(2):2-8.
[19] 趙鵬,蔡慶生,王清毅,等. 一種基于復雜網(wǎng)絡特征的中文文檔關鍵詞抽取算法[J]. 模式識別與人工智能,2007,20(6):827-831.
[20] 夏天. 詞語位置加權TextRank的關鍵詞抽取研究[J]. 現(xiàn)代圖書情報技術,2013(9):30-34.
[21] 李陽,李青,張霞. 基于離散序列報文的協(xié)議格式特征自動提取算法[J]. 計算機應用,2017,37(4):954-959,969.
[22] 方俊,郭雷,王曉東. 基于語義的關鍵詞提取算法[J]. 計算機科學,2008(6):148-151.
[23] 闞洳沂,唐雁. 基于節(jié)點刪除指標的關鍵字提取策略[J]. 西南師范大學學報(自然科學版),2008(2):119-122.
[24] 李俊,呂學強. 融合BERT語義加權與網(wǎng)絡圖的關鍵詞抽取方法[J/OL]. 計算機工程:1-7[2019-11-15]. https://doi.org/10.19678/j.issn.1000-3428.0055368.
[25] 馬慧芳,王雙,李苗,等. 融合圖結構與節(jié)點關聯(lián)的關鍵詞提取方法[J]. 中文信息學報,2019,33(9):69-78.
[26] 郭慶. 基于圖與LDA的中文文本關鍵詞提取算法[D]. 北京:北京郵電大學,2019.
[27] 劉慧婷,劉志中,王利利,等. 一般間隙序列模式挖掘的關鍵詞抽取[J]. 電子學報,2019,47(5):1121-1128.
[28] 張莉婧,李業(yè)麗,曾慶濤,等. 基于改進TextRank的關鍵詞抽取算法[J]. 北京印刷學院學報,2016,24(4):51-55.
[29] 于琨,糜仲春,蔡慶生. 可應用于互聯(lián)網(wǎng)的自學習中文關鍵詞抽取算法[J]. 中國科學技術大學學報,2002(3):126-129.
[30] 田軍. 信息可視化分析工具的比較分析——以CiteSpace、HistCite和RefViz為例[J]. 圖書館學研究,2014(14):90-95,54.
[31] 楊潔,季鐸,蔡東風,等. 基于聯(lián)合權重的多文檔關鍵詞抽取技術[J]. 中文信息學報,2008,22(6):75-79.
[32] 寧建飛,劉降珍. 融合Word2vec與TextRank的關鍵詞抽取研究[J]. 現(xiàn)代圖書情報技術,2016(6):20-27.
[33] QIN P D,XU W R,GUO J. A novel negative sampling based on TFIDF for learning word representation[J]. Neurocomputing,2015,177: 257-265.
[34] JAN B,LEONARDO. Conversations on cognitive cultural studies: literature, language, and aesthetics[M]. Columbus:Ohio State University Press,2015.
[35] SIU M H,GISH H,CHAN A,et al. Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J]. Computer Speech & Language,2014,28 (1): 210-223
[36] PETER D,TURNEY. Learning algorithms for keyphrase extraction[J]. Information Retrieval,2000 (4): 303-336.
[37] CHEN CH M. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology,2006,57(3): 359-377.
[38] PERSSON O. The intellectual base and research fronts of JASIS 1986-1990[J]. Journal of the American Society for information Science,1994,45(1): 31-38.
[39] SIU M H,GISH H,CHAN A,et al. Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J].? Computer Speech & Language,2014,28(1): 210-223.
(責任編輯:孫 娟)