吳素研 吳江瑞 李文波
摘 要:[目的/意義]在信息檢索、科技論文評價(jià)和知識結(jié)構(gòu)演化方面,引文分析都起著至關(guān)重要的作用。隨著格式化全文數(shù)據(jù)庫的出現(xiàn),引文分析邁入了4.0時(shí)代——全文引文分析階段。但是,目前還沒有中文的格式化全文數(shù)據(jù)庫,這極大地制約了全文引文分析在我國科技文獻(xiàn)中的研究和應(yīng)用。[方法/過程]在本文中我們提出建立高效的中文全文引文分析依賴的數(shù)據(jù)集和檢索平臺的方法,主要包括:1)提出了基于規(guī)則和SVM分類方法的論文元數(shù)據(jù)和引用提取方法;2)提出基于Spark平臺的實(shí)現(xiàn)高效引文內(nèi)容分析標(biāo)準(zhǔn)化數(shù)據(jù)集生成方法;3)提出建立引用內(nèi)容的科技文獻(xiàn)檢索平臺。[結(jié)果/結(jié)論]引文內(nèi)容分析標(biāo)準(zhǔn)化數(shù)據(jù)集的建立將全面提升全文引文分析在我國科技領(lǐng)域中的研究效能,提高科技文獻(xiàn)查找精度。
關(guān)鍵詞:全文引文分析;信息抽取;信息檢索;Spark
DOI:10.3969/j.issn.1008-0821.2020.01.012
〔中圖分類號〕TP393 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2020)01-0110-06
Construction of Deep Resolution and Retrieval Platform for
Large Scale Scientific and Technical Literature
Wu Suyan1 Wu Jiangrui2 Li Wenbo3
(1.Beijing Institute of Science and Technology Information,Beijing 100044,China;
2.Henan Institute Technology,Xinxiang 453003,China;
3.Institute of Software Chinese Academy of Science,Beijing 100081,China)
Abstract:[Purpose/Significance]Citation analysis plays a vital role in the three aspects of information retrieval,scientific paper evaluation,revealing the knowledge structure evolution.With the appearance of full-text literature repositories,Citation analysis entered the 4 Era——full-text citation analysis age.However,there is no Chinese full-text literature database,which have greatly restricted the research and application of full text citation analysis in Chinese Literature.[Method/Process]In this paper,we proposed a method to establish efficient data set and retrieval platform for Chinese full text citation analysis,including:(1)the paper metadata and reference extraction methods based on rules and SVM classification methods were proposed;(2)a standard data set generator based on spark platform was proposed;(3)a scientific literature retrieval platform with reference content was put forward.[Result/Conclusion]The establishment of the standardized data set of the citation content analysis will improve the research efficiency of the full text citation analysis in the field of science and technology in our country and improve the search precision of the scientific and technological literature.
Key words:full text citation analysis;information extraction;retrieval;Spark
科技文獻(xiàn)是科學(xué)研究的結(jié)晶,是科技創(chuàng)新的成果,而創(chuàng)新的過程本身又是一個(gè)信息資源的沉淀過程,因此,科技情報(bào)服務(wù)工作很重要的一個(gè)研究領(lǐng)域——文獻(xiàn)計(jì)量學(xué)就是對海量的文獻(xiàn)進(jìn)行分析,從中獲取到有價(jià)值的信息,如了解學(xué)科研究現(xiàn)狀及前沿領(lǐng)域的分布,把握學(xué)科的整體發(fā)展態(tài)勢,分析預(yù)測學(xué)科未來趨勢等。
自從16世紀(jì)后期論文引用制度形成以來,參考文獻(xiàn)成為學(xué)術(shù)論文的第二特征,也是合理有效地進(jìn)行科學(xué)交流的必要部分,通過對學(xué)術(shù)文獻(xiàn)之間引用與被引用關(guān)系的研究,可以獲知學(xué)科之間的關(guān)系與發(fā)展以及學(xué)術(shù)傳播的歷程,進(jìn)而可以感知研究近況和發(fā)展趨勢[1]。20世紀(jì)中期,美國霍普金斯大學(xué)Garfield E開創(chuàng)了科學(xué)引文索引(SCI),提出了通過引文索引來對科技文獻(xiàn)進(jìn)行檢索的方法,從而開啟了從引文角度來研究文獻(xiàn)及科學(xué)發(fā)展動(dòng)態(tài)的新領(lǐng)域,掀開了引文分析的新篇章[2]。網(wǎng)絡(luò)版數(shù)據(jù)庫WoS(Web of Science)[3]的問世進(jìn)一步促進(jìn)了引文分析的普及。在引文分析研究領(lǐng)域,文獻(xiàn)索引格式的發(fā)展程度決定了引文分析的發(fā)展程度。在過去50多年里,由于缺少可以提供全文信息的數(shù)據(jù),引文分析主要集中在引用頻次分析研究中,引文內(nèi)容分析也有所涉及,主要集中在對施引文獻(xiàn)的標(biāo)題、關(guān)鍵詞和摘要的分析上。近年,隨著可擴(kuò)展標(biāo)簽語言技術(shù)的發(fā)展,出現(xiàn)了科學(xué)文獻(xiàn)全文電子數(shù)據(jù)庫,如世界著名科學(xué)期刊發(fā)行商Springer、Eldevier和Wiley等都提供或部分提供XML格式全文閱讀和下載。為引用內(nèi)容深入分析研究提供了數(shù)據(jù)基礎(chǔ),通過全文數(shù)據(jù)庫可以獲取引文在現(xiàn)實(shí)科學(xué)文本中引用的空間分布和語境信息,可以讓我們從空間維度和語義維度上展現(xiàn)科技文本中的知識流動(dòng),分析作者的引用動(dòng)機(jī)和施引文獻(xiàn)與被引文獻(xiàn)之間的主題關(guān)聯(lián)性等,全文本蘊(yùn)藏的豐富引文空間信息引領(lǐng)引文分析進(jìn)入新階段,開創(chuàng)了引文分析4.0的時(shí)代,吸引大量學(xué)者對全文引文分析的探索[4]。
科技文獻(xiàn)檢索是引用內(nèi)容分析主要的3個(gè)應(yīng)用方面其中之一,傳統(tǒng)的共被引分析和文獻(xiàn)稱合分析都可以用于信息檢索,但文獻(xiàn)的相似度都是通過共被引文獻(xiàn)或親合文獻(xiàn)的共被引頻次或稱合頻次來測度的,在統(tǒng)計(jì)共被引頻次時(shí),只是通過文獻(xiàn)著錄中的信息統(tǒng)計(jì),并未深入到共被引文獻(xiàn)在施引文獻(xiàn)中的實(shí)際引用句子中進(jìn)行研究,但是施引文獻(xiàn)的引用句子包含了引用性質(zhì)、引用主題等更深層次、更細(xì)粒度的信息。因此將傳統(tǒng)引文索引理論與引文內(nèi)容信息相結(jié)合作為指導(dǎo),以信息檢索領(lǐng)域最新研究技術(shù)為基礎(chǔ),對提高科技文獻(xiàn)査詢效率具有重要意義[5]。
進(jìn)行引文內(nèi)容層面上的分析需要依賴文獻(xiàn)全文數(shù)據(jù)庫,目前國際上已有可供學(xué)者分析的格式化全文數(shù)據(jù)庫,但是國內(nèi)中文文獻(xiàn)數(shù)據(jù)庫一般都提供科技文獻(xiàn)全文下載技術(shù),但一般都是PDF或者CAJ等格式,這些格式只是描述文檔的打印,并沒有描述文檔語義內(nèi)容的數(shù)據(jù)結(jié)構(gòu),還不支持對引用內(nèi)容信息的獲取。極大地抑制了全文引文分析在我國科技文獻(xiàn)中的研究和應(yīng)用。本論文研究科技文獻(xiàn)深度解析方法,建立自動(dòng)構(gòu)建中文全文標(biāo)注數(shù)據(jù)集平臺,并在此基礎(chǔ)上建立基于引用內(nèi)容的科技文獻(xiàn)檢索平臺。
本文的主要貢獻(xiàn)如下:
1)提出了基于Spark平臺上,利用規(guī)則和SVM分類相結(jié)合的信息抽取方法,實(shí)現(xiàn)實(shí)時(shí)全文引用分析數(shù)據(jù)集的建立。
2)提出了基于引用內(nèi)容的科技文獻(xiàn)檢索方法,實(shí)現(xiàn)引用信息在文獻(xiàn)檢索中的應(yīng)用,提高檢索效率,優(yōu)化檢索結(jié)果。
1 相關(guān)工作
目前科技文獻(xiàn)數(shù)據(jù)抽取主要有兩條技術(shù)路線:基于規(guī)則的抽取和基于機(jī)器學(xué)習(xí)的抽取[6]。基于規(guī)則的方法根據(jù)文本結(jié)構(gòu)特征,建立規(guī)則的語法、語義和規(guī)則庫,通過規(guī)則對信息進(jìn)行抽取[7],但科技文獻(xiàn)中很多信息沒有嚴(yán)格的格式,因此基于規(guī)則的抽取模型結(jié)果雖然比較精確,但通常很復(fù)雜,適應(yīng)性較差,適合簡單元信息的抽取,不適合復(fù)雜信息的抽取。基于機(jī)器學(xué)習(xí)的抽取模型主要包括:隱馬爾可夫模型(Hidden Markov Model,HMM)、條件隨機(jī)域模型(Conditional Random Fields,CRFs)和支持向量機(jī)模型(Support Vector Machine,SVM)等,基于HMM模型[8]的信息抽取通過文本的詞序列或語義塊序列來確定狀態(tài)序列實(shí)現(xiàn)了對論文頭部信息的抽取,因此必須作出嚴(yán)格的獨(dú)立性假設(shè),無法考慮語境信息。CRFs[9]是一種復(fù)雜的全局HMM模型,避免了HMM模型中的強(qiáng)相關(guān)性假設(shè),展現(xiàn)了優(yōu)于HMM的抽取效果,但缺點(diǎn)是訓(xùn)練時(shí)間長?;赟VM模型抽取信息是將上下行的信息通過一種迭代算法加入文本行的特征向量中,在提高了準(zhǔn)確率的同時(shí)也增加了計(jì)算量,總的準(zhǔn)確率達(dá)到92.9%[10-12]。總體來說,科技文獻(xiàn)的信息抽取技術(shù)相對成熟,但是沒有針對大規(guī)模數(shù)據(jù)集設(shè)計(jì)高性能的、分布式計(jì)算分析系統(tǒng)。
本項(xiàng)目針對處理大批量國內(nèi)PDF格式的科技論文,利用OCR(Optical Character Recog-nition,光學(xué)字符識別)文本識別、信息抽取、大規(guī)模數(shù)據(jù)處理等技術(shù)實(shí)現(xiàn)高效、自動(dòng)抽取論文中引用句子,將科技文獻(xiàn)PDF論文構(gòu)建成標(biāo)準(zhǔn)全文引文分析的數(shù)據(jù)集。
2 基于規(guī)則和SVM結(jié)合的內(nèi)容抽取方法
中文出版網(wǎng)上出版平臺如CNKI、萬方、維普等,都提供科技文獻(xiàn)PDF格式全文下載。因早期PDF文科技文獻(xiàn)生成方式的不同以及參考文獻(xiàn)一般都是上角標(biāo)的形式標(biāo)注等因素,一般類庫提供的PDF解析文件不能正確提取正文中引用句子。與此同時(shí),對印刷體的識別的OCR技術(shù)已經(jīng)成熟和完善,對版面識別正確率達(dá)到90%以上。因此本項(xiàng)目技術(shù)流程如圖1所示。
2.1 語義標(biāo)注的內(nèi)容
首先是文獻(xiàn)基本元數(shù)據(jù),如作者、機(jī)構(gòu)、題目、摘要、關(guān)鍵詞、參考文獻(xiàn)列表等標(biāo)注。其次根據(jù)目前全文引文分析研究關(guān)注的點(diǎn),主要是引用位置、引用強(qiáng)度、引用語境3個(gè)方面。為了進(jìn)行引用位置的分析,將文檔分為引言、文獻(xiàn)綜述、方法、結(jié)果、結(jié)論等5部分。需要標(biāo)注引用出現(xiàn)文檔的位置。為進(jìn)行引用強(qiáng)度的分析,需要標(biāo)注引用出現(xiàn)的次數(shù)。為進(jìn)行引用語境的分析需要標(biāo)注引用在文中的句子,以及用+1和-1等設(shè)定引用出現(xiàn)的前后句子,叫做引用句子窗口。最后,需要對參考文獻(xiàn)列表進(jìn)行標(biāo)注,標(biāo)注出參考文獻(xiàn)的作者、題目、出版物、出版年等信息。
2.2 基于規(guī)則和SVM分類相結(jié)合的信息抽取方法
對于作者、機(jī)構(gòu)、參考文獻(xiàn)引用位置確定等具有明顯特征詞和特定構(gòu)成規(guī)則的元數(shù)據(jù)抽取,采用基于規(guī)則的方法。例如對于作者元數(shù)據(jù),首先構(gòu)建姓氏特征詞字典,其次構(gòu)建字符長度為2~4字符長度,且全為中文的字符的規(guī)則,采取正則表達(dá)式進(jìn)行匹配。
對于參考文獻(xiàn)引用位置,采取字符“[”和“]”或者“(”和“)”為特征詞,二者符號之間必須包含阿拉伯?dāng)?shù)字,可以出現(xiàn)標(biāo)點(diǎn)符號“,”或者“-”等規(guī)則進(jìn)行匹配。
對于其他復(fù)雜信息的抽取,如題目、摘要、關(guān)鍵詞、文檔結(jié)構(gòu)(即上面說的文檔5個(gè)部分分析),采取SVM分類方法,針對每種信息抽取任務(wù)建立單個(gè)SVM分類器。思路如下:首先針對不同的信息抽取分析信息的性質(zhì),提取特征集,然后通過標(biāo)注數(shù)據(jù)訓(xùn)練SVM模型,最后利用訓(xùn)練模型對實(shí)際文獻(xiàn)進(jìn)行信息抽取。對具有明顯特征詞和規(guī)則的信息抽取,可以將是否滿足規(guī)則作為SVM分類器的特征之一。例如,對文檔結(jié)構(gòu)的提取,一般文章章節(jié)之間的標(biāo)題都含有1、2、3、3.1等字符,但是單從含有這些字符不能確定是否章節(jié)標(biāo)題,可以這些字符出現(xiàn)次數(shù)作為特征之一,在結(jié)合包含字符串段落長度、字符串的位置等特征,通過SVM進(jìn)行判斷。
2.3 基于Spark平臺的實(shí)時(shí)引文內(nèi)容分析的標(biāo)準(zhǔn)化數(shù)據(jù)集生成系統(tǒng)? 對科技文獻(xiàn)的分析和抽取計(jì)算量大,如果完成對大批文檔的實(shí)時(shí)分析和抽取,必須采用大數(shù)據(jù)處理技術(shù),采用基于Spark計(jì)算引擎的大數(shù)據(jù)處理平臺,Spark是基于內(nèi)存的分布式計(jì)算框架,其核心是彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD),它是對集群上并行處理數(shù)據(jù)的分布式內(nèi)存的抽象,Spark通過將中間結(jié)果緩存在內(nèi)存減少磁盤I/O通信來提升性能。本項(xiàng)目將PDF文件解析算法、OCR文字識別算法和基于規(guī)則和SVM分類的信息抽取算法置于Spark平臺上,實(shí)現(xiàn)科技文獻(xiàn)快速轉(zhuǎn)化和抽取以及生成XML語義文檔,具體系統(tǒng)架構(gòu)如圖2和圖3所示。
工作流程如下:1)每個(gè)工作節(jié)點(diǎn)初始化規(guī)則所依賴的字典表和軟聚類的簇中心,形成初始化彈性分布式數(shù)據(jù)集RDD,主節(jié)點(diǎn)等待新進(jìn)入的科技文獻(xiàn);2)如果有新進(jìn)入的科技文獻(xiàn),主節(jié)點(diǎn)對新進(jìn)入科技文獻(xiàn)進(jìn)行Map操作,進(jìn)行PDF分析,生成JPG圖片格式,形成待OCR識別的RDD;3)對待識別的RDD執(zhí)行Map操作,通過OCR識別生待信息抽取的RDD;4)對待信息抽取RDD進(jìn)行元數(shù)據(jù)、參考文獻(xiàn)、引用信息抽取。形成待進(jìn)行標(biāo)注的文本;5)最后,通過Reduce操作將待標(biāo)注文本進(jìn)行合并,進(jìn)行語義標(biāo)注。
3 基于引用內(nèi)容的科技文獻(xiàn)檢索平臺
基于引用內(nèi)容的科技文獻(xiàn)檢索平臺主要包含3個(gè)模塊,分別是數(shù)據(jù)處理模塊、檢索模塊和檢索結(jié)果可視化模塊。其中數(shù)據(jù)處理模塊是在本項(xiàng)目研究一的結(jié)果上進(jìn)行處理,因此不包括傳統(tǒng)檢索系統(tǒng)的信息抽取的內(nèi)容,只是對相關(guān)項(xiàng)建立索引,出了傳統(tǒng)文獻(xiàn)檢索的元數(shù)據(jù)題目、摘要、關(guān)鍵詞等,本項(xiàng)目將引用信息也作為檢索域進(jìn)行索引。檢索系統(tǒng)模塊是核心,通過與用戶交互,獲取用戶查詢條件,通過分詞,將檢索項(xiàng)在各個(gè)檢索域的索引詞上進(jìn)行相似度計(jì)算,得出各個(gè)域上的相似條目后,最后根據(jù)各個(gè)域的權(quán)重綜合計(jì)算對結(jié)果進(jìn)行排序。結(jié)果可視化模塊是將結(jié)果以列表頁顯示出來,對關(guān)鍵字段如題目和作者顯示,同時(shí)對檢索項(xiàng)出現(xiàn)的檢索域部分以高亮顯示。在結(jié)果詳細(xì)頁,除了傳統(tǒng)檢索系統(tǒng)的文獻(xiàn)原文外,還以列表項(xiàng)顯示出該文獻(xiàn)出現(xiàn)在其他施引文獻(xiàn)中的引用信息。檢索平臺系統(tǒng)設(shè)計(jì)圖如圖4所示。
本論文采用Elasticsearch技術(shù)實(shí)現(xiàn)可擴(kuò)展、高性能的科技文獻(xiàn)檢索平臺搜索引擎的搭建。分布式搜索引擎Elasticsearch是基于Lucene的開源分布式搜索引擎。Elasticsearch具有高可用、易擴(kuò)展以及近實(shí)時(shí)的特點(diǎn),可以實(shí)現(xiàn)穩(wěn)定、實(shí)時(shí)、可靠的檢索服務(wù)。同時(shí)采用RESTful風(fēng)格的設(shè)計(jì),能夠提供易用的查詢與共享接口。
基于引用內(nèi)容的科技文獻(xiàn)檢索實(shí)驗(yàn)平臺的Elasticsearch分布式集群模塊由5個(gè)節(jié)點(diǎn)構(gòu)成,1個(gè)作為主控節(jié)點(diǎn),4個(gè)作為數(shù)據(jù)節(jié)點(diǎn),節(jié)點(diǎn)中分別部署Elasticsearch Server,設(shè)置服務(wù)集群為相同網(wǎng)段,利用Elasticsearch的廣播監(jiān)聽機(jī)制連接各個(gè)節(jié)點(diǎn),組成分布式索引集群。論文數(shù)據(jù)中對題目、摘要、關(guān)鍵詞、引用信息、內(nèi)容進(jìn)行分詞后建立索引,對作者直接建立索引。
4 系統(tǒng)運(yùn)行界面
4.1 引文內(nèi)容分析的標(biāo)準(zhǔn)化數(shù)據(jù)集生成系統(tǒng)
該系統(tǒng)可以通過選擇一個(gè)PDF抽取論文的元數(shù)據(jù)和引用信息,也可以選擇一個(gè)文件夾,系統(tǒng)將進(jìn)行遞歸調(diào)用,將選擇該文件夾下和其所有子文件夾下的所有PDF文件進(jìn)行抽取,結(jié)果保存在數(shù)據(jù)庫中。下面將以一篇論文為例,查看其解析后的結(jié)果如圖5所示。
4.2 基于引用內(nèi)容的科技文獻(xiàn)檢索系統(tǒng)
Elasticsearch是基于Lucene的開源分布式搜索引擎,首先將要查詢的目標(biāo)文檔中的詞通過分詞提取出關(guān)鍵詞,計(jì)算關(guān)鍵詞TF/IDF后建立索引,再對索引進(jìn)行搜索。當(dāng)輸入一個(gè)查詢文本,搜索機(jī)制先把文本中的內(nèi)容通過分詞切分成若干個(gè)關(guān)鍵詞,然后根據(jù)關(guān)鍵詞查詢索引,最終找到包含關(guān)鍵詞的文章,搜索結(jié)果按照喝查詢結(jié)果的相關(guān)性進(jìn)行排序?;谝脙?nèi)容的科技文獻(xiàn)檢索系統(tǒng)界面如圖7所示,通過輸入查詢條件,可以選擇在題目、摘要、關(guān)鍵詞和引用句子中查找,查找到的結(jié)果按照相關(guān)性排序,最相關(guān)的在前面;和查詢相匹配的查詢條件在結(jié)果總用紅色標(biāo)識出來。
5 總 結(jié)
本文根據(jù)中文科技論文多樣性的特點(diǎn),提出了利用OCR技術(shù)提取內(nèi)容的方法,同時(shí)采用基于規(guī)則和SVM的內(nèi)容方法,對科技論文元數(shù)據(jù)和引用信息進(jìn)行了抽取,并考慮到數(shù)據(jù)集的規(guī)模和計(jì)算量提出了基于Spark的高效處理技術(shù),并結(jié)合Elasticsearch平臺建立了接近實(shí)時(shí)、高擴(kuò)展的科技文獻(xiàn)引用檢索平臺,這對于建立中文引用內(nèi)容分析平臺具有實(shí)際意義。
參考文獻(xiàn)
[1]梁永霞,劉則淵,楊中楷.引文分析學(xué)的知識流動(dòng)理論探析[J].科學(xué)學(xué)學(xué)習(xí),2010,28(5):668-674.
[2]Garfield E.Citation Indexes for Science:A New Dimension in Documentation Through the Association of Ideas[J].Science,1955,(122):108-111.
[3]Reuters T.Web of Science[EB/OL].http://www.isiknowledge.com,2017.
[4]胡志剛.全文引文分析理論、方法與應(yīng)用[M].北京:科學(xué)出版社,2016.
[5]王賢文.科學(xué)計(jì)量大數(shù)據(jù)[M].北京:科學(xué)出版社,2016.
[6]張銘,銀平,鄧志鴻,等.SVM+BiHMM:基于統(tǒng)計(jì)方法的元數(shù)據(jù)抽取混合模型[J].軟件學(xué)報(bào),2008,19(2):358-368.
[7]Kim J,Le D X,Thoma G R.Automated Labeling Algorithms for Biomedical Document Images[C]//7th World Multiconference on Systemic,Cybernetics and Informatic,Orlando:ISAS Press,2003:352-357.
[8]Lafferty J D,Mccallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[J].2002,3(2):282-289.
[9]于江德,樊孝忠,尹繼豪,等.基于隱馬爾可夫模型的中文科研論文信息抽取[J].計(jì)算機(jī)工程,2007,33(19):190-192.
[10]Han H,Giles C,Manavoglu E,et al.Automatic Document Metadata Extraction Using Support Vector Machines[C]//3th Joint Conference on Digital Libraries,Pittsburgh:ACM Press,2003:37-48.
[11]劉宇,錢躍.基于字典匹配和支持向量機(jī)的中文科技論文元數(shù)據(jù)抽取[J].工程數(shù)學(xué)學(xué)報(bào),2012,29(4):586-592.
[12]張夢瑩,盧超,鄭茹佳,等.用于引文內(nèi)容分析的標(biāo)準(zhǔn)化數(shù)據(jù)集構(gòu)建[J].圖書館論壇,2016,36(8):48-53.
(責(zé)任編輯:陳 媛)