基于文本相似度分析的期刊引文有效性識別研究

2018-01-07 09:41鞠秀芳

現(xiàn)代情報(bào) 2018年11期

鞠秀芳

〔摘要〕真實(shí)性、準(zhǔn)確性、直接性與完整性是引用參考文獻(xiàn)的首要準(zhǔn)則，然而種種研究表明，當(dāng)前的研究論著中引而不注、過度引用、模糊標(biāo)注甚至虛假引用等不當(dāng)引用行為日漸增多，這極大地影響了科學(xué)研究領(lǐng)域的學(xué)術(shù)風(fēng)氣，給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。本文利用文本相似度算法建立期刊引文有效性識別方法，試圖從海量期刊引文數(shù)據(jù)中識別出期刊引文的真實(shí)有效性。實(shí)驗(yàn)表明，本文的期刊引文有效性識別方法在引文有效性方面實(shí)現(xiàn)了較好的識別效果，可為虛假引文的識別工作提供可靠的依據(jù)，從而為編輯人員發(fā)現(xiàn)、修正虛假引用問題提供幫助，彰顯科學(xué)研究的嚴(yán)謹(jǐn)務(wù)實(shí)精神。

〔關(guān)鍵詞〕文本相似度；虛假引文；引文有效性；向量空間模型

DOI：10.3969/j.issn.1008-0821.2018.11.003

〔中圖分類號〕G250252〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821（2018）11-0014-04

Research on Identification of Journal Citation Validity

Based on Text Similarity AnalysisJu Xiufang

（Institute for Chinese Social Sciences Research and Assessment，Nanjing University，Nanjing 210093，China）

〔Abstract〕Truth，accuracy，directness and completeness are the primary criteria for citing references.However，various studies have shown that miscitations such as omission，excessive citation，fuzzy labeling and even false citation in current research works are becoming more and more normal，which have greatly affected the academic atmosphere in the field of scientific research.Peoples reading，periodical review and evaluation of results have brought a lot of inconvenience.In this paper，the text similarity algorithm was used to establish a method to identify the validity of periodical citations，trying to identify the true validity of periodical citations from a large number of periodical citation data.Experiments showed that this method achieved a good recognition effect on Citation validity，and provided a reliable basis for the identification of false citations，thus providing help for editors to find and correct false citations，and highlighting the rigorous and pragmatic spirit of scientific research.

〔Key words〕text similarity；false citation；citation validity；vector space model

一般來說，真實(shí)性、準(zhǔn)確性、直接性與完整性是引用參考文獻(xiàn)的基本要求。隨著引文分析法在論文評價(jià)、期刊評價(jià)、科學(xué)家評價(jià)、學(xué)科評價(jià)、科研績效評價(jià)和科技競爭力評價(jià)等各個(gè)領(lǐng)域的廣泛應(yīng)用，參考文獻(xiàn)正慢慢脫離“展示科學(xué)研究的繼承性”這一初衷，越來越多地受到作者、編輯、機(jī)構(gòu)等多方面的人為影響，種種不當(dāng)引用行為日漸增多[1]。王立宏等認(rèn)為學(xué)術(shù)不端行為（抄襲、剽竊、誘引、匿引、轉(zhuǎn)引、濫引、崇引、引而不標(biāo)）和引用不當(dāng)行為（過度引用、錯(cuò)標(biāo)、誤標(biāo)、引用時(shí)差）是不當(dāng)引用的兩大主要表現(xiàn)形式[2]；金鐵成認(rèn)為期刊編輯同樣存在引文失范行為，共有6類行為：學(xué)術(shù)論文文后沒有引文、學(xué)術(shù)期刊編輯隨意刪減作者的引文、限制論文的引文數(shù)量、文中不標(biāo)注引文編號、期刊過度自引、期刊互惠引用等[3]。種種不當(dāng)?shù)囊眯袨闃O大地影響了科學(xué)研究領(lǐng)域的學(xué)術(shù)風(fēng)氣，給讀者閱讀、期刊審稿及成果評定等工作帶來了許多不便。其中，虛假引用無論是從引文質(zhì)量還是學(xué)術(shù)影響上更是首當(dāng)其沖，對學(xué)者、期刊、管理者造成了多方面不良的影響。如何從數(shù)量巨大、類型復(fù)雜的期刊引文數(shù)據(jù)中識別出期刊引文的真實(shí)有效性，為學(xué)術(shù)研究正本清源，彰顯科學(xué)研究的嚴(yán)謹(jǐn)務(wù)實(shí)精神，是當(dāng)前引文分析研究領(lǐng)域急需解決的問題之一。

在情報(bào)檢索和信息處理中，面對海量的非結(jié)構(gòu)化的學(xué)術(shù)論文，關(guān)鍵技術(shù)之一就是文本內(nèi)容的相似度計(jì)算技術(shù)。文本相似度的計(jì)算是各應(yīng)用領(lǐng)域（如搜索引擎、新聞推送、文本聚類與分類、網(wǎng)頁查重、機(jī)器翻譯、自動(dòng)問答系統(tǒng)等）處理自然語言的關(guān)鍵技術(shù)之一，也是信息處理領(lǐng)域的熱點(diǎn)和難點(diǎn)，受到了廣大研究領(lǐng)域的高度重視。本文針對虛假引用現(xiàn)象，利用文本相似度算法深入論文內(nèi)容研究，嘗試從海量文獻(xiàn)中識別出期刊引文的真實(shí)有效性。

2018年11月第38卷第11期現(xiàn)代情報(bào)Journal of Modern InformationNov.，2018Vol38No112018年11月第38卷第11期基于文本相似度分析的期刊引文有效性識別研究Nov.，2018Vol38No111引文有效性的定義及分析

引文引用是否有效的核心是施引論文中的觀點(diǎn)是否真實(shí)有效的出現(xiàn)在被引文獻(xiàn)之中。一般來說，引用參考文獻(xiàn)通常有4種情況：

1）引用有歷史背景和意義的文獻(xiàn)；

2）引用實(shí)驗(yàn)中的方法；

3）引用支持性或批判性的證據(jù)；

4）引用相關(guān)文獻(xiàn)用于比較。

科研工作者出于上述目的在引用他人的概念、數(shù)據(jù)、觀點(diǎn)時(shí)出于表達(dá)的需要，通常有直接引用、間接引用、轉(zhuǎn)引以及隱含引用幾種情況。

無論哪種引用目的、哪種引用方式，參考文獻(xiàn)的觀點(diǎn)、數(shù)據(jù)、表述需要真實(shí)有效的出現(xiàn)在施引文獻(xiàn)中，方可判定引文是有效引用。鑒于參考文獻(xiàn)表明了科學(xué)研究的某種繼承性，本文認(rèn)為在施引文獻(xiàn)和參考文獻(xiàn)之間天然存在相關(guān)性，但一般情況下兩者之間并不存在上下關(guān)系、同義關(guān)系或整體——部分等相關(guān)關(guān)系，施引文獻(xiàn)和參考文獻(xiàn)的整體相關(guān)性并不高。施引文獻(xiàn)和參考文獻(xiàn)兩者相關(guān)只是因?yàn)槭┮墨I(xiàn)引用了參考文獻(xiàn)中的部分內(nèi)容、觀點(diǎn)或數(shù)據(jù)，即參考文獻(xiàn)被引用的內(nèi)容和施引文獻(xiàn)中引用的內(nèi)容具有相似性。一般來說，直接引用的內(nèi)容相似性高，間接引用或轉(zhuǎn)引的內(nèi)容相似性略低。因此本文認(rèn)為，如施引文獻(xiàn)中引用的文字內(nèi)容與參考文獻(xiàn)中的某段表述、數(shù)據(jù)、觀點(diǎn)具有相似性，則稱為引文有效，否則則稱為引文無效。對引文有效性的識別可用參考文獻(xiàn)與施引文獻(xiàn)引用的文本內(nèi)容的相似性程度進(jìn)行度量。

2文本相似度計(jì)算

一般來說，相關(guān)文本的兩個(gè)或多個(gè)變量之間存在以下依存關(guān)系：上下關(guān)系、同義關(guān)系、反義關(guān)系、整體——部分關(guān)系，主體——屬性關(guān)系等，反映出文本變量之間的關(guān)聯(lián)。相似文本的變量之間則一般表現(xiàn)為同義關(guān)系、上下關(guān)系、整體——部分關(guān)系。

由于應(yīng)用場景以及需要解決問題、達(dá)成目標(biāo)的差異性，學(xué)界對文本相似度尚沒有統(tǒng)一定義。本文認(rèn)為文本相似度分析是指對兩個(gè)給定的文本通過詞匯、語句、段落進(jìn)行比較，判定兩者的差異，從而確定文本的相似程度，通常用[0，1]之間的某個(gè)數(shù)值進(jìn)行度量。相似性越強(qiáng)，數(shù)值越接近1（意味著比較的文本完全相同）；相似性越弱，數(shù)值越接近0（意味著比較的文本完全不同）。Lin D在文獻(xiàn)An Information-theoretic Definition of Similarity中給出了相似度定理[4]：

Sim（A，B）=logP（common（A，B））logP（desctription（A，B））（1）

common（A，B）是比較文本A、B的共性部分，description（A，B）是比較文本A、B的全部信息。此定義由于其通用性，是在多種應(yīng)用領(lǐng)域下采用較多的概念。

國內(nèi)外研究人員針對不同應(yīng)用提出了諸多相似度計(jì)算方法并已成功應(yīng)用。目前已有的可用于文本相似度計(jì)算的有向量空間模型（Vector Space Model）、布爾模型、隱含語義標(biāo)引（Latent Semantic Index）模型、P-normal模型、字符串匹配模型、概率模型等文本表示模型。這些模型運(yùn)用數(shù)學(xué)的語言和工具對文本信息及其處理過程加以翻譯和抽象，解決文本相似度計(jì)算中的文本表示、特征加權(quán)和相似度計(jì)算問題。其中Salton等于20世紀(jì)60年代末提出的向量空間模型VSM（Vector Space Model）是目前最有效的文本結(jié)構(gòu)化表示模型，已經(jīng)被廣泛用于文本檢索、自動(dòng)文摘、自動(dòng)分類、機(jī)器翻譯、輿情控制等領(lǐng)域。VSM認(rèn)為詞與詞之間是獨(dú)立的，文本表達(dá)的意義與詞語在文中出現(xiàn)的順序與位置沒有關(guān)聯(lián)，僅與詞語出現(xiàn)的次數(shù)有關(guān)。如參考文獻(xiàn)A可以看成是由詞語（a1，a2，a3，…，an）構(gòu)成，每一個(gè)詞語ai的權(quán)重Wi就是n維坐標(biāo)所對應(yīng)的坐標(biāo)值，由此參考文獻(xiàn)A可以用一個(gè)n維的文本向量空間表示。對于解決文本的相似度問題VSM有很強(qiáng)的可計(jì)算性和可操作性，是本文進(jìn)行相似度計(jì)算的主要方法[5]。

3期刊引文有效性識別方法與實(shí)現(xiàn)

對引文有效性的識別即對引用內(nèi)容與參考文獻(xiàn)內(nèi)容相似度的計(jì)算。本文的引文有效性識別方法主要分成3步：文本表示，特征詞權(quán)重確定，相似度計(jì)算。

31參考文獻(xiàn)的文本表示

文本表示是指從參考文獻(xiàn)和引用內(nèi)容中抽取出能體現(xiàn)參考文獻(xiàn)主要內(nèi)容的特征詞，以形成參考文獻(xiàn)的向量表示，包括參考文獻(xiàn)和施引文獻(xiàn)引用的內(nèi)容部分，主要解決抽取什么特征向量和抽取多少特征項(xiàng)量的問題。

期刊論文是人類自然語言的文本表示，屬于非結(jié)構(gòu)化信息。為了便于計(jì)算機(jī)處理論文信息，需要將論文進(jìn)行預(yù)處理，即將非結(jié)構(gòu)化的論文信息轉(zhuǎn)化為能夠被計(jì)算機(jī)直接處理的結(jié)構(gòu)化文本信息，通常有分詞和去停用詞兩個(gè)步驟。

分詞就是將待比較的論文切割成單個(gè)的詞，并根據(jù)詞性進(jìn)行標(biāo)注。目前常用的漢語分詞系統(tǒng)有：ICTCLAS分詞系統(tǒng)、HTTPCWS、SCWS——簡易中文分詞系統(tǒng)、PhpanAlysis、盤古分詞、MMSEG4J無組件分詞系統(tǒng)以及中國科學(xué)院的NLPIR中文分詞系統(tǒng)。NLPIR中文分詞系統(tǒng)可以基于信息交叉熵自動(dòng)發(fā)現(xiàn)新特征語言，從較長的文本內(nèi)容中自適應(yīng)測試語料的語言概率分布模型，實(shí)現(xiàn)自適應(yīng)分詞，在本文的期刊引文識別方法中分詞效果最好，是本文主要使用的分詞方法[6]。

文本預(yù)處理的第二步是去停用詞。所謂停用詞是指出現(xiàn)頻率較高但實(shí)際意義不大的詞，包括連詞、嘆詞、語氣詞等沒有實(shí)際意義的功能詞以及地名、人名等詞匯詞。去除、過濾停用詞可以有效降低文本相似度計(jì)算的誤差，提高計(jì)算效率并節(jié)省存儲空間。目前使用的停用詞都是根據(jù)人類經(jīng)驗(yàn)非自動(dòng)化生成的，由此匯集而成停用詞表，目前尚沒有普遍應(yīng)用的通用停用詞表工具。已有停用詞表包括哈工大停用詞詞庫”、“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫”、百度停用詞表“等。

考慮到引文有效性識別過程中涉及的參考文獻(xiàn)詞匯量比較大，如果將文本預(yù)處理之后的每個(gè)詞語都作為特征項(xiàng)，必然出現(xiàn)維度非常高的情形。為了提高計(jì)算計(jì)算效率，本文需要對特征項(xiàng)進(jìn)行降維處理。傳統(tǒng)VSM無法回避同義詞、多義詞現(xiàn)象，需要對這些原始詞進(jìn)行“合成”，使用SVD對原始的文本向量組成的矩陣分解以實(shí)現(xiàn)將原來的向量轉(zhuǎn)換成新的向量，從而消除詞的同義性和多義性對表征文本從而導(dǎo)致計(jì)算效果不佳的影響。圖1期刊引文有效性識別文本表示模塊

現(xiàn)代情報(bào)2018年11期

現(xiàn)代情報(bào)的其它文章: 大數(shù)據(jù)環(huán)境下數(shù)字出版知識服務(wù)主要模式研究; 基于非傳統(tǒng)安全視角的網(wǎng)絡(luò)輿情演化機(jī)理與智慧治理方略; 在線健康社區(qū)用戶診療信息求助行為; 基于出聲思考法的移動(dòng)圖書館信息接受障礙研究; 微信政治謠言的生態(tài)治理對策研究; 智慧城市建設(shè)中數(shù)據(jù)開放保障研究