• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      施引文獻(xiàn)視角下正面引用論文的影響力及其影響因素的研究
      ——以自然語言處理領(lǐng)域?yàn)槔?/h1>
      2021-05-26 09:07:06徐琳宏孫曉玲
      情報(bào)學(xué)報(bào) 2021年4期
      關(guān)鍵詞:極性中性影響力

      徐琳宏,丁 堃,孫曉玲,楊 陽

      (1.大連理工大學(xué)科學(xué)學(xué)與科技管理研究所暨WISE實(shí)驗(yàn)室,大連116024;2.大連外國語大學(xué)軟件學(xué)院,大連116044)

      1 引言

      客觀公正地評(píng)價(jià)一篇論文的學(xué)術(shù)影響力是學(xué)者個(gè)人評(píng)估乃至學(xué)科發(fā)展技術(shù)演化的基礎(chǔ),也是科研評(píng)估的重要目標(biāo)。目前,單篇論文的學(xué)術(shù)影響力評(píng)估一般是基于被引頻次來測(cè)度的,其作為一個(gè)獲取簡(jiǎn)單、計(jì)算方便的科技評(píng)估指標(biāo)被廣泛引用。然而,單純的被引頻次存在引用的同一化問題,即不同目的和引用極性的引用被同等對(duì)待,如贊揚(yáng)、批評(píng)和陳述類的引用在基于被引頻次的評(píng)估方法中效能是一樣的,都是增加一次引用。而實(shí)際上,這三類引用表達(dá)了施引作者對(duì)被引文獻(xiàn)工作的不同態(tài)度,應(yīng)該區(qū)別對(duì)待,這就需要細(xì)化科技評(píng)估的指標(biāo),實(shí)現(xiàn)全面和公正地評(píng)估論文的影響力。引用極性,是指將引用按施引作者的情感和態(tài)度劃分為支持和贊揚(yáng)、反對(duì)和批評(píng),以及簡(jiǎn)單陳述三種類型,是細(xì)化評(píng)估指標(biāo)的一種方法。不同情感類型表達(dá)了對(duì)被引文獻(xiàn)的不同態(tài)度,也反映了被引文獻(xiàn)對(duì)作者的不同影響。因此,將引用按情感極性細(xì)化,可以克服被引頻次指標(biāo)單一化的缺點(diǎn),在多個(gè)層次和角度豐富論文評(píng)估的指標(biāo),從而更加合理和準(zhǔn)確地評(píng)估單篇論文的影響力。

      雖然眾多學(xué)者都認(rèn)為被引頻次是一個(gè)有偏差的評(píng)估指標(biāo),應(yīng)該對(duì)其按引用功能、引用目的和引用極性等進(jìn)行細(xì)化,但不同引用極性的論文影響力是否具有差別目前還沒有定量的研究,對(duì)于如何具體量化不同情感極性的引用目前也沒有統(tǒng)一的結(jié)論。是否正面引用的論文比中性引用的論文影響力更大,是否應(yīng)該在被引頻次測(cè)度中增加正面引用的系數(shù)?針對(duì)上述問題,本文從施引文獻(xiàn)的角度出發(fā),對(duì)正面引用論文的影響力及正面引用的影響因素進(jìn)行研究分析,定量分析被正面和中性引用的論文其影響力是否有差別,不同引用原因的正面引用論文影響力是否有差別,以及正面引用論文的影響因素。

      2 研究綜述

      當(dāng)前,被引頻次已經(jīng)成為評(píng)價(jià)一篇論文質(zhì)量甚至學(xué)者影響力的重要指標(biāo),圍繞被引頻次的研究也有很多。自1955年Garfield[1-2]提出引文索引以來,被引頻次就成為衡量科研成果和科研人員水平的主要指標(biāo),在科學(xué)評(píng)價(jià)方面發(fā)揮著重要作用。Cronin等[3]認(rèn)為,被引次數(shù)是衡量作者影響力的重要指標(biāo)。但被引頻次將所有的引用同一化,忽略了引文的異質(zhì)性,在一定程度上影響了其作為論文評(píng)價(jià)指標(biāo)的準(zhǔn)確性和可靠性。因此,眾多學(xué)者認(rèn)為,被引頻次是有偏差的衡量指標(biāo),作者數(shù)量和論文長度等因素對(duì)其有顯著性的影響[4]。為了矯正單純被引頻次帶來的偏差,人們從不同角度提出了相應(yīng)的改進(jìn)方案。Pinski等[5]認(rèn)為,每個(gè)引用應(yīng)該具有不同的權(quán)重,施引作者不同具有不同的重要性。馬瑞敏等[6]根據(jù)施引作者的不同對(duì)被引次數(shù)指標(biāo)進(jìn)行加權(quán),構(gòu)建的模型能有效區(qū)分領(lǐng)域活躍者和領(lǐng)域先行者。謝娟等[7]研究被引頻次與下載頻次的相關(guān)關(guān)系,發(fā)現(xiàn)兩者呈正向的強(qiáng)相關(guān)關(guān)系,可使用下載頻次彌補(bǔ)被引頻次具有一定滯后性的問題。另外,一些學(xué)者對(duì)引文進(jìn)行再分類,李沖等[8]將引文分為實(shí)質(zhì)性引用、程序性引用和形式性引用,細(xì)化后的引文分析指標(biāo)提高了個(gè)體學(xué)術(shù)評(píng)價(jià)的可靠性。Wan等[9]將引文按重要性分為5個(gè)等級(jí),并應(yīng)用于論文影響力和作者影響力的研究中。

      引用過程中正面引用、中性引用和負(fù)面引用存在情感差異,使被引頻次的評(píng)價(jià)方法存在爭(zhēng)議[10],利用引用情感細(xì)化被引頻次是一種比較常見的改進(jìn)方案。Hernández-Alvarez等[11]將引文按引用極性分為正面引用、負(fù)面引用和中性引用。Catalini等[12]發(fā)現(xiàn)負(fù)向引用論文的質(zhì)量更高,與未被負(fù)向引用的論文相比,其被引頻次更高。劉盛博等[13]提出引文評(píng)價(jià)的三個(gè)指標(biāo),其中引文情感分為正面引用、負(fù)面引用和中立引用。Chubin等[14]認(rèn)為,引文中包含肯定和否定的兩種情感,通過對(duì)多篇文獻(xiàn)的分析,將肯定類型細(xì)分為基礎(chǔ)型、輔助型、同意型和敷衍型;而否定類型詳細(xì)劃分為部分否定和全文否定。Veer Martens等[15]采用引文內(nèi)容分析的方法,研究八種理論的傳播方式,將其中理論認(rèn)識(shí)類型分為積極、中立和消極三類,且積極和中立情感占大部分,而消極情感較少。陸偉等[16]提出引文內(nèi)容標(biāo)注框架也包含引文情感,分為正面、負(fù)面和中立三類。Moravcsik[17]將引文分類體系劃分為正、負(fù)兩種,正面引用的比例達(dá)到92%。尹莉等[18-20]引入“極性”概念,將引用內(nèi)容分為正、負(fù)和零三類,并分析引用發(fā)生的語境,指出引用的位置與論文的一般結(jié)構(gòu)有關(guān),提出基于引用功能和引用極性的分類模型,并細(xì)致分析了引用極性、引用位置和引用密度與自引的關(guān)系。耿樹青等[21]提出一種基于“被引頻次——引用情感”的指標(biāo)來評(píng)價(jià)論文學(xué)術(shù)影響力。章成志等[22]基于引用內(nèi)容研究中文圖書的被引行為,發(fā)現(xiàn)引用情感中超過80%表現(xiàn)為中性,且正面引用明顯多于負(fù)面引用。

      綜上所述,引用極性的分析是對(duì)被引頻次評(píng)估指標(biāo)的有益補(bǔ)充,在科研評(píng)價(jià)中具有重要意義。但由于數(shù)據(jù)獲取困難等因素的影響,引用極性的研究還處于起步階段,正面引用、中性引用和負(fù)面引用與被引頻次關(guān)系的定量研究較少。因此,本文嘗試分析正面引用與中性引用的論文的影響力差別關(guān)系,以及正面引用的影響因素等。

      3 研究設(shè)計(jì)

      引用極性,是指在當(dāng)前引用句上下文內(nèi)施引文獻(xiàn)對(duì)被引文獻(xiàn)的態(tài)度,一般分為正面、中性和負(fù)面三種類型。本文主要探討正面引用和中性引用,不涉及負(fù)面引用。一方面,是因?yàn)檎婧椭行郧楦械恼急容^大,負(fù)面引用占的比重較?。涣硪环矫?,更重要的是負(fù)面引用的影響力是一個(gè)較為復(fù)雜的問題,不能單純地以負(fù)面引用就有負(fù)面影響來看待,可能需要更加復(fù)雜的研究方案才能完成。因此,為了聚焦研究議題,本文的研究內(nèi)容只涉及正面引用和中性引用,探討其與論文影響力的關(guān)系,分析引用極性與引用原因的關(guān)系,以及正面引用的影響因素。

      3.1 研究假設(shè)

      由于被引頻次只對(duì)引用行為的次數(shù)做簡(jiǎn)單的計(jì)數(shù),把所有的引用行為同等對(duì)待,存在引用的同一性問題,故被引頻次是一個(gè)有偏差的評(píng)估指標(biāo)。為了解決這個(gè)問題,本文從施引文獻(xiàn)的角度出發(fā),區(qū)分每一個(gè)引用行為,即從引用原因和引用極性兩個(gè)方向嘗試研究。從直觀上來說,正面引用一般代表施引作者對(duì)被引文獻(xiàn)的贊揚(yáng)和認(rèn)同,要比簡(jiǎn)單陳述觀點(diǎn)類的中性引用表達(dá)的情感更強(qiáng)烈,該類被引文獻(xiàn)對(duì)作者的影響力也更大。那么在自然語言處理領(lǐng)域,這些被正面引用的論文的影響力是否真的比被中性引用的論文影響力更大?不同原因產(chǎn)生的正面引用,其論文影響力是否存在差別?為了在定量的層面回答上述問題,本文假設(shè):

      H1:被正面引用的論文與被中性引用的論文的影響力相同。

      H2:被正面引用的論文在不同引用原因下其影響力沒有差別。

      正面引用極性的產(chǎn)生有其自身的原因和特定的表達(dá)形式,找到這些影響因素,有助于更準(zhǔn)確地鑒別正面引用和深入探討該類引用的論文影響力。本文嘗試區(qū)分在自然語言處理領(lǐng)域中,哪些施引特征更容易產(chǎn)生正面引用,從施引文獻(xiàn)的角度出發(fā)假設(shè):

      H3:施引位置對(duì)正面和中性的引用極性沒有影響。

      H4:引用句的長度對(duì)正面和中性的引用極性沒有影響。

      H5:參考文獻(xiàn)數(shù)對(duì)正面和中性的引用極性沒有影響。

      H6:引用強(qiáng)度對(duì)正面和中性的引用極性沒有影響。

      3.2 研究方法

      3.2.1 變量及測(cè)度指標(biāo)

      本文主要完成兩部分的工作:一是確認(rèn)被正面引用的論文是否具有更高的影響力,以及不同引用原因產(chǎn)生的正面引用,其被引文獻(xiàn)的影響力是否存在差別;二是分析施引位置、引用長度、參考文獻(xiàn)個(gè)數(shù)以及引用強(qiáng)度等四個(gè)方面因素的變化規(guī)律,研究其對(duì)正面引用的產(chǎn)生是否有密切關(guān)系。各變量的描述如表1所示。

      表1 各變量的描述

      任務(wù)一是在不同引用極性中,區(qū)分被引文獻(xiàn)的影響力是否有顯著差別。本文使用總引用頻次和年均引用頻次兩個(gè)指標(biāo)衡量論文的影響力??偙灰l次代表論文的整體影響力,但發(fā)表年份較晚的論文,其引用的窗口時(shí)間短,總引用頻次不能客觀反映這類文獻(xiàn)的影響力。因此,增加了年均被引頻次的指標(biāo),其代表文獻(xiàn)每年的平均引用頻次,該指標(biāo)對(duì)發(fā)表較晚,引用較多的文獻(xiàn)比較友好,但對(duì)發(fā)表時(shí)間較早,已過引用半衰期的文獻(xiàn)有一定的偏差,這類文獻(xiàn)由于很快過了引用高峰期,隨著時(shí)間的推移,年均被引頻次會(huì)被逐步拉低。兩個(gè)指標(biāo)各有優(yōu)缺點(diǎn),互為補(bǔ)充,因此,本文采用總被引頻次和年均被引頻次兩個(gè)指標(biāo)計(jì)算被引文獻(xiàn)的影響力。

      任務(wù)二中的施引位置是按句計(jì)算的,用當(dāng)前引用句在施引文獻(xiàn)中的語句序號(hào)除以正文中施引文獻(xiàn)語句總數(shù)。引用強(qiáng)度是計(jì)算同一篇施引文獻(xiàn)中某個(gè)被引文獻(xiàn)的引用次數(shù),參考文獻(xiàn)數(shù)量是指施引文獻(xiàn)中的參考文獻(xiàn)總數(shù),而引用長度是計(jì)算當(dāng)前引用包含的語句字?jǐn)?shù)。

      3.2.2 統(tǒng)計(jì)分析方法和工具

      在正面和中性論文的影響力研究中,使用被引頻次作為因變量,但被引文獻(xiàn)的引用頻次不符合正態(tài)分布,一般情況下符合泊松分布[24-25]。因此,本文沒有采用單因素的方差分析方法,而選擇非參數(shù)檢驗(yàn)的Mann-Whitney檢驗(yàn)和Kruskal-Wallis檢驗(yàn)。Mann-Whitney檢驗(yàn)是檢測(cè)兩個(gè)獨(dú)立樣本是否存在顯著性差異的方法,其檢驗(yàn)統(tǒng)計(jì)量為

      Kruskal-Wallis檢驗(yàn)適用于檢測(cè)多個(gè)總體是否存在顯著性差異,其檢驗(yàn)統(tǒng)計(jì)量為

      在正面引用影響因素的研究中,本文采用邏輯回歸的方法,適用于自變量是分類或數(shù)值變量,因變量為二分類變量的情況,邏輯回歸的模型為

      其中,P=P(y=1|x)為正面引用發(fā)生的概率;β1,β2,…,βm為多個(gè)因素的回歸系數(shù),使用Wald值衡量指標(biāo)的重要性。當(dāng)Wald值越大,P值越小時(shí),自變量的影響就越大;反之,則說明該自變量對(duì)正面引用的產(chǎn)生沒有影響。本文所有的數(shù)據(jù)處理和統(tǒng)計(jì)分析結(jié)果均是利用Excel和SPSS軟件完成的。

      3.3 數(shù)據(jù)獲取

      本文選擇自然語言處理領(lǐng)域權(quán)威的中文期刊《中文信息學(xué)報(bào)》2017年全年的論文作為原始數(shù)據(jù),分析該領(lǐng)域正面引用論文的影響力及影響因素。自然語言處理是人工智能領(lǐng)域的一個(gè)重要研究分支,論文的數(shù)量和質(zhì)量近幾年來都呈明顯的上升態(tài)勢(shì)。而《中文信息學(xué)報(bào)》是中國中文信息學(xué)會(huì)會(huì)刊,是中文方面自然語言處理領(lǐng)域的權(quán)威期刊,從刊登的文章能及時(shí)了解最新的中文信息處理進(jìn)展和學(xué)術(shù)動(dòng)向。為了分析正面引用論文的影響力,本文需要分三個(gè)階段獲取數(shù)據(jù):期刊論文全文本分析、論文中引用句的情感極性標(biāo)注和被引文獻(xiàn)的引用頻次抓取,具體過程如圖1所示。

      第一階段的任務(wù)是下載和解析論文的引用句。從CNKI上下載《中文信息學(xué)報(bào)》2017年全年的論文,共189篇,排除個(gè)別征稿通知和會(huì)議通知類的文獻(xiàn),共獲取論文170篇。下載的全文包括CAJ和PDF兩種格式,將其轉(zhuǎn)化為TXT文本格式,進(jìn)行數(shù)據(jù)的初步清洗,刪除解析表格和圖片時(shí)產(chǎn)生的非法字符。接下來,將論文分割為正文和參考文獻(xiàn)兩部分,正文部分按句分割編碼,并采用正則表達(dá)式的方法搜索引用標(biāo)識(shí),即以上角標(biāo)形式出現(xiàn)的包含數(shù)字的中括號(hào)。參考文獻(xiàn)部分按編號(hào)分割,截取其中題目、作者、期刊等信息。在數(shù)據(jù)的預(yù)處理中,本文還考慮了全角字符和半角字符的轉(zhuǎn)化、部分參考文獻(xiàn)跳轉(zhuǎn)到其他頁、包含多重參考文獻(xiàn)標(biāo)識(shí)、正文內(nèi)容隔頁跳轉(zhuǎn)以及特殊字符在XML文件中的合法化等問題。最后,以XML文件的格式存儲(chǔ)解析后的論文:共包含語句42849個(gè),其中可能的引用句2948個(gè);包含參考文獻(xiàn)3172條,其中期刊類的參考文獻(xiàn)1417條。

      圖1 數(shù)據(jù)獲取流程圖

      第二階段的任務(wù)是標(biāo)注引用句的情感極性。目前,引用句的情感極性沒有合適的公開數(shù)據(jù)集可用,需要人工參與標(biāo)注。為了提高標(biāo)注的質(zhì)量和速度,本文在引文情感極性的標(biāo)注過程中利用人機(jī)結(jié)合的標(biāo)注方法,人工為主、機(jī)器為輔。第一階段預(yù)處理后的論文,檢索其中所有可能包含引用標(biāo)識(shí)的語句,提取每句對(duì)應(yīng)的上下文,生成標(biāo)注對(duì)象。各個(gè)語句按照在論文中出現(xiàn)的先后順序逐一輸出給標(biāo)注人員,完成引用極性和引用原因等信息的標(biāo)注工作。為了提高標(biāo)注質(zhì)量,同一個(gè)引用句會(huì)分配給多個(gè)標(biāo)注人員,根據(jù)情感標(biāo)注是否有分歧來決定標(biāo)注是否需要再次討論。計(jì)算機(jī)輔助方面,主要是通過構(gòu)建標(biāo)注平臺(tái)實(shí)現(xiàn),該平臺(tái)不僅能幫助標(biāo)注人員提高速度,同時(shí),也能完成質(zhì)量監(jiān)控的部分工作。標(biāo)注完成后,共包含引用3496個(gè),其中正面引用1160個(gè),中性引用1870個(gè)。第一和第二階段的任務(wù)在論文《中文文獻(xiàn)引文情感語料庫的構(gòu)建》一文中有更為詳細(xì)的說明[26]。

      第三階段的任務(wù)是獲取被引文獻(xiàn)的信息。從第二階段的3496個(gè)引用句中,選擇被引文獻(xiàn)為期刊類型,引用格式為一處一引的所有正面和中性的引用句1164個(gè),獲取其被引文獻(xiàn)的被引頻次、發(fā)表年份和施引位置等信息。由于期刊類型文獻(xiàn)的被引頻次數(shù)據(jù)準(zhǔn)確真實(shí),故選擇被引文獻(xiàn)為期刊類型,而其他類型文獻(xiàn)(如圖書類)目前還沒有統(tǒng)一的數(shù)據(jù)來源可以獲取被引頻次。選擇一處一引的引用句主要考慮引用極性無論是正面還是中性,指向性比較明確,即針對(duì)單一的被引文獻(xiàn)。一處多引的引用句,同一引用位置包含兩個(gè)甚至更多的被引文獻(xiàn),那么正面或者中性引用的情感極性是針對(duì)其中一篇文獻(xiàn)還是多篇文獻(xiàn)存在歧義,因此,選擇引用格式為一處一引的引用句。

      被引頻次信息是從網(wǎng)站上通過爬蟲工具抓取的,檢索時(shí)考慮到論文的題目和作者名稱相同認(rèn)定為同一篇。英文參考文獻(xiàn)的被引頻次從Google學(xué)術(shù)上爬取,抓取時(shí)間為2019年11月。中文參考文獻(xiàn)的被引頻次是從CNKI上獲取的,數(shù)據(jù)獲取時(shí)間為2019年12月。中文和英文文獻(xiàn)的獲取來源不同是因?yàn)镃NKI上英文文獻(xiàn)較少,而如果所有參考文獻(xiàn)的被引頻次均從Google學(xué)術(shù)中抓取,那么數(shù)據(jù)獲取后會(huì)發(fā)現(xiàn)該網(wǎng)站的中文文獻(xiàn)的被引頻次遠(yuǎn)低于CNKI中獲取的被引頻次,其原因可能是Google中包含的中文論文數(shù)量有限,且實(shí)時(shí)性不能得到保證導(dǎo)致的,故本文選擇將中文和英文的參考文獻(xiàn)分別從不同網(wǎng)站獲取被引頻次。雖然每篇被引文獻(xiàn)的發(fā)表年份在參考文獻(xiàn)中可以直接獲取,但是考慮到參考文獻(xiàn)中的年份是每個(gè)施引作者列出的,有可能會(huì)出現(xiàn)錯(cuò)誤,因此,本文分別通過Google和CNKI上重新獲取了論文的發(fā)表年份,并與參考文獻(xiàn)中的發(fā)表年份進(jìn)行校對(duì)。

      4 研究分析

      本文以自然語言處理領(lǐng)域的重要期刊《中文信息學(xué)報(bào)》2017年全年的論文為數(shù)據(jù),選擇其中標(biāo)注為正面和中性極性的引用作為研究對(duì)象,共獲取施引文獻(xiàn)170篇,引用句1164個(gè)。統(tǒng)計(jì)每個(gè)引用句中被引文獻(xiàn)對(duì)應(yīng)的引用頻次和年均引用頻次。被引頻次的均值、最大值和標(biāo)準(zhǔn)差分別為2140、84757、6412,年均被引頻次的均值、最大值和標(biāo)準(zhǔn)差分別為200、8190、665。由此可見,兩個(gè)指標(biāo)具有一定的差異性,能從不同側(cè)面反映被引文獻(xiàn)的影響力。

      被正面引用的論文是否比被中性引用的論文影響力更大,引用原因不同的正面引用,其被引文獻(xiàn)的影響力是否存在差別,從施引文獻(xiàn)的角度出發(fā)正面引用有哪些特殊的表現(xiàn)形式。下文就這些問題討論引用極性在論文影響力上的作用,以及影響正面引用的因素。

      4.1 被證明引用的文獻(xiàn)比被中性引用的文獻(xiàn)影響力更大

      將引用句按引用極性分為正面引用和中性引用,被引文獻(xiàn)在兩個(gè)類別中數(shù)據(jù)的分布規(guī)律如表2所示。從數(shù)據(jù)中可以看出,正面引用的論文被引頻次和年均被引頻次的均值均大于中性引用的論文,其中年均被引頻次的均值接近中性引用的一倍。兩類論文的標(biāo)準(zhǔn)差均較大,說明被引頻次的數(shù)據(jù)離散型更大,正面引用的年均被引頻次高于中性引用,數(shù)據(jù)的離散性更明顯。

      表2 不同引用極性下論文影響力的統(tǒng)計(jì)描述

      為了量化區(qū)分正面引用和中性引用論文的影響力是否存在差別,本文利用Mann-Whitney檢驗(yàn)檢測(cè)中性引用和正面引用樣本的差異性。檢驗(yàn)結(jié)果如表3所示,置信水平α=0.05,根據(jù)樣本觀察值做出決策,總被引頻次和年均被引頻次的檢驗(yàn)P值均遠(yuǎn)小于0.05,拒絕H1假設(shè),即在自然語言處理領(lǐng)域中,被正面引用的論文和被中性引用的論文影響力有顯著差別,且被正面引用的論文總體上影響力要強(qiáng)于中性引用的論文。因此,在單篇論文的評(píng)價(jià)體系和作者影響力的評(píng)估中,被正面引用的論文應(yīng)該給予更高的關(guān)注度和更大的影響系數(shù),以糾正簡(jiǎn)單累加被引次數(shù)帶來的評(píng)估偏差。

      表3 正面和中性引用論文影響力差異性檢驗(yàn)

      總被引頻次對(duì)發(fā)表年份較早的期刊有利,而年平均引用頻次對(duì)發(fā)表年份較晚的期刊有利,這主要是引用窗口的不同對(duì)論文被引頻次的影響,圖2分別展示了正面引用和中性引用與引用窗口的關(guān)系。橫坐標(biāo)為引用窗口,即施引文獻(xiàn)發(fā)表年減去被引文獻(xiàn)發(fā)表年;縱坐標(biāo)為不同引用窗口下年均的被引頻次。由圖2可以看出,中性引用的次數(shù)總體上比正面引用的次數(shù)多。在2017年《中文信息學(xué)報(bào)》的論文中,正面引用主要集中在發(fā)表后2~5年的論文,高峰正面引用在4~5年,而發(fā)表后2~7年的論文占中性引用的比例較大,高峰期在4~7年。在該數(shù)據(jù)集上,正面引用的引用窗口期比較短,在發(fā)表7年后就較少被正面引用,但在發(fā)表10年后達(dá)到一個(gè)平穩(wěn)期,發(fā)表7年后的論文在中性引用的占比明顯減少,并且隨著引用窗口的增加逐步減少。發(fā)表后8~15年的論文在正面引用中占有一定比例,隨著引用窗口的增加,數(shù)量比較平穩(wěn),可能是某個(gè)研究方向中包含一些經(jīng)典的和開創(chuàng)性工作的文獻(xiàn),一直被大家認(rèn)可,這類文獻(xiàn)很多情況下是某一學(xué)科的支撐類文獻(xiàn),檢索該類文獻(xiàn)有助于梳理學(xué)科發(fā)展脈絡(luò)。另外,正面引用的啟動(dòng)速度明顯高于中性引用,發(fā)表前2年內(nèi)被正面引用的論文占總數(shù)的5%,是同年被中性引用論文占比的2倍。

      4.2 不同引用原因產(chǎn)生的正面引用論文的影響力具有顯著差異

      正面引用是施引作者對(duì)被引文獻(xiàn)表達(dá)正向情感認(rèn)同的引用,但每個(gè)正面引用的產(chǎn)生原因不同:有的是直接贊揚(yáng);有的是利用被引文獻(xiàn)的模型和方法;還有的是通過與其他文獻(xiàn)比較,委婉地表達(dá)認(rèn)可的觀點(diǎn)。那么本節(jié)的主要任務(wù)是分析不同引用原因下的正面引用,其對(duì)應(yīng)文獻(xiàn)的影響力是否存在差異。正面引用的原因需要通過引用句及其上下文的語義判斷,這部分的數(shù)據(jù)在第3.3節(jié)獲取部分,通過專業(yè)人員標(biāo)注完成的。對(duì)自然語言處理領(lǐng)域的中文論文,本文借鑒劉盛博等[13]對(duì)正面引用的三分類,將引用原因細(xì)分為比較、應(yīng)用、贊揚(yáng)和其他。比較是指在引用句中將被引文獻(xiàn)與他人工作比較,明確表達(dá)被引文獻(xiàn)效果較好;應(yīng)用類按目標(biāo)對(duì)象可以分為被施引作者使用和被很多人使用;贊揚(yáng)類是施引作者通過“良好”“有效”等明顯的情感詞匯表達(dá)對(duì)被引文獻(xiàn)工作的贊美;其他類為表達(dá)正面情感強(qiáng)度較弱、表達(dá)形式比較隱晦的引用句。各種引用原因下,被引頻次和年均被引頻次的統(tǒng)計(jì)描述如表4所示。

      圖2 引用極性與引用窗口的關(guān)系

      表4 正面引用中四種引用原因的統(tǒng)計(jì)描述

      從表4可以看出,應(yīng)用和贊揚(yáng)兩類的被引文獻(xiàn)的影響力更大,而比較和其他兩類論文影響力相對(duì)較小。本文采用Kruskal-Wallis檢驗(yàn)測(cè)度四種引用原因?qū)?yīng)的被引文獻(xiàn)其影響力是否存在顯著差異,這里選擇Kruskal-Wallis檢驗(yàn)是由于年均被引頻次不符合正態(tài)分布,且是多組數(shù)據(jù)的比較。檢驗(yàn)的結(jié)果表明,年均被引頻次的分布在引用原因類別上具有顯著性差異,拒絕原假設(shè)H2。這說明論文的年均被引頻次明顯受到正面引用原因的影響,鑒別引用原因有助于更加合理地評(píng)估論文的實(shí)際影響力。本文在Kruskal-Wallis檢驗(yàn)的基礎(chǔ)上,為引用原因的四種引用原因做了兩兩比較,以檢驗(yàn)這四種類別兩兩是否都存在顯著性差異。比較的結(jié)果如表5所示。

      表5 正面引用原因成對(duì)比較結(jié)果

      由于是事后兩兩比較,需要調(diào)整顯著性水平,根據(jù)調(diào)整后的顯著性水平,由表5的結(jié)果可以看出,2組和4組以及3組和4組論文的影響力有顯著性差異,即應(yīng)用和贊揚(yáng)兩類的引用原因與其他類的論文影響力有顯著差異,這也符合本文的初始預(yù)期,這兩類的論文發(fā)揮作用,得到施引作者的強(qiáng)烈認(rèn)同,故其影響力也會(huì)更大。但比較類型引用的文獻(xiàn)論文影響力較低,這不符合預(yù)期:本文預(yù)期比較表達(dá)了作者對(duì)被引文獻(xiàn)工作的認(rèn)可,應(yīng)該有更高的影響力。但研究結(jié)果表明,該類型論文的影響力相對(duì)較低,其原因可能由于比較類型一般有比較對(duì)象,表達(dá)正面的情感只限定在兩個(gè)被比較的對(duì)象范圍內(nèi),比單一對(duì)象高,不代表影響力更大。另外,比較型引用強(qiáng)度較弱,形式比較隱晦。

      圖3 中節(jié)點(diǎn)的數(shù)值代表四類引用原因下正面引用文獻(xiàn)的年均被引頻次的秩,邊代表兩兩比較的結(jié)果,實(shí)線邊代表兩組之間沒有統(tǒng)計(jì)學(xué)差異,虛線邊代表兩組的差異具有統(tǒng)計(jì)學(xué)意義。這部分劃分的引用原因是根據(jù)自然語言處理領(lǐng)域引文的特點(diǎn)決定的,不一定適用于所有領(lǐng)域,其他領(lǐng)域的引用原因可能需要稍作調(diào)整,一般來說贊揚(yáng)類的論文每個(gè)領(lǐng)域都存在,而比較類型的論文可能領(lǐng)域相關(guān)性更大。因此,這部分的結(jié)論僅在中文自然語言處理領(lǐng)域具有一定的可靠性。

      4.3 施引位置和引用長度對(duì)正面引用有影響

      第4.2節(jié)從引用句語義的角度,分析了正面引用產(chǎn)生的原因以及其對(duì)論文影響力的作用。區(qū)分正面引用和中性引用以及不同原因的正面引用,對(duì)合理地論文評(píng)價(jià)具有重要意義,但是正面引用需要人工的鑒別,會(huì)耗費(fèi)大量的人力資源。因此,本節(jié)主要從施引文獻(xiàn)引用形式的角度,分析施引位置、引用長度、參考文獻(xiàn)數(shù)量和引用強(qiáng)度對(duì)產(chǎn)生正面引用的作用,這些因素的判定為正面引用的自動(dòng)識(shí)別奠定基礎(chǔ)。同時(shí),影響因素的分析,也有利于進(jìn)一步探索正面引用的特性及作用。

      本文采用邏輯回歸的方法,判斷多個(gè)因素對(duì)論文引用極性的影響。因變量為引用極性,自變量為四個(gè)因素,采用二元邏輯回歸的方法是因?yàn)樗m用于因變量為二分類變量、自變量為多分類變量的情況,最終根據(jù)Wals值的大小確定顯著性。該方法一般要求樣本量不能小于200,否則回歸系數(shù)具有偏差,本文的數(shù)據(jù)量滿足要求。檢測(cè)結(jié)果模型的χ2值為14.042,自由度為4,P值為0.007,因此,邏輯回歸模型具有顯著性。各因素的回歸系數(shù)和P值如表6所示。

      由表6可以看出,施引位置和引用長度對(duì)引用極性有顯著影響,兩者的Wals值分別為7.339和4.339,P值分別為0.007和0.037,均小于0.05。而引用強(qiáng)度和參考文獻(xiàn)數(shù)對(duì)引用極性沒有顯著影響,因此,拒絕假設(shè)H3和H4,接受H5和H6。其原因可能是施引文獻(xiàn)中同一篇文獻(xiàn)被引用多次,一定程度上說明該文獻(xiàn)對(duì)施引作者有較大的影響,但并不能確定這種影響就是正面的影響,例如,在自然語言處理領(lǐng)域,常常將被引文獻(xiàn)的結(jié)果作為比較的基線,這就是中性引用或者負(fù)面引用。此外,施引文獻(xiàn)中參考文獻(xiàn)的個(gè)數(shù)對(duì)引用極性沒有影響,說明不存在參考文獻(xiàn)過多,就都是簡(jiǎn)單的中性引用的現(xiàn)象;反之,也不存在參考文獻(xiàn)很少就都是正面引用的情況。

      表6 各因素的回歸分析結(jié)果

      上述結(jié)果表明,施引位置和引用長度對(duì)引用極性有影響,為了進(jìn)一步探索不同極性下兩個(gè)因素的具體特征,也就是說什么施引位置和長度的引用句最有可能是正面引用,兩個(gè)因素與引用極性的關(guān)系如圖4和圖5所示。

      圖4 正面和中性引用施引位置占比

      圖5 正面和中性引用句子長度占比

      圖4 中縱坐標(biāo)為施引位置,在自然語言處理領(lǐng)域的論文中,一般來說0.4之前多是引言和相關(guān)工作部分,0.4~0.8為研究方法和結(jié)果,0.8以后多為結(jié)論部分。無論是正面還是中性引用,大部分都在引言和相關(guān)工作部分,這與李卓等[27]研究結(jié)果類似,引言和數(shù)據(jù)部分占比較大,由于相關(guān)工作是密集介紹他人工作的部分,引用比較多,占的比重較大,這與本文的認(rèn)知基本一致。在研究的方法和結(jié)果部分,正面引用的占比為32%,中性引用的占比為21%,正面明顯多于中性引用。該部分的引用多是借鑒他人的模型和方法,幫助施引作者解決問題,正是施引原因中的應(yīng)用類型,因此,正面引用的占比較大。另外,引言中的正面引用比例明顯低于中性引用的比例,這部分的正面引用多是提及本領(lǐng)域開創(chuàng)性的工作,但更多是介紹領(lǐng)域的基本概念,所以中性引用較多。

      因?yàn)橐镁涞拈L度一般在20到160之間[22],所以本文選擇引用長度為0到150之間的引用句,舍棄了過長的引用句。由圖5可以看出引用長度多集中在90個(gè)字左右,30字以下的正面引用句較少,90個(gè)字以上的正面引用句占40%,而中性引用句占31%。這說明正面引用更多發(fā)生在長句中,本身正面引用要介紹被引文獻(xiàn)的工作和優(yōu)點(diǎn),則需要更多的文字來說明。

      一方面,正面引用與施引位置和引用句的長度具有一定的相關(guān)性,可為正面引用的自動(dòng)識(shí)別模型提供良好的數(shù)據(jù)基礎(chǔ),從而減少引用極性識(shí)別對(duì)人工的依賴程度,方便獲取更大規(guī)模的數(shù)據(jù),在更多的研究領(lǐng)域探索引用極性的特點(diǎn)和作用。另一方面,正面引用影響因素的研究也有助于從側(cè)面深入分析正面引用的成因,以及在語義層面了解正面引用對(duì)被引文獻(xiàn)可能產(chǎn)生的影響,最終有利于建立合理公正的論文評(píng)價(jià)體系。

      5 結(jié)論與討論

      本文以2017年的《中文信息學(xué)報(bào)》170篇論文為樣本,利用Mann-Whitney檢驗(yàn)、Kruskal-Wallis檢驗(yàn)和邏輯回歸的方法,研究了正面引用和中性引用論文在影響力上的差別,引用原因?qū)φ嬉谜撐牡挠绊懥Φ淖饔?,并進(jìn)一步探討了施引位置、引用長度、參考文獻(xiàn)數(shù)以及引用強(qiáng)度等因素對(duì)正面引用和中性引用的影響。研究結(jié)果發(fā)現(xiàn)以下三個(gè)結(jié)論:

      (1)從總體上來看,正面引用論文的影響力高于中性引用論文的影響力。以引用極性為自變量,論文總被引頻次和年均被引頻次為因變量,通過顯著性分析發(fā)現(xiàn),被正面引用的論文總體上影響力高于被中性引用的論文。從定量的角度表明,自然語言處理領(lǐng)域的中文論文正面和中性引用的區(qū)別較大,在論文評(píng)價(jià)和學(xué)者影響力的評(píng)估中有必要區(qū)分兩種引用的影響,對(duì)單純被引頻次計(jì)數(shù)的簡(jiǎn)單評(píng)價(jià)方法進(jìn)行細(xì)化是必要的,增加正面引用的權(quán)重可能在一個(gè)側(cè)面緩節(jié)被引頻次帶來的偏差。

      (2)不同原因引發(fā)的正面引用,被引文獻(xiàn)的影響力差別較大。根據(jù)人工標(biāo)注的結(jié)果,本文將正面引用的原因劃分為比較、應(yīng)用、贊揚(yáng)和其他四種類型。經(jīng)顯著性檢驗(yàn)發(fā)現(xiàn),四種原因產(chǎn)生的正面引用論文的影響力存在顯著性差異,其中被施引文獻(xiàn)界定為應(yīng)用類型的論文,其影響力最大;其次是贊揚(yáng)類型的論文;比較和其他兩類論文的影響力較小。一方面,這說明正面引用的論文本身也不是同質(zhì)的,不能通過一個(gè)統(tǒng)一的權(quán)重來衡量,還需要細(xì)致的區(qū)分對(duì)待,才能縮小評(píng)估中的偏差,合理地完成單篇論文的評(píng)價(jià)。另一方面,在自然語言處理領(lǐng)域,引用原因?yàn)閼?yīng)用類型的被引文獻(xiàn)實(shí)際上有兩個(gè)子類:第一種,是被施引作者本身使用,如施引作者利用了被引文獻(xiàn)的方法或者模型;第二種,是施引文獻(xiàn)被廣泛應(yīng)用,被很多研究者借鑒。第一種子類中,通過全文的語義分析,提取被引文獻(xiàn)的方法和模型,以方法應(yīng)用的寬度和深度為視角,可以分析自然語言處理領(lǐng)域模型和方法的發(fā)展脈絡(luò)。第二種子類,可以更準(zhǔn)確的定位領(lǐng)域的經(jīng)典和首創(chuàng)類文獻(xiàn),從而解析經(jīng)典文獻(xiàn)對(duì)后續(xù)文獻(xiàn)的影響方向和作用方式,從語義的角度分析經(jīng)典文獻(xiàn)的實(shí)際價(jià)值。

      (3)施引位置和引用長度對(duì)引用極性有顯著影響。本文選擇的引用極性的影響因素包括:施引位置、引用長度、引用強(qiáng)度和參考文獻(xiàn)個(gè)數(shù)。其中,施引位置和引用長度對(duì)引用極性有顯著影響,而引用強(qiáng)度和參考文獻(xiàn)個(gè)數(shù)對(duì)引用極性沒有顯著影響。發(fā)現(xiàn)與引用極性相關(guān)的核心特征有助于引用極性的自動(dòng)識(shí)別,同時(shí),也為合理評(píng)價(jià)單篇論文提供更多的相關(guān)指標(biāo)。

      需要注意的是,本文的研究結(jié)果說明正面引用論文的被引頻次更高,并不是要否認(rèn)傳統(tǒng)被引頻次在論文評(píng)價(jià)中的重要性,增加引用極性是為了糾正傳統(tǒng)的被引頻次的偏差。本文存在幾點(diǎn)不足之處:一是本文的數(shù)據(jù)來源于自然語言處理領(lǐng)域,結(jié)論不一定在其他領(lǐng)域具有普適性,尤其是引用原因的劃分,具有一定的領(lǐng)域依賴性;二是本文從施引文獻(xiàn)的角度分了四個(gè)影響因素對(duì)引用極性的作用,這四個(gè)因素并不能涵蓋與引用極性相關(guān)的所有因素,沒有考慮其他干擾因素對(duì)結(jié)果可能存在影響。例如,中文和英文論文的被引頻次分別從CNKI和Google上抓取,兩個(gè)網(wǎng)站被引頻次的統(tǒng)計(jì)方法不同,也會(huì)造成中英文論文本身存在差異性,從而在一定程度上影響最終結(jié)果。總體來說,本文屬于探索性的研究,正面引用在論文評(píng)價(jià)和學(xué)者影響力評(píng)估中具有獨(dú)特的價(jià)值和作用,但這種作用如何量化到具體的評(píng)價(jià)模型中需要進(jìn)一步的研究和改進(jìn),此外論文的影響力和負(fù)面引用關(guān)系也值得進(jìn)一步探索。

      猜你喜歡
      極性中性影響力
      英文的中性TA
      跟蹤導(dǎo)練(四)
      天才影響力
      NBA特刊(2018年14期)2018-08-13 08:51:40
      黃艷:最深遠(yuǎn)的影響力
      高橋愛中性風(fēng)格小配飾讓自然相連
      FREAKISH WATCH極簡(jiǎn)中性腕表設(shè)計(jì)
      表用無極性RS485應(yīng)用技術(shù)探討
      一種新型的雙極性脈沖電流源
      3.15消協(xié)三十年十大影響力事件
      傳媒不可估量的影響力
      人間(2015年21期)2015-03-11 15:24:39

      定南县| 福海县| 新昌县| 镇江市| 潞城市| 子长县| 建湖县| 霍林郭勒市| 库伦旗| 洪雅县| 九江县| 凤台县| 黔西| 沂南县| 襄垣县| 永年县| 波密县| 宝清县| 九龙坡区| 襄汾县| 临湘市| 呼图壁县| 夏津县| 华亭县| 上高县| 环江| 新民市| 濮阳市| 自治县| 东乡| 铜陵市| 革吉县| 共和县| 岳普湖县| 曲沃县| 新巴尔虎左旗| 旌德县| 睢宁县| 云阳县| 丰原市| 浪卡子县|