楊思洛,程 濛,莫瑩瑩
在學(xué)術(shù)成果海量增長(zhǎng)和網(wǎng)絡(luò)知識(shí)加速流動(dòng)背景下,一篇學(xué)術(shù)論文受到讀者發(fā)現(xiàn)與認(rèn)可的成本越來(lái)越高。為了更加精確地匹配讀者和論文,同時(shí)吸引受眾的閱讀興趣,愛思唯爾出版集團(tuán)ScienceDirect數(shù)據(jù)庫(kù)推出了研究亮點(diǎn)(Research Highlight),并對(duì)其全部投稿論文提供研究亮點(diǎn)做出了強(qiáng)制性要求。根據(jù)作者指南的說(shuō)明,在形式和內(nèi)容上,亮點(diǎn)由3-5個(gè)要點(diǎn)構(gòu)成,篇幅限制在85個(gè)字符以內(nèi),凸顯研究的新穎結(jié)果和創(chuàng)新方法,最終逐條展示于論文網(wǎng)頁(yè)版本的標(biāo)題之下;在作用價(jià)值上,經(jīng)由數(shù)據(jù)庫(kù)的機(jī)器閱讀匹配,亮點(diǎn)被證明有助于提高論文在搜索引擎中的曝光度,擴(kuò)大學(xué)術(shù)成果的傳播范圍,引發(fā)科學(xué)工作者的關(guān)注[1]。當(dāng)用戶使用ScienceDirect 數(shù)據(jù)庫(kù)進(jìn)行檢索時(shí),可以發(fā)現(xiàn)在返還頁(yè)面中,每一條結(jié)果與檢索詞匹配的突出黃色標(biāo)記有兩處,一是標(biāo)題,二是“Extracts”欄目下的亮點(diǎn)文本,充分表明了亮點(diǎn)對(duì)于提升文章可發(fā)現(xiàn)性的重要作用。一方面,亮點(diǎn)語(yǔ)言簡(jiǎn)明通俗,能夠更加精確地匹配論文與讀者,擴(kuò)大論文的傳播范圍。對(duì)亮點(diǎn)的語(yǔ)言特征進(jìn)行研究,在當(dāng)前亮點(diǎn)寫作規(guī)范下,探究作者對(duì)這一體裁的具體呈現(xiàn)形式,以及受到更多讀者利用的論文如何撰寫亮點(diǎn),有利于深度發(fā)揮亮點(diǎn)的宣傳作用,幫助作者提升文章潛在利用的可能性,促進(jìn)學(xué)術(shù)交流與合作。另一方面,亮點(diǎn)作為獨(dú)立的組成部分,濃縮了一篇論文最重要且最具特色的新方法和新結(jié)論,能夠幫助學(xué)者快速獲取論文核心觀點(diǎn)[2],降低文獻(xiàn)閱讀和篩選的成本。對(duì)亮點(diǎn)的內(nèi)容主題進(jìn)行識(shí)別,有利于發(fā)現(xiàn)一門學(xué)科領(lǐng)域最具突破性的創(chuàng)新貢獻(xiàn),明確研究重點(diǎn)和發(fā)展方向,進(jìn)一步推動(dòng)知識(shí)流動(dòng)與科研創(chuàng)新。
目前專門對(duì)于學(xué)術(shù)論文亮點(diǎn)的關(guān)注少,研究主題分散,主要在于亮點(diǎn)的概念特征和自動(dòng)抽取兩方面。在亮點(diǎn)的概念特征上,Yang W以亮點(diǎn)的評(píng)價(jià)性語(yǔ)言和交互性語(yǔ)篇為研究對(duì)象,探究240篇期刊論文亮點(diǎn)的語(yǔ)言學(xué)特征,并利用問卷調(diào)查總結(jié)了編輯和作者對(duì)亮點(diǎn)的看法,認(rèn)為亮點(diǎn)能夠支持論文的學(xué)術(shù)立場(chǎng)和塑造可靠的學(xué)術(shù)形象[3];索傳軍等借助關(guān)鍵詞分析法和自然語(yǔ)言處理算法,探索了亮點(diǎn)的語(yǔ)言學(xué)特征及其在論文中的位置分布規(guī)律,歸納出亮點(diǎn)具有新穎性、簡(jiǎn)明性、易讀性、宣傳性等特點(diǎn)[2]。在亮點(diǎn)的自動(dòng)抽取上,Wang W等對(duì)多種無(wú)監(jiān)督自動(dòng)抽取文本方法進(jìn)行評(píng)估,研究了亮點(diǎn)的提取特征[4];Cagliero L等通過預(yù)測(cè)文章句子和亮點(diǎn)的相似度,提出了基于回歸模型的有監(jiān)督的亮點(diǎn)自動(dòng)抽取方法[5]。
已有研究成果對(duì)亮點(diǎn)的特征和價(jià)值做了總結(jié),探索了亮點(diǎn)的自動(dòng)抽取方法,然而整體數(shù)量少,對(duì)這一具有獨(dú)特價(jià)值的文本的探索尚處于初步階段,認(rèn)識(shí)有待深入,其中關(guān)于亮點(diǎn)語(yǔ)言特征的研究限于部分語(yǔ)法統(tǒng)計(jì)和關(guān)鍵詞頻數(shù)統(tǒng)計(jì),沒有進(jìn)行語(yǔ)言寫作風(fēng)格的深入分析,且尚未有研究探討亮點(diǎn)的內(nèi)容主題構(gòu)成。為了豐富亮點(diǎn)相關(guān)研究,提升學(xué)術(shù)界和出版界的認(rèn)識(shí),引發(fā)對(duì)于亮點(diǎn)應(yīng)用和普及的思考,本文參考現(xiàn)有其他類型學(xué)術(shù)文本的相關(guān)研究,從外部特征和內(nèi)部特征兩個(gè)方向?qū)α咙c(diǎn)展開探索性研究:結(jié)合亮點(diǎn)的宣傳性功能和創(chuàng)新性特點(diǎn),用語(yǔ)言特征反映外部特征,用主題識(shí)別反映內(nèi)部特征,借助自然語(yǔ)言標(biāo)注處理工具、主題模型以及科學(xué)知識(shí)圖譜聚類方法,建立較為系統(tǒng)的研究框架對(duì)亮點(diǎn)文本進(jìn)行實(shí)證探索。
針對(duì)亮點(diǎn)內(nèi)外部特征的研究思路從語(yǔ)言特征和主題識(shí)別兩個(gè)方面展開,見圖1。具體步驟為:(1)獲取學(xué)科領(lǐng)域的研究亮點(diǎn)和摘要數(shù)據(jù)集,分別導(dǎo)入自然語(yǔ)言標(biāo)注處理工具M(jìn)AT,獲取表示語(yǔ)言特征頻率的標(biāo)準(zhǔn)化數(shù)據(jù);(2)將亮點(diǎn)和摘要語(yǔ)言特征的頻率標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行獨(dú)立樣本T檢驗(yàn),分析亮點(diǎn)的語(yǔ)言特征;(3)依據(jù)論文的被引次數(shù),將亮點(diǎn)的語(yǔ)言特征頻率標(biāo)準(zhǔn)化數(shù)據(jù)劃分為高被引、中被引和低被引3 個(gè)層次,通過Kruskal-Wallis檢驗(yàn)探究論文被引次數(shù)與亮點(diǎn)語(yǔ)言特征的關(guān)系;(4)對(duì)研究亮點(diǎn)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理、特征提取、文本向量化,通過構(gòu)建LDA主題模型進(jìn)行亮點(diǎn)的整體主題識(shí)別;(5)通過人工標(biāo)注對(duì)亮點(diǎn)進(jìn)行分類,采用VOSviewer 文本主題挖掘工具識(shí)別亮點(diǎn)不同類型的主題。
圖1 亮點(diǎn)的語(yǔ)言特征與主題識(shí)別研究思路
在研究數(shù)據(jù)上,本文從愛思唯爾數(shù)據(jù)庫(kù)Science Direct 選擇期刊Journal of Informetrics(JOI)2013-2020 年發(fā)表的論文,獲取其每篇論文的亮點(diǎn)、摘要和被引次數(shù)等信息,經(jīng)過整理剔除缺失的數(shù)據(jù)后,得到亮點(diǎn)文本564篇。JOI創(chuàng)刊于2007年,2021年JCR分區(qū)位于Q2,期刊影響因子為4.373,是信息計(jì)量學(xué)領(lǐng)域權(quán)威期刊。國(guó)內(nèi)外許多研究者以JOI 為數(shù)據(jù)分析信息計(jì)量學(xué)領(lǐng)域的研究趨勢(shì),如Halevi G 等通過JOI期刊論文的引文語(yǔ)境分析,揭示其跨學(xué)科領(lǐng)域的主題演變[6],劉麗敏等以JOI 為樣本分析國(guó)際信息計(jì)量學(xué)研究足跡與知識(shí)結(jié)構(gòu)[7]。JOI自2013年起實(shí)行ScienceDirect對(duì)出版論文亮點(diǎn)提出的要求,即規(guī)定亮點(diǎn)由3-5個(gè)獨(dú)立句子構(gòu)成,每一句的長(zhǎng)度限定為包括空格在內(nèi)的85 個(gè)字符,內(nèi)容上主要介紹研究中新穎的成果和新方法。一篇論文的亮點(diǎn)如下例所示[8]:
·Exploring knowledge communication and scientific structure by author direct-citation.
·Author direct-citation analysis among prolific,highly cited,and core authors.
· Research subjects on information science around the world be divided into 10 clusters.
·Author direct-citation analysis is different from author co-citation analysis.
通過對(duì)亮點(diǎn)語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),564篇亮點(diǎn)文本主要由3-5個(gè)語(yǔ)句構(gòu)成,其中有3篇包含6條語(yǔ)句,羅列要點(diǎn)的語(yǔ)句總數(shù)量為2,341條,單詞總數(shù)為32,875 個(gè),平均每篇亮點(diǎn)長(zhǎng)度為58.29個(gè)單詞,每條要點(diǎn)平均長(zhǎng)度為14.04 個(gè)單詞。表1描述不同語(yǔ)句長(zhǎng)度亮點(diǎn)的基本統(tǒng)計(jì)概況。
表1 亮點(diǎn)語(yǔ)料庫(kù)統(tǒng)計(jì)描述
亮點(diǎn)位于論文摘要之前的重要位置,要求以簡(jiǎn)短的篇幅和通俗的語(yǔ)言展示最重要的方法或結(jié)論,對(duì)學(xué)術(shù)論文進(jìn)行宣傳推廣,能引起讀者的閱覽興趣,擴(kuò)大文章的傳播范圍,提升文章潛在利用的可能性。作者進(jìn)行亮點(diǎn)編寫時(shí)需要關(guān)注語(yǔ)言特征,在觀點(diǎn)表達(dá)以及讀者互動(dòng)上使用一定的策略,才能達(dá)到更好的宣傳效果。本文使用多維度分析法,結(jié)合論文摘要進(jìn)行比較研究,考察亮點(diǎn)語(yǔ)言特征的使用情況,并探究論文被引次數(shù)與亮點(diǎn)語(yǔ)言特征的關(guān)系,分析高被引論文的亮點(diǎn)在語(yǔ)言風(fēng)格上的傾向性,為作者撰寫亮點(diǎn)的語(yǔ)言表述提供參考。
多維度分析法(Multidimensional Analysis,MDA)是由Douglas Biber提出的語(yǔ)言特征量化研究方法,其基本思想是文本的語(yǔ)言表達(dá)形式反映了文本的交際、認(rèn)知和語(yǔ)境等功能,而文本的某一功能對(duì)應(yīng)一組具有相關(guān)性的詞匯語(yǔ)法特征。Biber利用LLC英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)和LOB英語(yǔ)書面語(yǔ)語(yǔ)料庫(kù),選取且確定了67個(gè)語(yǔ)言特征,并統(tǒng)計(jì)它們?cè)诿總€(gè)語(yǔ)篇中的分布頻率,采用因子分析法將語(yǔ)篇中共現(xiàn)的語(yǔ)言特征歸結(jié)為7個(gè)因子,代表7個(gè)語(yǔ)言功能分析維度,每一維度的語(yǔ)言特征又根據(jù)因子載荷的正負(fù)值分為功能相反的兩類。不同語(yǔ)域的文本使用的語(yǔ)言特征在各維度上的分布不同,從而體現(xiàn)出文本語(yǔ)言功能的差異。7 個(gè)維度具體包括:維度1,交互性/信息性表達(dá)(Involved vs.Informational production);維度2,敘述性/非敘述性關(guān)切(Narrative vs. Nonnarrative concerns);維度3,明確指稱/情景依賴型指稱(Explicit vs. Situation- dependent Reference);維度4,顯性勸說(shuō)型表述(Overt Expression of Persuasion);維度5,抽象信息/非抽象信息(Abstract vs.Non-abstract Information)維度6,即席信息組織精細(xì)度(Online Information Elaboration);維度7,學(xué)術(shù)性模糊表達(dá)(Academic Hedging),維度7由于數(shù)據(jù)量的單薄在實(shí)際研究中通常被省略。每個(gè)維度上分布有數(shù)量不同的語(yǔ)言特征,同一維度上可能存在性質(zhì)相對(duì)、功能相反的兩組特征,如維度1中代表文本強(qiáng)交互性的特征(如第一人稱代詞和現(xiàn)在時(shí)態(tài))為正特征,代表文本強(qiáng)信息性的特征(如名詞和形容詞)為負(fù)特征。多維度分析法廣泛應(yīng)用于語(yǔ)域差異研究,如高校學(xué)生學(xué)術(shù)英語(yǔ)寫作水平在培訓(xùn)前后的縱向?qū)Ρ萚9],博士論文摘要的歷時(shí)對(duì)比[10],英語(yǔ)學(xué)習(xí)者和母語(yǔ)者論文的寫作風(fēng)格對(duì)比[11],以及著作不同翻譯版本的特征對(duì)比[12]。該方法從不同功能維度考察亮點(diǎn)的語(yǔ)言特征使用情況,與多元統(tǒng)計(jì)分析結(jié)合可以針對(duì)不同的文本進(jìn)行量化比較分析。
本文使用多維度標(biāo)注與分析工具M(jìn)AT(Multidimensional Analysis Tagger),該軟件整合Biber的8種語(yǔ)域類別、67個(gè)語(yǔ)言特征和前6個(gè)功能維度,借助斯坦福詞性賦碼器(Stanford Tagger)對(duì)詞性和語(yǔ)言功能特征進(jìn)行標(biāo)注,實(shí)現(xiàn)多維度分析過程中文本標(biāo)注、特征提取和數(shù)據(jù)統(tǒng)計(jì)等一系列工作的自動(dòng)化操作,并輸出文本最接近類型、每個(gè)語(yǔ)言特征的出現(xiàn)頻率、頻率標(biāo)準(zhǔn)化后的得分(Z-scores,Z分?jǐn)?shù))、每個(gè)維度的維度分(Dimension Scores)。維度分的計(jì)算規(guī)則是,因子載荷為正值和負(fù)值的兩類語(yǔ)言特征Z分?jǐn)?shù)之和相減,如維度1:D1=(ZPRIV+ZTHATD+ZVPRT+……)-(ZNN+ZAWL+ZJJ+……)。將564篇亮點(diǎn)文本分別以txt文件保存并導(dǎo)入MAT進(jìn)行全部語(yǔ)言特征標(biāo)簽的標(biāo)記與分析,獲取每篇亮點(diǎn)文本的維度分和Z分?jǐn)?shù),以及該篇亮點(diǎn)文本最接近的文本類型,將以上數(shù)據(jù)導(dǎo)入Excel和SPSS以備分析和檢驗(yàn)。
根據(jù)MAT標(biāo)注分析結(jié)果得到亮點(diǎn)文本564篇,學(xué)術(shù)論文亮點(diǎn)整體語(yǔ)料庫(kù)“最接近文本類型”為學(xué)術(shù)說(shuō)明型(Learned Exposition)。學(xué)術(shù)說(shuō)明型文本是典型的正式的信息說(shuō)明文本,注重傳遞信息[13],表現(xiàn)在維度1得分較低,維度3和維度5得分較高。從單篇亮點(diǎn)的標(biāo)注結(jié)果來(lái)看,所有文本歸類共呈現(xiàn)4種形式,學(xué)術(shù)說(shuō)明型(481篇,85.3%)占據(jù)主體,另有少量文本最接近科學(xué)說(shuō)明型(Scientific Exposition)(41篇,7.3%)、一般敘述型(General Narrative Exposition)(29 篇,5.1%)和交互勸說(shuō)型(Involved Persuasion)(13篇,2.3%)。語(yǔ)料庫(kù)整體的維度分以及各類型亮點(diǎn)文本6個(gè)維度分平均值如圖2所示。維度1分?jǐn)?shù)越低,表明文本的語(yǔ)言中偏向信息性的特征(負(fù)特征)越多,反之則傾向于情感交互性的表達(dá),一般分別對(duì)應(yīng)書面語(yǔ)和口語(yǔ)對(duì)話,亮點(diǎn)文本在維度1的負(fù)值低分呈現(xiàn)出其較強(qiáng)的信息性。維度2的分值從正到負(fù)意味著文本語(yǔ)言特征由敘述性到非敘述性的轉(zhuǎn)換,亮點(diǎn)的負(fù)分值表明文本的非敘述性特征密集出現(xiàn)。維度3的高分表明亮點(diǎn)文本指稱明確且不依賴于時(shí)間地點(diǎn)等情境。維度4上,大量文本的負(fù)分值顯示其呈現(xiàn)較弱的勸說(shuō)性。維度5的高分表明信息抽象程度較高,文本詞匯的技術(shù)性較強(qiáng)。維度6的負(fù)值表示文本以將信息囊括在較少的詞匯和句子中這樣完整的方式來(lái)詳述,并不是有限時(shí)間內(nèi)的即興語(yǔ)言組織[14]??傮w上,亮點(diǎn)的語(yǔ)言表達(dá)呈現(xiàn)信息性、技術(shù)性和精確性較強(qiáng),互動(dòng)性、敘述性和勸說(shuō)性較弱的特點(diǎn)。
圖2 各類型亮點(diǎn)維度分平均值
亮點(diǎn)與摘要在內(nèi)容上有說(shuō)明研究方法和結(jié)果結(jié)論的相似之處,但前者在語(yǔ)言上更為簡(jiǎn)潔凝練,并要求面向一般受眾,不使用專業(yè)性強(qiáng)的文字表述。為了對(duì)比分析二者在語(yǔ)言風(fēng)格上的差異,將獲取的摘要數(shù)據(jù)利用MAT以同樣的方式完成標(biāo)注分析,借助SPSS對(duì)兩類文本的6個(gè)維度分和全部語(yǔ)言特征Z 分?jǐn)?shù)進(jìn)行獨(dú)立樣本T 檢驗(yàn)。檢驗(yàn)結(jié)果顯示,在維度2、維度3、維度5、維度6上,亮點(diǎn)與摘要文本存在顯著差異,而維度1和維度4的差異不顯著,兩類文本均值差異如圖3所示。
圖3 亮點(diǎn)與摘要維度分均值差異
在語(yǔ)言特征上,由于文本長(zhǎng)度和內(nèi)容撰寫重點(diǎn)的不同,摘要運(yùn)用的語(yǔ)言特征種類和頻次明顯多于亮點(diǎn)。為了排除幾乎未被使用的語(yǔ)言特征的干擾,確定亮點(diǎn)文本中實(shí)際影響各維度的具體語(yǔ)言特征,先對(duì)亮點(diǎn)和摘要每個(gè)維度分及其對(duì)應(yīng)的語(yǔ)言特征Z分?jǐn)?shù)進(jìn)行逐步回歸,從而得到每個(gè)維度真實(shí)使用的語(yǔ)言特征變量,然后在回歸結(jié)果的基礎(chǔ)之上進(jìn)行比較,表2展示了獨(dú)立樣本T檢驗(yàn)結(jié)果中,亮點(diǎn)和摘要各維度存在明顯差異的具體語(yǔ)言特征。
表2 亮點(diǎn)與摘要的各維度語(yǔ)言特征差異
根據(jù)回歸分析結(jié)果,維度1“交互性/信息性表達(dá)”中,進(jìn)入方程的語(yǔ)言特征變量有可能意義情態(tài)動(dòng)詞(POMD)、定語(yǔ)形容詞(JJ)、名詞(NN)等。在偏向信息性表達(dá)的語(yǔ)言特征中,亮點(diǎn)的平均詞長(zhǎng)(AWL)、名詞(NN)和定語(yǔ)形容詞(JJ)出現(xiàn)頻率均高于摘要,它們都用于確定具體的信息以增加文本的信息密度。交互性表達(dá)中,亮點(diǎn)中出現(xiàn)highly、strongly、very、completely、greatly等增強(qiáng)語(yǔ)(AMP)的相對(duì)頻率更高,體現(xiàn)在程度、數(shù)量關(guān)系、作用強(qiáng)度的表述上,用以強(qiáng)化觀點(diǎn)、表明文章立場(chǎng),提升對(duì)論文的宣傳作用。整體而言維度1 差異不顯著,摘要的維度分平均值更高,因而兩類文本均偏向信息性表達(dá),但摘要與讀者的情感互動(dòng)性相對(duì)更強(qiáng)。
維度2“敘述性關(guān)切”中,回歸分析顯示,主要影響因素包括公動(dòng)詞(PUBV)、現(xiàn)在分詞從句(PRESP)、完成時(shí)態(tài)(PEAS)等語(yǔ)言特征。存在顯著差異的第三人稱代詞(TPP3)、完成時(shí)態(tài)、現(xiàn)在分詞從句等3個(gè)語(yǔ)言特征在摘要的出現(xiàn)頻率均大于亮點(diǎn),摘要的維度分均值更高,具有更強(qiáng)的敘述性。例如,文獻(xiàn)[15]的亮點(diǎn)指出研究方法:“An Index of National Orientation (INO) is used,based on the geographical distribution of a journals’publishing and citing authors.”在摘要中的對(duì)應(yīng)論述“It calculates for journals covered in Scopus an Index of National Orientation(INO),and analyses the distribution of INO values across disciplines and countries,and the correlation between INO values and journal impact factors”則展開說(shuō)明了該方法的應(yīng)用場(chǎng)景和對(duì)象,使用到更多的分句和代詞。同時(shí),亮點(diǎn)論述的研究結(jié)論并不涵蓋全部,而是在有限的篇幅內(nèi)選擇最重要的加以展示,相比摘要會(huì)省略“It is found that”“The main findings are”“Our analysis shows that”等引導(dǎo)性用語(yǔ),顯示更弱的敘述性。
維度3“明確指稱/情景依賴型指稱”所識(shí)別的預(yù)測(cè)變量有并列短語(yǔ)(PHC)、地點(diǎn)狀語(yǔ)(PLACE)、名詞化(NOMZ)、時(shí)間狀語(yǔ)(TIME)等7個(gè)。呈現(xiàn)顯著差異的語(yǔ)言特征中,亮點(diǎn)的名詞化和并列短語(yǔ)的頻率高于摘要,偏向情景依賴的一般副詞和時(shí)間狀語(yǔ)的使用少于摘要;由于其逐條羅列的形式特點(diǎn),不依賴上下文的程度明顯強(qiáng)于摘要。
維度4“顯性勸說(shuō)型表述”,經(jīng)過6次逐步回歸分析,得到不定式(TO)、分裂助動(dòng)詞(SPAU)、勸說(shuō)性動(dòng)詞(SUAV)等6個(gè)最佳預(yù)測(cè)變量。維度4的t檢驗(yàn)結(jié)果差異不顯著,數(shù)值上摘要的得分平均值略高于亮點(diǎn),有顯著差異的不定式、預(yù)期情態(tài)動(dòng)詞和分裂助動(dòng)詞等3 個(gè)語(yǔ)言特征均略高于亮點(diǎn)。
維度5“抽象信息”納入的預(yù)測(cè)變量包含4個(gè):無(wú)主被動(dòng)式(PASS)、過去分詞省略WH 式(WZPAST)、 連詞(CONJ)、 其他狀語(yǔ)從句(OSUB)。亮點(diǎn)得分均值顯著低于摘要,摘要中更多使用連詞和其他狀語(yǔ)從句,增加了信息的抽象程度和技術(shù)性,原因是摘要中闡述研究問題和研究背景的語(yǔ)句更多。但在有限的文本篇幅中,亮點(diǎn)不帶施動(dòng)者的被動(dòng)語(yǔ)態(tài)應(yīng)用的頻率更高,主因是“is proposed”“is compared”“is analyzed”“is constructed”“is used”“is introduced”等表示研究方法的被動(dòng)形式的普遍應(yīng)用。
維度6“即席信息組織精細(xì)度”的最佳預(yù)測(cè)變量有2個(gè):指示詞(DEMO)和that從句作動(dòng)詞補(bǔ)語(yǔ)(THVC)。同樣地,摘要得分的平均值更高。that等指示詞及其引導(dǎo)從句作補(bǔ)語(yǔ)的情況出現(xiàn)較多,因而信息組織更為精細(xì)嚴(yán)密,是亮點(diǎn)相較于摘要語(yǔ)言篇幅更短的體現(xiàn)。
綜上所述,亮點(diǎn)與摘要整體維度趨勢(shì)具有相似性。在信息密集的同時(shí),亮點(diǎn)相對(duì)不注重與讀者的互動(dòng),更加強(qiáng)調(diào)語(yǔ)言的描述性和說(shuō)明性,比起摘要顯示出相對(duì)更弱的敘事性和勸說(shuō)性,以及更強(qiáng)的內(nèi)容獨(dú)立性和指向明確性。另外,數(shù)據(jù)表明,摘要平均詞數(shù)(176.9)是亮點(diǎn)平均詞數(shù)(58.3)的3倍以上。摘要中研究背景和過程的敘述,增加了讀者獲取文章創(chuàng)新內(nèi)容的閱讀成本,而亮點(diǎn)用于增強(qiáng)語(yǔ)氣、增強(qiáng)信息密度的語(yǔ)法表達(dá)以及被動(dòng)語(yǔ)態(tài)明顯多于摘要,且語(yǔ)言組織不求復(fù)雜精細(xì),內(nèi)容表述不依賴上下文,對(duì)作者立場(chǎng)觀點(diǎn)的傳遞更為簡(jiǎn)潔、明確有力。
為探究論文被引次數(shù)與亮點(diǎn)語(yǔ)言特征的關(guān)系,借鑒文獻(xiàn)[16]引文預(yù)測(cè)模型的四分位數(shù)分類法,將564篇亮點(diǎn)文本依據(jù)論文被引次數(shù)劃分為4個(gè)區(qū)間,分別為Q1:被引次數(shù)0~5;Q2:被引次數(shù)6~10;Q3:被引次數(shù)11~20;Q4:被引次數(shù)21 及以上,使得每一區(qū)間亮點(diǎn)的篇數(shù)相當(dāng)。由于數(shù)據(jù)樣本不完全滿足方差齊性,采用Kruskal-Wallis單因素ANOVA分析,對(duì)不同引文區(qū)間的亮點(diǎn)的維度分以及語(yǔ)言特征Z分?jǐn)?shù)的差異進(jìn)行檢驗(yàn),P<0.05認(rèn)為有顯著差異。結(jié)果顯示,不同引文區(qū)間的亮點(diǎn)文本在6個(gè)維度上無(wú)明顯差異,在具體語(yǔ)言特征上差異達(dá)到顯著水平的有:獨(dú)立并列從句(ANDC)、勸說(shuō)性動(dòng)詞(SUAV)、強(qiáng)調(diào)語(yǔ)(EMPH)、基數(shù)詞(CD)和數(shù)量詞(QUAN)。
獨(dú)立并列從句主要指逗號(hào)后接and連詞引導(dǎo)的句式,如“Technical details on the construction,visualization,and analysis of citation networks are discussed.”。勸說(shuō)性動(dòng)詞主要指propose、suggest、allow、determine、recommend、intend、prefer 等帶有觀點(diǎn)性的動(dòng)詞。強(qiáng)調(diào)語(yǔ)主要指more、most、really、so、do等表示強(qiáng)調(diào)副詞的應(yīng)用,在研究結(jié)果中突出比較關(guān)系?;鶖?shù)詞指文本中出現(xiàn)的所有數(shù)值,包括年份、比例、個(gè)數(shù)、版本等各種數(shù)字表示。數(shù)量詞指some、all、many、any、few、several等表示數(shù)量的修飾語(yǔ)。
根據(jù)表3的成對(duì)比較結(jié)果,除勸說(shuō)性動(dòng)詞在被引次數(shù)更高論文的亮點(diǎn)中使用較少(Q4>Q1)外,其余4 種語(yǔ)言特征在Q4 的使用頻率均更高。即,被引次數(shù)更高的論文,其亮點(diǎn)通常會(huì)更多使用獨(dú)立并列從句、強(qiáng)調(diào)語(yǔ)、基數(shù)詞、數(shù)量詞,更少使用的勸說(shuō)性動(dòng)詞。這可能是由于獨(dú)立并列從句比長(zhǎng)句更容易閱讀,強(qiáng)調(diào)語(yǔ)、基數(shù)詞和數(shù)量詞以比較和量化的方式,直觀展示論文的重點(diǎn)信息,更容易被瀏覽發(fā)現(xiàn),吸引閱讀興趣。通過對(duì)語(yǔ)料庫(kù)標(biāo)注信息的檢索,勸說(shuō)性動(dòng)詞在亮點(diǎn)中的使用以“propose”及其改變形式為主,而新提出的理論、方法、模型、技術(shù)可能需要?dú)v經(jīng)更長(zhǎng)時(shí)期的檢驗(yàn),才得到廣泛利用。
表3 不同引文區(qū)間亮點(diǎn)各維度和語(yǔ)言特征對(duì)比
在反映科技創(chuàng)新主題和研究熱點(diǎn)上,相比于廣泛應(yīng)用的文獻(xiàn)摘要等題錄信息,亮點(diǎn)經(jīng)由作者遴選,精練了論文中最具特色的方法和最重要的發(fā)現(xiàn),其獨(dú)立成句的形式排除了大量語(yǔ)義信息,為識(shí)別創(chuàng)新的研究方法和結(jié)論提供了更為便捷的條件。本文首先采用LDA主題建模方法從整體上識(shí)別亮點(diǎn)語(yǔ)篇,其次對(duì)亮點(diǎn)語(yǔ)句逐條進(jìn)行人工分類標(biāo)注,并根據(jù)分類結(jié)果使用VOSviewer進(jìn)行文本挖掘,從而梳理亮點(diǎn)在表達(dá)論文創(chuàng)新主題上的內(nèi)部特征,以及不同類型亮點(diǎn)的分布特征。
LDA主題模型的應(yīng)用能增強(qiáng)學(xué)科領(lǐng)域研究熱點(diǎn)的語(yǔ)義信息解釋性[17]。針對(duì)亮點(diǎn)文本的總體內(nèi)容特征,利用Python對(duì)數(shù)據(jù)預(yù)處理,清洗不必要的符號(hào)并將亮點(diǎn)文本進(jìn)行分詞和詞形還原,使用nltk 停用詞表對(duì)分詞結(jié)果進(jìn)行停用詞過濾處理,調(diào)用WordNet內(nèi)置函數(shù)實(shí)現(xiàn)詞形還原,并自行設(shè)置同義詞和停用詞讀取替換,計(jì)算并保存文本詞頻結(jié)果。經(jīng)過統(tǒng)計(jì)和分類后,出現(xiàn)頻率較高的名詞和形容詞關(guān)鍵詞見表4。
表4 亮點(diǎn)高頻關(guān)鍵詞統(tǒng)計(jì)
在主題建模階段,通過工具包Gensim 中LdaModel 函數(shù)結(jié)合TF-IDF 加權(quán)處理方法對(duì)經(jīng)過清洗后的亮點(diǎn)文本進(jìn)行迭代訓(xùn)練,在困惑度隨主題數(shù)目增加而上升的情況下,選用一致性檢驗(yàn)方法確定最優(yōu)主題數(shù)目,形成主題-特征詞分布。不斷調(diào)整各項(xiàng)參數(shù)以提升主題結(jié)果的可解釋性,最終設(shè)置主題數(shù)為10,迭代次數(shù)為600,每組特征詞個(gè)數(shù)為100。形成主題特征詞分布后,分別依據(jù)主題詞內(nèi)容進(jìn)行命名,選取每個(gè)主題前20個(gè)關(guān)鍵詞,如表5所示。引文分析主題趨向引文預(yù)測(cè)模型、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的比較評(píng)估、引文與其他因素的影響作用關(guān)系等研究??蒲兄黝}類涉及學(xué)術(shù)研究和社交網(wǎng)絡(luò)中的熱點(diǎn)主題挖掘以及學(xué)科領(lǐng)域的主題演化。期刊與出版物主題關(guān)注出版物的分類、影響力、書目特征和開放獲取。影響因子主題主要研究JIF為主的期刊影響力指數(shù),涉及計(jì)算方式的優(yōu)化比較以及標(biāo)準(zhǔn)化方法的應(yīng)用,如文獻(xiàn)[18]指出對(duì)于JIF計(jì)算,幾何平均值比算術(shù)平均值給出更穩(wěn)定的結(jié)果。績(jī)效評(píng)價(jià)主題關(guān)注學(xué)者、高校等科研機(jī)構(gòu)績(jī)效的影響因素和評(píng)價(jià)方法。專利計(jì)量主題主要探討專利引用的方法和科學(xué)技術(shù)的聯(lián)系、發(fā)展與融合,如文獻(xiàn)[19]利用文本相似性論證專利引用可以表示知識(shí)鏈接。合作主題涉及研究人員、科研機(jī)構(gòu)、國(guó)家層面跨領(lǐng)域合作的動(dòng)態(tài)網(wǎng)絡(luò)、合作模式、作用效果以及性別差異等??萍贾笜?biāo)主要研究h 指數(shù)、g指數(shù)基礎(chǔ)上新指標(biāo)的構(gòu)建和應(yīng)用,同時(shí)關(guān)注基于社交網(wǎng)絡(luò)的替代計(jì)量指標(biāo)。方法和技術(shù)主題指面向解決領(lǐng)域問題所提出的方法模型和軟件工具,如引文網(wǎng)絡(luò)分析與可視化工具CitNetExplorer[20]和科學(xué)地圖分析工具bibliometrix[21]。網(wǎng)絡(luò)分析主題主要包括社會(huì)網(wǎng)絡(luò)、復(fù)雜網(wǎng)絡(luò)等分析方法在信息計(jì)量學(xué)中的應(yīng)用。對(duì)比目前已有利用題錄數(shù)據(jù)分析信息計(jì)量學(xué)知識(shí)結(jié)構(gòu)的研究,田沛霖等通過分析Journal of Informetrics的文獻(xiàn)題錄數(shù)據(jù),總結(jié)評(píng)價(jià)指標(biāo)的理論與實(shí)踐、網(wǎng)絡(luò)指標(biāo)對(duì)績(jī)效的影響、高校科研績(jī)效評(píng)價(jià)、期刊影響力與跨學(xué)科性測(cè)度、基于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的引文分析、研究的社會(huì)影響測(cè)度6個(gè)主題社區(qū)[22],其歸納的知識(shí)來(lái)源與上述部分識(shí)別結(jié)果基本對(duì)應(yīng),另有科研主題、專利計(jì)量、合作、方法和技術(shù)等主題與該研究總結(jié)的高頻關(guān)鍵詞大致契合,表明亮點(diǎn)在內(nèi)容特征上具有表達(dá)論文核心主題的功能,可用于揭示特定學(xué)科領(lǐng)域的研究結(jié)構(gòu)。
表5 亮點(diǎn)主題-特征詞分布
3.2.1 亮點(diǎn)類型分布特征
ScienceDirect作者指南要求,亮點(diǎn)應(yīng)突出創(chuàng)新的研究成果或研究方法。結(jié)合對(duì)亮點(diǎn)文本內(nèi)容的判讀,本文將亮點(diǎn)劃分為方法型亮點(diǎn)、結(jié)論型亮點(diǎn)和其他型亮點(diǎn)。方法型亮點(diǎn)描述了研究采用的具體研究方法、數(shù)據(jù)來(lái)源、研究設(shè)計(jì)流程,介紹提出的新方法、新方法的功能效果、新技術(shù)工具等,對(duì)應(yīng)“提出、測(cè)量、分析、使用、比較”等動(dòng)詞關(guān)鍵詞。結(jié)論型亮點(diǎn)總結(jié)了研究結(jié)果或結(jié)論,以及結(jié)果相關(guān)討論,對(duì)應(yīng)了發(fā)現(xiàn)、確定、展現(xiàn)、揭示、建議等動(dòng)詞關(guān)鍵詞。除此之外,部分亮點(diǎn)還會(huì)涉及研究目的和意義、研究背景和問題,歸屬于其他型亮點(diǎn)。人工分類標(biāo)注由兩位成員共同進(jìn)行,首先通過閱讀梳理就分類標(biāo)準(zhǔn)達(dá)成一致,然后相互獨(dú)立初步標(biāo)注50篇作為試驗(yàn)樣本,對(duì)存在分歧之處通過討論進(jìn)一步調(diào)整和完善類型的定義,確定更加明確的區(qū)分細(xì)并完成全部文本的標(biāo)注。最終分類結(jié)果Kappa 系數(shù)達(dá)到了0.8以上,具有較高的信度。
在單條語(yǔ)句層面,數(shù)據(jù)集共有2,341 條亮點(diǎn),涵蓋方法型亮點(diǎn)1,053條,分布于428篇文獻(xiàn);結(jié)論型亮點(diǎn)1,133條,分布于433篇文獻(xiàn);其他型亮點(diǎn)155條,分布于132篇文獻(xiàn),見表6。在語(yǔ)篇層面,亮點(diǎn)語(yǔ)篇包含6種結(jié)構(gòu):(1)全部為方法型,共96 篇;(2)全部為結(jié)論型,共106 篇;(3)方法型和結(jié)論型,共230篇;(4)方法型和其他型,共34 篇;(5)結(jié)論型和其他型,共29 篇;(6)方法型、結(jié)論型和其他型,共29 篇。另有1 篇只提出研究問題,為其他型亮點(diǎn)。圖4 展示了亮點(diǎn)語(yǔ)篇結(jié)構(gòu),藍(lán)色、紅色、黃色依次代表方法型、結(jié)論型和其他型的3 類亮點(diǎn)成分,交叉重疊后形成6 個(gè)系列色塊,分別代表了上述6 種結(jié)構(gòu)。由統(tǒng)計(jì)結(jié)果發(fā)現(xiàn),方法型亮點(diǎn)和結(jié)論型亮點(diǎn)總體數(shù)量接近,結(jié)構(gòu)(1)和結(jié)構(gòu)(2)的占比相當(dāng),約有一半的亮點(diǎn)語(yǔ)篇同時(shí)論述了方法和結(jié)論,通篇僅闡述方法或僅說(shuō)明結(jié)論的分別約占四分之一,顯示了研究方法和研究結(jié)論在亮點(diǎn)中具有同等重要性。
表6 亮點(diǎn)語(yǔ)句類型分布
圖4 亮點(diǎn)語(yǔ)篇結(jié)構(gòu)
3.2.2 分類主題挖掘
圖5 方法型亮點(diǎn)主題共現(xiàn)
圖6 結(jié)論型亮點(diǎn)主題共現(xiàn)
在分類標(biāo)注的基礎(chǔ)上,利用VOSviewer文本主題挖掘功能,將摘要字段替換為亮點(diǎn)文本,設(shè)置同義詞替換和不同詞性詞合并,如h-index 與hirsch index、h index,normalize 和normalization,對(duì)方法型亮點(diǎn)和結(jié)論創(chuàng)新型亮點(diǎn)分別進(jìn)行主題可視化分析,見圖5-6。方法型亮點(diǎn)描述具體方法創(chuàng)新和特色,包括其他領(lǐng)域方法的引入或已有方法的創(chuàng)新,也包括新方法的提出或原有方法基礎(chǔ)上的有效改進(jìn)。JOI鼓勵(lì)投稿使用其他定量領(lǐng)域的方法研究信息問題[23],如數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、經(jīng)濟(jì)學(xué)和計(jì)量經(jīng)濟(jì)學(xué)以及網(wǎng)絡(luò)科學(xué)。由于樣本限制以及新穎方法的獨(dú)特性,聚類結(jié)果較為分散,參考輸出的分詞結(jié)果列表將方法進(jìn)行歸類,主要有6 種。(1)信息計(jì)量指標(biāo)。傳統(tǒng)引文分析指標(biāo)中影響因子、h指數(shù)、g指數(shù)指標(biāo)依舊出現(xiàn)頻率較高,Almetric指標(biāo)及Mendeley、Twitter等社交媒體新型評(píng)價(jià)工具也受到學(xué)術(shù)界關(guān)注,還有如百分位數(shù)排序位置指標(biāo)(percentage rank position,PRP)、引文時(shí)間窗(citation time window)和作者共引統(tǒng)計(jì)等指標(biāo)。(2)科研績(jī)效評(píng)價(jià)方法。數(shù)據(jù)包絡(luò)分析方法(data envelopment analysis,DEA)在期刊、機(jī)構(gòu)、國(guó)家和地區(qū)績(jī)效評(píng)價(jià)中廣泛應(yīng)用創(chuàng)新。此外,統(tǒng)計(jì)標(biāo)準(zhǔn)化方法探索較多,如分?jǐn)?shù)計(jì)數(shù)法(fractional counting)、被引端標(biāo)準(zhǔn)化(cited-side normalization)和施引端標(biāo)準(zhǔn)化(citingside normalization),以及具體的來(lái)源標(biāo)準(zhǔn)化方法(source normalization approach)和平均標(biāo)準(zhǔn)化讀者得分(mean normalized reader score,MNRS)。(3)數(shù)據(jù)統(tǒng)計(jì)方法,包括主成分分析法(principal component analysis)、回歸模型(regression model)、TF-IDF 算法、相似度計(jì)算(similarity)、 聚類(cluster)、時(shí)間序列分析(time series)、可視化方法(visualization)、魯棒性測(cè)試(robustness)。(4)網(wǎng)絡(luò)分析方法,如引文網(wǎng)絡(luò)、社會(huì)網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、作者共現(xiàn)網(wǎng)絡(luò)、合作網(wǎng)絡(luò)、異構(gòu)網(wǎng)絡(luò)、二部網(wǎng)絡(luò)、度分布(degree distribution)。(5)數(shù)據(jù)挖掘方法,如機(jī)器學(xué)習(xí)(machine learning)、主題模型(topic model)、PageRank 算法、優(yōu)先連接算法(preferential attachment)。(6)跨學(xué)科方法,如以數(shù)學(xué)為基礎(chǔ)的公理化方法(axiom)、經(jīng)濟(jì)學(xué)的基尼系數(shù)(Gini coefficient)以及合作博弈與收益分配的沙普利值方法(shapley value)。除具體方法之外,部分文獻(xiàn)主要提出新理論和概念框架,通常伴隨案例研究的實(shí)證,WoS、Google Scholar、Scopus、國(guó)家自然科學(xué)基金委員會(huì)等平臺(tái)機(jī)構(gòu),以及意大利等國(guó)家地區(qū)大量出現(xiàn)于數(shù)據(jù)源中,醫(yī)藥學(xué)、物理學(xué)、3D打印領(lǐng)域是主要的熱點(diǎn)分析領(lǐng)域。
結(jié)論型亮點(diǎn)通常展示基于研究對(duì)象的數(shù)據(jù)結(jié)果、被確定的關(guān)系以及得到的效果或性能。從聚類結(jié)果來(lái)看,相較于方法型亮點(diǎn),結(jié)論型亮點(diǎn)更難從語(yǔ)詞層面識(shí)別出解釋性較強(qiáng)的信息,更多涉及模式、參數(shù)、程度、表現(xiàn)、相關(guān)關(guān)系、強(qiáng)度、領(lǐng)域、結(jié)構(gòu)、重要性等表示領(lǐng)域重要內(nèi)容的詞匯。與亮點(diǎn)整體主題識(shí)別結(jié)果相似,引文、期刊影響因子、論文、專利、作者、國(guó)家、合作、出版物、績(jī)效評(píng)價(jià)、網(wǎng)絡(luò)分析等主題依舊是信息計(jì)量的重點(diǎn)研究方向。其次,更多主題和研究對(duì)象受到關(guān)注,如性別差異、開放獲取、生產(chǎn)力、信息政策、同行評(píng)議、主題挖掘,以及各個(gè)國(guó)家地區(qū)、學(xué)科領(lǐng)域、社交媒體平臺(tái)和學(xué)術(shù)平臺(tái)。另外,有一定數(shù)量的文獻(xiàn)針對(duì)不同的數(shù)據(jù)庫(kù)、計(jì)數(shù)方法或評(píng)價(jià)指標(biāo)進(jìn)行比較研究,在結(jié)論型亮點(diǎn)中直接指出各自的差異與優(yōu)勢(shì)。例如,有研究認(rèn)為,在專家判斷一致的情況下,期刊質(zhì)量評(píng)價(jià)指數(shù)中,篇均來(lái)源期刊標(biāo)準(zhǔn)影響(source normalized impact per paper,SNIP)比粗計(jì)量篇均影響(row impact per paper,RIP)或期刊影響因子有著更好的效能[24]。
學(xué)術(shù)論文亮點(diǎn)的提出旨在用簡(jiǎn)明扼要的文字,介紹論文的研究要點(diǎn),在搜索引擎中增強(qiáng)與用戶信息檢索的匹配程度,幫助讀者迅速篩選文獻(xiàn),吸引不同學(xué)科領(lǐng)域研究者的關(guān)注和理解,起到宣傳推廣論文的效果,以提升其利用率,促進(jìn)科研創(chuàng)新和知識(shí)流動(dòng)。然而,這一學(xué)術(shù)體裁鮮少得到關(guān)注,本文對(duì)其外部特征和內(nèi)部特征進(jìn)行了探索性研究。
在外部特征上,亮點(diǎn)的語(yǔ)言呈現(xiàn)較強(qiáng)的信息性和非敘述性,指稱明確不依賴語(yǔ)境,情感交互性和顯性勸說(shuō)性較弱,信息表達(dá)傾向于抽象和技術(shù)性,即席信息組織較為精細(xì)。與摘要文本對(duì)比,亮點(diǎn)文本的主要功能在于展示最重要的研究方法和研究結(jié)論,既不包含摘要中的研究問題和研究過程,也不囊括摘要中的具體方法和全部結(jié)論。獨(dú)立語(yǔ)句的形式使其指示詞和各類型從句的應(yīng)用頻率較低,但詞匯密度較高,因而能更直觀地表達(dá)核心結(jié)論。被引次數(shù)較高的論文,其亮點(diǎn)更傾向于使用較多的基數(shù)詞、數(shù)量詞、強(qiáng)調(diào)語(yǔ)和獨(dú)立并列從句。在論文亮點(diǎn)撰寫的過程中,建議作者可以更多展示具體數(shù)據(jù)和數(shù)量關(guān)系,用數(shù)字和程度副詞說(shuō)明研究所用的材料、得到的效能、確定的關(guān)系、對(duì)比的結(jié)果等,避免過于追求精煉而缺失實(shí)質(zhì)信息;必要時(shí)可以使用并列從句,避免長(zhǎng)難句帶來(lái)的閱讀阻力,從而展現(xiàn)論文的核心價(jià)值和競(jìng)爭(zhēng)力,提升編輯審稿和讀者閱讀的效率。
在內(nèi)部特征上,通過亮點(diǎn)主題識(shí)別結(jié)果與現(xiàn)有題錄信息相關(guān)研究的對(duì)比,發(fā)現(xiàn)亮點(diǎn)具有表達(dá)論文核心主題的功能,可以用于揭示特定學(xué)科領(lǐng)域的研究重點(diǎn)。亮點(diǎn)依據(jù)內(nèi)容可分為方法型亮點(diǎn)、結(jié)論型亮點(diǎn)和其他型亮點(diǎn)。單篇亮點(diǎn)基于文章屬性對(duì)研究方法和研究結(jié)論的側(cè)重有所不同,但整體結(jié)構(gòu)分布上數(shù)量相當(dāng);方法型亮點(diǎn)的文本比結(jié)論型更具可解釋性,能夠反映相關(guān)領(lǐng)域的前沿方法。亮點(diǎn)中對(duì)未來(lái)應(yīng)用進(jìn)行展望,可以作為創(chuàng)新點(diǎn)事實(shí)單元[25],相比文摘更易于分解為問題、方法、結(jié)果的實(shí)體和語(yǔ)義關(guān)系,便于機(jī)器處理和閱讀,可應(yīng)用到學(xué)術(shù)資源檢索系統(tǒng)中助力知識(shí)問答功能的智能化。
本研究的不足體現(xiàn)在:(1)采用的數(shù)據(jù)僅限于JOI期刊的564篇亮點(diǎn)文本,樣本數(shù)量存在局限性,在語(yǔ)言特征與被引數(shù)量關(guān)系以及內(nèi)容挖掘可解釋性上需要謹(jǐn)慎考慮;(2)亮點(diǎn)人工標(biāo)注分類標(biāo)準(zhǔn)上,沒有將理論創(chuàng)新單獨(dú)考慮,不同類型的亮點(diǎn)統(tǒng)計(jì)結(jié)果精確程度有待提升;(3)研究領(lǐng)域相對(duì)單一,而不同學(xué)科領(lǐng)域的論文亮點(diǎn)在方法和結(jié)論上的創(chuàng)新側(cè)重點(diǎn)不同,語(yǔ)言風(fēng)格傾向也不同,需要進(jìn)行更多的實(shí)證對(duì)比。后續(xù)將針對(duì)以上問題,完善對(duì)學(xué)術(shù)論文亮點(diǎn)的認(rèn)知和實(shí)踐探索,為亮點(diǎn)在知識(shí)交流和科研創(chuàng)新中的應(yīng)用提供參考。