梁繼文,楊建林,王偉,王飛
(1.南京大學(xué)信息管理學(xué)院,南京 210023;2.江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室,南京 210023;3.江蘇省科學(xué)技術(shù)情報研究所,南京 210042)
科技項目是側(cè)重科學(xué)研究與技術(shù)開發(fā)的獨立項目,旨在為社會經(jīng)濟發(fā)展與技術(shù)創(chuàng)新提供支持。近年來,國家在完善相應(yīng)政策法規(guī)的同時,著力提升對科技項目的資助力度以鼓勵科技創(chuàng)新,因此,科技項目肩負了更多的社會責(zé)任與使命。
高效的情報服務(wù)有助于提升科技項目政策法規(guī)的實施效果??萍柬椖亢笤u估是情報服務(wù)流程中的核心環(huán)節(jié):在科技項目通過考核之后,科技情報服務(wù)部門對有效的科技資源進行整合、組織與分析,獲取的科技情報可對立項指南進行動態(tài)反饋,并提供指向性較強的科技情報服務(wù),尤其是滿足企業(yè)/產(chǎn)業(yè)的情報需求[1],更好地促進官產(chǎn)學(xué)研融合與科技知識成果轉(zhuǎn)化,從總體上發(fā)揮科技情報服務(wù)的支持決策的功能。目前,科技項目管理中“重申請,輕評估”的現(xiàn)象時有發(fā)生,后期監(jiān)管力度欠缺,如何提升科技項目后期管理的效果成為學(xué)界關(guān)注的重點。
現(xiàn)有研究多數(shù)圍繞科技項目后評估指標體系的構(gòu)建展開,指標主要由成果產(chǎn)出、獲得獎勵、培養(yǎng)人才等幾部分構(gòu)成[2]。成果評估部分傾向于使用文獻外部計量指標,例如,以成果數(shù)量來評估項目完成程度與工作量、以成果的被引數(shù)量來評估項目的質(zhì)量等,這與我國新時期科技評估“破四唯”的理念背道而馳?!爸亓炕p質(zhì)性”的成果評估會誘發(fā)一系列問題,例如,成果文獻研究內(nèi)容與其初始設(shè)定研究內(nèi)容不符,實際項目完成情況與預(yù)期結(jié)果相去甚遠,項目后評估的高分項目名不副實、影響評審公正性,等等。產(chǎn)生上述問題的根本原因在于未能對成果內(nèi)容與科技項目的相關(guān)性進行評估,導(dǎo)致部分科技項目利用與項目自身不相關(guān)/低相關(guān)的成果文獻充數(shù)。因此,對科技項目及其成果文獻的相關(guān)性進行評估成為科技項目后評估體系中不可或缺的一環(huán),這有助于科技項目產(chǎn)出更多高相關(guān)、高質(zhì)量的成果,發(fā)揮更多的應(yīng)用價值與社會效益。
本文擬選取2012—2019年江蘇省的科技項目,使用基于偽標簽的半監(jiān)督學(xué)習(xí)方法,構(gòu)建基于BERT(bidirectional encoder representations from transformers)架構(gòu)的相似度計算模型,旨在通過科技項目與成果文獻的語義特征,識別出部分相關(guān)性較低、研究內(nèi)容相對不相符的“可疑”的成果文獻?;诖藢萍柬椖俊⒊晒墨I以及科技報告中存在的問題進行分析,促進科技情報服務(wù)機構(gòu)對科技報告資源的優(yōu)化建設(shè)與合理利用,完善科技項目后評估體系,綜合提升科技情報服務(wù)效率。
通過同行評議來評估申請項目屬于項目的“前評估”,而通過科技項目管理部門對科技項目的成果進行評價屬于項目的“后評估”[3]?,F(xiàn)有科技項目后評估研究可分為三類。
1)后評估指標體系構(gòu)建研究
項目后評估主要發(fā)生在項目管理的驗收評價與跟蹤評價階段,兩個階段具有不同的指標體系:首先,在驗收評價階段,主要基于科技管理的視角來構(gòu)建指標體系,使用定性方法分析項目方案的合理性、項目完成度、完成質(zhì)量等。其次,在跟蹤評價階段,主要基于績效評估的視角構(gòu)建指標體系,成果產(chǎn)出為“績”,成果效益為“效”。成果產(chǎn)出評估大多使用定量指標,如成果論文/專利數(shù)量、成果被引數(shù)量、獲獎數(shù)量等,而效益評估使用定性與定量的方法,定性分析經(jīng)濟/產(chǎn)業(yè)/技術(shù)的持續(xù)發(fā)展情況,定量計量新增產(chǎn)值/銷售額等。
國家自然科學(xué)基金委員會管理科學(xué)部側(cè)重于跟蹤評價階段,設(shè)置了六類一級評估指標:報告論著、學(xué)術(shù)創(chuàng)新、政策建議、效益水平、國際交流與人才培養(yǎng)[4];地方科技項目評估則將驗收評價與跟蹤評價兩階段相融合,綜合構(gòu)建評估指標體系[5-7]。
2)后評估方法研究
傳統(tǒng)的科技項目后評估方法主要包含專家法、對比分析法、邏輯框架法、層次分析法、模糊層次分析法、模糊綜合評估法等。近年來,學(xué)者進行了評估方法的創(chuàng)新,如基于DEMA(double exponen‐tial moving average)-模 糊 綜 合 法[8]、數(shù) 據(jù) 包 絡(luò)法[9-10]、加權(quán)分值計數(shù)[11]等方法構(gòu)建績效評估模型,以及使用新興機器學(xué)習(xí)技術(shù),如BP(back propaga‐tion)神經(jīng)網(wǎng)絡(luò)、SVM(support vector machines)等模型構(gòu)建項目評估模型[12]。
3)后評估結(jié)果應(yīng)用研究
后評估的成果評估結(jié)果具有較高的應(yīng)用價值,例如,基于國家自然科學(xué)基金委員會后評估結(jié)果分析特色結(jié)項單位、特優(yōu)立項人、結(jié)項單位優(yōu)勢學(xué)科[4];基于地方科技管理部門后評估結(jié)果,圍繞技術(shù)發(fā)展、資源配置、科技成果轉(zhuǎn)化等情況進行不同省份間的橫向?qū)Ρ萚9-10,13]、省份內(nèi)部的縱向分析[14],促進了區(qū)域間的合作與聯(lián)動;基于文獻計量指標分析科技項目對文獻被引的影響、項目與引文的關(guān)系[15-17],或使用CiteSpace等科學(xué)計量軟件,通過科學(xué)知識圖譜將項目成果評估可視化[18]。
根據(jù)現(xiàn)有研究關(guān)注指標體系的構(gòu)建與調(diào)整,或成果評估結(jié)果的應(yīng)用與分析,可以看出,成果評估是后評估體系的核心。但相關(guān)研究側(cè)重于從定量角度利用相關(guān)計量指標進行評價,缺乏對科技項目和成果文獻的內(nèi)容相關(guān)性評估。因此,有必要利用科技項目成果的內(nèi)容特征完善科技項目后評估體系。
本文以江蘇省科技項目為例,通過語義匹配程度對科技項目及其成果文獻的相關(guān)性評估進行探索與實踐。
目前,科技文獻數(shù)據(jù)庫常常以成果信息為主,僅標注了科技項目的編號與名稱,蘊含科技項目信息較少。由于科技項目名稱長度受限,語義信息匱乏。此外,存在以下情況:①項目名稱缺失,如項目名稱為“江蘇省XX項目”;②項目編號有誤,如項目編號中數(shù)字1誤寫為L、數(shù)字2誤寫為Z等;③項目編號對應(yīng)項目不唯一,如編號BK2XXX56同時對應(yīng)“江蘇省自然科學(xué)基金”與“江蘇省高校自然科學(xué)基金”,編號BK2XXX26同時對應(yīng)“江蘇省自然科學(xué)基金”“南通市科技計劃項目”與“南通市應(yīng)用研究計劃項目”。這些情況導(dǎo)致部分科技項目和成果文獻不對應(yīng),需要進一步補充項目的相關(guān)信息。科技報告反映了科技項目的預(yù)期目標、研究內(nèi)容與進展,記錄了科研活動全流程,可以為科技項目提供補充信息[19]。因此,本文使用科技報告外部信息補充項目的外部特征,使用高度概括研究內(nèi)容的科技報告摘要補充項目的內(nèi)容特征。
現(xiàn)有研究常使用二分類方法判斷文本相關(guān)性,但在本研究中存在以下難點:深度學(xué)習(xí)參數(shù)優(yōu)化依賴大量標注數(shù)據(jù),目前缺少面向中文科技文本的相關(guān)性標注數(shù)據(jù)集,而大量人工標注的準確性需要把控,時間成本較高,無監(jiān)督學(xué)習(xí)則難度較大。本研究使用數(shù)據(jù)增強的方法(data augmentation)對少量標注數(shù)據(jù)進行擴充,用于緩解特征稀疏。本研究數(shù)據(jù)(詳見第4.1節(jié))具有以下特點:成果作者通常與項目負責(zé)人屬于相同的學(xué)術(shù)社團/機構(gòu),即使成果內(nèi)容與項目內(nèi)容相關(guān)程度低,由于學(xué)術(shù)社團的研究領(lǐng)域相近,成果與項目仍同屬于同一領(lǐng)域或相近研究方向。因此,模型需要對較小的語義差異敏感,通過數(shù)據(jù)的相似傳遞性來進行數(shù)據(jù)增強。具體過程為:若A與B相似,A與C相似,則可得B與C相似;若A與D不相似,則可得B/C與D不相似。使用該方法可將生成數(shù)據(jù)的相關(guān)性限定在一個可控差異的范圍內(nèi),使模型對較小的語義差異更為敏感。
本文的研究框架如圖1所示,總體上由數(shù)據(jù)采集與預(yù)處理、無監(jiān)督相似度排序與基于BERT的相似度計算三部分構(gòu)成。
圖1 科技項目及其成果文獻相關(guān)性研究的總體框架
項目與成果的數(shù)據(jù)采集與預(yù)處理詳見第4.1節(jié)。在無監(jiān)督相似度排序部分,將標題/關(guān)鍵詞短文本與摘要長文本向量化后,通過不同方法計算向量相似度來衡量項目-成果的淺層語義相似度,排序后獲取不同閾值下最不相關(guān)的項目-成果,人工標注少量數(shù)據(jù)后,進行模型測評;使用相似度排序?qū)?shù)據(jù)進行強相關(guān)與不相關(guān)數(shù)據(jù)篩選,根據(jù)相似傳遞性進行數(shù)據(jù)增強構(gòu)建標注數(shù)據(jù)集。在基于BERT的相似度計算部分,構(gòu)建并訓(xùn)練基于BERT架構(gòu)的相似度計算模型,對科技項目-成果文獻的相似度進行計算并排序后,分析低相關(guān)成果文獻。
3.2.1 無監(jiān)督語義相似度計算
在衡量文本相關(guān)程度時,現(xiàn)有研究常常計算文本余弦相似度,然后根據(jù)閾值來進行相似性判定,但余弦相似度衡量向量空間中的向量夾角,與數(shù)值差異相比,方向差異更為敏感。假設(shè)有科技項目Fa,對應(yīng)成果文獻Pa1、Pa2,在缺少語境與對照信息的前提下,即使cos(Fa,Pa1)>0.9也無法直接證明成果文獻Pa1與項目Fa相關(guān),因此,直接通過設(shè)定閾值進行判斷的意義較小。本研究采用排序思想,即強相關(guān)成果文獻研究內(nèi)容與項目更相似。假設(shè)cos(Fa,Pa1)>cos(Fa,Pa2),則 與Pa2相 比,Pa1和Fa的相關(guān)性更高。
項目和成果文本主要包含標題、關(guān)鍵詞短文本與摘要長文本,本文將長、短文本分而論之。對于摘要長文本,分別使用三種方法計算相似度。
(1)M1:使用詞嵌入將文本向量化,將詞向量相加求平均值獲得句向量,計算句向量的余弦相似度。
(2)M2:根據(jù)詞匯在文本中的重要程度計算詞向量的權(quán)重,將加權(quán)詞向量相加獲取句向量,計算句向量的余弦相似度。
(3)WMD(word mover's distance):充分利用詞嵌入的領(lǐng)域遷移能力的同時,不依賴標注數(shù)據(jù),可將相似度計算任務(wù)轉(zhuǎn)化為線性規(guī)劃問題,并擁有全局最優(yōu)解。
上述三種方法均使用word2vec進行詞向量的訓(xùn)練,可將高維稀疏的文本表示為低維密集、蘊含豐富語義信息的分布式詞向量,在一定程度上對標題與關(guān)鍵詞短文本詞向量進行擴展[20]。
對于關(guān)鍵詞短文本,本文使用互信息均值來計算項目-成果相關(guān)程度。因為互信息較大的兩個詞經(jīng)常同時出現(xiàn),所以可以體現(xiàn)出兩個詞相互依賴程度。本文將成果與項目的關(guān)鍵詞進行匹配。匹配不成功的成果關(guān)鍵詞由多個詞組成,將其分詞后再次與項目關(guān)鍵詞匹配。對于標題短文本,使用BERT[21]模型進行預(yù)訓(xùn)練,基于上下文語境,獲取標題文本的動態(tài)句向量后計算余弦相似度。模型具體原理參見第3.2.2節(jié)。
3.2.2 基于BERT的相似度計算模型構(gòu)建
1)融合模型
本文提出了基于BERT架構(gòu)的多模型融合的相似度計算方法,模型示意圖如圖2所示。
圖2 基于BERT架構(gòu)的融合模型示意圖
BERT[21]是基于Transformer架構(gòu)的語言表征模型,雙向自注意力機制可以更好地提取上下文語義特征;在大規(guī)模語料上以masked language model與next sentence predict為目標進行無監(jiān)督訓(xùn)練,使其具有較強的泛化能力。
在輸入部分,BERT分別對兩個輸入的句子進行表示學(xué)習(xí)(sentence embedding),[CLS]是句子的首個Token,最終對應(yīng)隱層的輸出作為整個句子的向量表示;[SEP]是兩個句子的分隔符。原始文本輸入后,經(jīng)過Token Embedding層、Segment Embed‐ding層與Position Embedding層,先將文本的Token轉(zhuǎn)換成固定維度的向量,再將句子向量拼接,并且加入文本序列位置信息,最終得到動態(tài)向量來表征上下文語義。此外,模型對單字符進行了處理,避免了中文分詞時歧義與領(lǐng)域未登錄詞帶來的誤差。在模型的輸出部分接全連接層,取最后一層中每個句子的CLS作為模型的輸出,然后輸入全連接層,通過Softmax獲取每個句子的類別概率。
BERT對文本進行mask時僅遮蓋單字符,僅使用BERT處理中文任務(wù)時,會忽略較多實體/短語的語義信息,但科技文本學(xué)科特性強、存在大量領(lǐng)域?qū)嶓w與專業(yè)概念,實體/短語的語義信息不容忽視。因此,本文將ERNIE(enhanced representation through knowledge integration)與RoBERTa(a robustly opti‐mized BERT pretraining approach)兩種模型與BERT模型進行集成。其中,ERNIE[22]在預(yù)訓(xùn)練中加入海量多源數(shù)據(jù),處理中文時將實體/短語等先驗知識masking,從而模型可以對這些先驗知識建模并學(xué)習(xí)語義;RoBERTa-large-pair[23]是面向句對任務(wù)提出的預(yù)訓(xùn)練模型,采取動態(tài)mask,將BERT中的NSP(next sentence prediction)任務(wù)替換為連續(xù)長文本輸入,使用了更大的batch以及BERT 10倍的預(yù)訓(xùn)練數(shù)據(jù)量,能夠較好地提取句對的語義信息特征。綜上所述,本文選用BERT、RoBERTa-large-pair與ERNIE三種模型進行模型融合。在輸出部分使用反函數(shù),獲取各個模型Softmax歸一化的特征值再求平均,增加樣本概率差異,獲取更多的語義信息。
2)對抗訓(xùn)練
在模型中增加對抗訓(xùn)練(adversarial training)防止模型過擬合。對抗訓(xùn)練由Goodfellow等[24]提出并應(yīng)用在圖像領(lǐng)域,通過適當(dāng)增加對抗訓(xùn)練會造成誤判的干擾樣本,來增強神經(jīng)網(wǎng)絡(luò)的魯棒性。本文在表示學(xué)習(xí)階段的embedding層加入對抗訓(xùn)練,構(gòu)建對抗樣本后加入初始詞向量對embedding矩陣進行擾動,提升文本表示的質(zhì)量?;驹砉絒25]為
其中,x、y與D分別代表輸入的數(shù)據(jù)、標簽與訓(xùn)練集;Δx與Ω是對抗擾動與擾動空間;θ是模型參數(shù);L(x+Δx,y;θ)則是單個樣本的loss;max是實現(xiàn)原始數(shù)據(jù)對應(yīng)對抗樣本訓(xùn)練時的損失最大化。在計算Δx時,本文使用FGSM方法(fast gradient sign method)[24],即
使用反向傳播梯度下降后進行標準化,以防Δx過大。
3)半監(jiān)督學(xué)習(xí)
深度學(xué)習(xí)模型中參數(shù)優(yōu)化依賴于大量的標注數(shù)據(jù),但實踐研究中獲取標注數(shù)據(jù)具有較高的人力成本與時間成本,而半監(jiān)督學(xué)習(xí)可以在基于少量標注數(shù)據(jù)提取特征的同時,學(xué)習(xí)整體數(shù)據(jù)樣本的分布與結(jié)構(gòu)。本文將標注數(shù)據(jù)與未標注數(shù)據(jù)相結(jié)合,使用基于偽標簽的半監(jiān)督學(xué)習(xí)方法進行模型訓(xùn)練,旨在借助未標注數(shù)據(jù)提升模型整體性能[26-27]。半監(jiān)督學(xué)習(xí)訓(xùn)練流程如圖3所示,使用訓(xùn)練集中的標注數(shù)據(jù)訓(xùn)練模型,然后通過該模型預(yù)測未標注數(shù)據(jù)后生成偽標簽,從而轉(zhuǎn)化為有監(jiān)督學(xué)習(xí),完成模型訓(xùn)練。
圖3 基于偽標簽的半監(jiān)督學(xué)習(xí)
實驗數(shù)據(jù)由科技項目數(shù)據(jù)與成果文獻數(shù)據(jù)組成??萍柬椖繑?shù)據(jù)來自江蘇省科技報告共享服務(wù)系統(tǒng)①http://www.jsstrs.cn/BaogaoLiulan.aspx,由項目基本信息與科技報告組成。成果文獻數(shù)據(jù)涵蓋論文與專利,但現(xiàn)有專利數(shù)據(jù)中缺少所屬項目編號,無法確定項目的專利產(chǎn)出,因此,本文將成果文獻限定為論文型成果,選取2012—2019年的江蘇省科技項目,提取科技項目數(shù)據(jù)中的項目名稱、項目編號與項目類型。通過科技項目的編號與名稱獲取科技報告,提取科技報告的報告名稱、報告摘要、項目編號、報告關(guān)鍵詞、技術(shù)領(lǐng)域、立項人單位等信息。成果文獻數(shù)據(jù)通過項目的編號在CNKI(China National Knowledge Infrastructure)學(xué)術(shù)期刊數(shù)據(jù)庫中進行匹配獲取,提取匹配文獻的標題、摘要、關(guān)鍵詞、項目編號、作者單位以及中圖分類號等信息。
首先,通過項目編號匹配項目與成果;其次,提取識別編號相同、但映射項目標題不同的成果數(shù)據(jù),剔除不屬于江蘇省科技項目的成果;最后,對比項目、報告與成果數(shù)據(jù)中的項目名稱與編號,進行多向匹配與信息修正。科技項目-成果文獻呈一對一、一對多或多對一的關(guān)系,共獲取到待評估項目-成果數(shù)據(jù)24036條。統(tǒng)計項目對應(yīng)成果的數(shù)量分布,結(jié)果如圖4所示。由圖4可知,對應(yīng)1篇成果文獻的項目有1280項,占總數(shù)的25.54%;對應(yīng)成果3篇及以下的項目共2765項,占總數(shù)的55.18%。
圖4 不同成果數(shù)量的項目分布
按照項目類別對科技項目及其發(fā)文情況進行統(tǒng)計?;A(chǔ)類研究計劃、重點研發(fā)計劃、臨床醫(yī)學(xué)專項、政策引導(dǎo)類計劃(產(chǎn)學(xué)研合作)項目的成果文獻產(chǎn)出率較高,分別為65.05%、51.06%、90.32%與65.56%;而科技型企業(yè)中的創(chuàng)業(yè)企業(yè)孵育、企業(yè)技術(shù)創(chuàng)新類項目的成果文獻產(chǎn)出率極低,僅為8.09%與6.45%,這是因為科技項目成果包含論文與專利兩種形式,而企業(yè)為了保護自身知識與技術(shù)產(chǎn)權(quán)更傾向于申請專利。
對相互匹配的項目-成果的標題、摘要與關(guān)鍵詞部分進行數(shù)據(jù)清洗,補全或刪除缺失值,轉(zhuǎn)換文本中的html(hyper text markup language)實體。觀察報告摘要發(fā)現(xiàn),大量報告摘要結(jié)尾部分存在過多關(guān)于項目成果數(shù)量的描述,如“發(fā)表文獻x篇、培養(yǎng)碩博x名、獲得省級獎勵x項、申請專利x項”等,此類文本無法體現(xiàn)研究內(nèi)容的語義,因此,在利用模式匹配識別此類內(nèi)容后進行刪除。此外,使用word2vec進行文本向量化時需進行中文分詞,本文使用jieba分詞,將科技報告與成果的關(guān)鍵詞作為補充詞典,用于提升領(lǐng)域文本分詞的準確性。
采用人工的方式標注少量數(shù)據(jù)。將文本對分為“強相關(guān)”“弱相關(guān)”與“不相關(guān)”三類,由江蘇省科學(xué)技術(shù)情報研究所專業(yè)人員與南京大學(xué)情報學(xué)專業(yè)博士研究生同時對成果文獻大于40篇的15項科技項目進行標注并校對,獲取項目-成果數(shù)據(jù)795條,15個項目的項目類型分布較為均衡,涵蓋重點研發(fā)計劃、基礎(chǔ)研發(fā)計劃、科技設(shè)施類、產(chǎn)學(xué)研合作等,技術(shù)領(lǐng)域涵蓋醫(yī)學(xué)、裝備制造、電子信息、社會事業(yè)等。由初步分析標注數(shù)據(jù)可知,不同項目的標注結(jié)果差異較大:項目F1、F2、F10與F11所對應(yīng)的成果文獻全部相關(guān);F4、F8、F6、F15、F9對應(yīng)成果文獻中,完全不相關(guān)類別占比偏少(<50%);F5、F3、F12、F7、F14對應(yīng)成果文獻中,完全不相關(guān)類別占比偏多(>50%)。
4.2.1 無監(jiān)督語義相似度排序
首先,使用word2vec在科技項目、成果文獻的標題與摘要文本上訓(xùn)練詞向量模型,選用基于當(dāng)前詞預(yù)測上下文的Skip-Gram結(jié)構(gòu),窗口大小設(shè)置為10,向量維度為256,詞頻閾值為5。然后,使用bert-serving-server②https://pypi.org/project/bert-serving-server/生成維度為768的標題短文本的動態(tài)句向量。最后,使用通過不同方法生成的句向量,分別計算項目-成果的余弦相似度、詞移距離與互信息值。
在測評時,為選取與科技項目相關(guān)程度最低的成果文獻,將不同模型計算出的項目-成果相似度分別按降序排序,排名最后的項目-成果相似度最低。設(shè)定閾值n來選取低于閾值、相關(guān)性最低的項目-成果數(shù)據(jù),鑒于項目對應(yīng)成果數(shù)量存在差異,本文從數(shù)量與占比兩方面設(shè)定n值:5篇成果以及成果量的四分位數(shù)(25%)、三分位數(shù)(33.33%)與中位數(shù)(50%)。
針對不相關(guān)成果數(shù)量占比偏少的項目與占比偏多的項目,計算不同閾值n時的F值,結(jié)果如圖5和圖6所示。在F值方面,無監(jiān)督模型測評值多數(shù)未超過70%,總體表現(xiàn)欠佳。在n的取值方面,由圖5可知,在不相關(guān)成果占比較少的項目中情況各異,四分位數(shù)效果略好于其他閾值,且當(dāng)n=5時,F(xiàn)值整體較低,即在成果內(nèi)容差異較大的情況下,無監(jiān)督模型仍未能對項目-成果的相關(guān)程度做出較好的區(qū)分;由圖6可知,在不相關(guān)成果占比較多的項目中,中位數(shù)是較好的選擇,但主要由于該類項目不相關(guān)成果文獻量均超過總體半數(shù)所導(dǎo)致。在模型選取方面,如圖5所示,項目F8在以四分位數(shù)為閾值時的BERT模型表現(xiàn)最好,F(xiàn)值為66.67%;如圖6所示,項目F3在以中位數(shù)為閾值時的M1表現(xiàn)最 好,F(xiàn)值 為71.93%???體 來 看,M1、M2、WMD、BERT與互信息在多個項目中表現(xiàn)各異,沒有在多個項目中均表現(xiàn)突出的模型。綜上所述,僅通過將文本向量化,并計算向量淺層語義相似度的方法,無法較好地滿足區(qū)分項目-成果的相關(guān)程度的需求。
圖5 不相關(guān)成果占比較少的項目相似度測評
圖6 不相關(guān)成果占比較多的項目相似度測評
4.2.2 基于BERT的語義相似度計算
構(gòu)造本節(jié)實驗的標注數(shù)據(jù)集。基于上文中無監(jiān)督相似度計算模型,計算所有數(shù)據(jù)的相似度并排序,使用具有統(tǒng)計意義的四分位數(shù)作為篩選條件,分別取各模型相似度排序最高與最低的四分之一部分,取并集作為訓(xùn)練數(shù)據(jù)。鑒于不相關(guān)成果與強、弱相關(guān)成果的內(nèi)容存在明顯差異,因此,將強相關(guān)與弱相關(guān)類別合并為相關(guān)類別。與人工標注數(shù)據(jù)進行合并、去重后共得到4423條數(shù)據(jù),其中相關(guān)數(shù)據(jù)2574條,不相關(guān)數(shù)據(jù)1849條。
進行數(shù)據(jù)增強后,保持數(shù)據(jù)集與原始數(shù)據(jù)的學(xué)科分布相似、類別平衡,獲取標注數(shù)據(jù)18086條。分別提取數(shù)據(jù)中的標題與摘要,分別構(gòu)建項目-成果標題短文本數(shù)據(jù)集、項目-成果摘要長文本數(shù)據(jù)集。將數(shù)據(jù)集按照7∶2∶1的比例劃分為訓(xùn)練集、驗證集與測試集。
1)實驗設(shè)置
使用Python語言基于TensorFlow 1.12.0框架與Keras 2.2.4模塊構(gòu)建如圖3所示的模型,在8G內(nèi)存的Linux系統(tǒng)中搭載NVIDIA Quadro K1200 GPU,分別在項目-成果標題短文本與摘要長文本數(shù)據(jù)集上進行實驗。
BERT預(yù)訓(xùn)練模型選用BERT-Base,ERNIE預(yù)訓(xùn)練模型選用ERNIE 1.0 Base中文版,將其由Paddle Paddle框架轉(zhuǎn)換為適用于TensorFlow框架的結(jié)構(gòu);RoBERTa預(yù)訓(xùn)練模型選用RoBERTa-large-pair大句子對模型。
超 參 數(shù)設(shè)置為:BERT與ERNIE的batch_size為16,RoBERTa的batch_size為8,learning_rate為1e-5,dropout_rate為0.2,Epoch為5。此外,為了避免出現(xiàn)過擬合的情況,使用Early stopping方法。
在設(shè)置max_length參數(shù)時,成果與項目標題長度的均值為21,在訓(xùn)練標題短文本時,設(shè)置參數(shù)為32;成果與項目摘要長度的均值分別為334與404,但仍存在部分文本長度大于BERT模型可以處理的最長文本序列512。現(xiàn)有研究常采用截斷法進行長文本處理:將長文本前128個字符+后382個字符拼接[28]。觀察摘要文本后可知,規(guī)范的摘要均以目的或內(nèi)容作為開頭,并在結(jié)尾對研究內(nèi)容進行總結(jié),因此,開頭與結(jié)尾文本滿足實驗要求。在訓(xùn)練摘要時,設(shè)置max_length為512。此外,需要保證訓(xùn)練集、驗證集與測試集的數(shù)據(jù)獨立同分布,訓(xùn)練集、驗證集與測試集中的標題與摘要句長分布如圖7a~圖7d所示,由此可知分布大致相同,符合要求。
圖7 Train、Dev標題句和摘要句長度分布
2)實驗結(jié)果
本文使用精度A值、準確率P值、召回率R值以及F值作為測評指標,衡量模型總體語義區(qū)分能力,最終結(jié)果供模型測評使用,計算公式為
其中,TP表示不相關(guān)類別被正確判斷為不相關(guān)類別的數(shù)量;FN表示不相關(guān)類別被誤判為相關(guān)類別的數(shù)量;TN表示相關(guān)類別被正確判斷為相關(guān)類別的數(shù)量;FP表示相關(guān)類別被誤判為不相關(guān)類別的數(shù)量。
本文將實驗數(shù)據(jù)按照7∶2∶1劃分,分別作為訓(xùn)練集、驗證集與測試集,使用五折交叉法訓(xùn)練模型。首先,使用訓(xùn)練集進行預(yù)訓(xùn)練(pre-train)。融合模型在訓(xùn)練標題短文本時耗時34550 s,ERNIE部分多次在epoch4發(fā)生early stopping;摘要長文本預(yù)訓(xùn)練共耗時73595 s,參數(shù)調(diào)整后在RoBERTa部分仍發(fā)生內(nèi)存溢出,這是由于RoBERTa-large-piar預(yù)訓(xùn)練模型過大、摘要長文本計算量過大導(dǎo)致服務(wù)器內(nèi)存溢出。在摘要長文本部分僅使用BERT與ERNIE進行模型融合。然后,使用模型預(yù)測未標注的原始數(shù)據(jù),生成偽標簽后,將偽標簽數(shù)據(jù)與原始訓(xùn)練集融合、去重后再次進行模型訓(xùn)練(re-train)。在標題短文本部分訓(xùn)練耗時93517 s,其中BERT部分多次在epoch5發(fā)生early stopping;在摘要長文本部分訓(xùn)練耗時199001 s,同樣在RoBERTa發(fā)生內(nèi)存溢出?;趥螛撕灥陌氡O(jiān)督學(xué)習(xí)在計算復(fù)雜度與時間成本上明顯高于有監(jiān)督學(xué)習(xí)。
驗證集用于衡量模型參數(shù)優(yōu)化程度,因此,使用A值與損失函數(shù)值來體現(xiàn)訓(xùn)練集、驗證集上的模型效果,使用A、P、R、F值衡量測試集的模型效果。使用訓(xùn)練集進行有監(jiān)督訓(xùn)練的pre-train與使用基于偽標簽的半監(jiān)督學(xué)習(xí)的re-train實驗結(jié)果分別如表1和表2所示。
表1 訓(xùn)練集、驗證集實驗結(jié)果
由表1可知,實驗過程中模型隨著輪次的增加,loss值逐漸減小并趨于0,精度不斷攀升并趨于1;總體上,基于摘要長文本的模型效果好于標題短文本的模型,使用基于偽標簽的半監(jiān)督學(xué)習(xí)效果與僅使用訓(xùn)練集的模型相比略有提升;使用摘要長文本訓(xùn)練模型的時間成本遠遠高于標題短文本。由表2可知,使用半監(jiān)督方法訓(xùn)練模型的效果最好,在標題短文本與摘要長文本上F值分別為96.41%與98.94%,A值優(yōu)于訓(xùn)練集與驗證集的表現(xiàn)效果,未出現(xiàn)過擬合的情況。上述實驗結(jié)果表明,本文構(gòu)建的模型可以有效地區(qū)分語義差異較小的句對的相關(guān)性。
表2 測試集模型實驗結(jié)果
使用基于長文本訓(xùn)練所得的融合模型,計算項目-成果摘要文本的語義相似度并按升序排序。分析項目-成果相關(guān)性較低數(shù)據(jù)的外部特征與內(nèi)容特征。
1)外部特征分析
對摘要的文本長度比(成果/項目)進行統(tǒng)計。結(jié)果如圖8所示。排序靠前、相似度較低部分的長度比分布的閾值大致為(0,6);排序靠后、相似度較高部分的文本長度比分布的閾值大致為(0,3.5)。由此可知,相關(guān)性較低的項目-成果中,存在項目摘要的長度遠遠低于成果摘要的長度的情況。較短的項目摘要對自身研究內(nèi)容描述過于宏觀與籠統(tǒng),所含語義無法與成果內(nèi)容相匹配。
圖8 成果摘要與項目摘要長度比
統(tǒng)計科技項目對應(yīng)成果文獻的數(shù)量。在24036條項目-成果文本數(shù)據(jù)中,以四分位數(shù)為基準取相似度較低的6009條數(shù)據(jù),結(jié)果如圖9a所示。其中,占比最多的是6~10個成果的科技項目,占比最少的單成果的科技項目為259項,僅占4.3%。單成果項目立項時間分布如圖9b所示,項目多分布在2012—2015年,因此,不存在立項時間較短、成果發(fā)表周期較長導(dǎo)致成果較少這一問題。由此可知,在項目-成果相關(guān)程度較低的部分,僅對應(yīng)一篇成果文獻的項目較少。
圖9 項目立項年份及對應(yīng)成果文獻數(shù)量分布
對低相關(guān)數(shù)據(jù)中的項目類型特征進行分析。以對應(yīng)論文型成果數(shù)量少于100的項目類型為主:“創(chuàng)新能力建設(shè)(研發(fā)機構(gòu)類)”“科技型企業(yè)創(chuàng)業(yè)孵化”“科技型企業(yè)技術(shù)創(chuàng)新”“政策引導(dǎo)類計劃(國際科技合作、軟科學(xué)專項)”,在低相關(guān)數(shù)據(jù)中共對應(yīng)成果59篇,占上述項目總成果178篇的1/3,因此,上述項目在產(chǎn)出論文型成果較少的前提下,仍有1/3的論文與項目相關(guān)程度較低。
2)內(nèi)容特征分析
由表3可知,幾種項目-成果低相關(guān)的典型示例:①成果與科技項目所屬學(xué)科相同、方向相近,但研究內(nèi)容無關(guān);②成果與科技項目研究領(lǐng)域相近,但實則屬于中圖法分類號為G4/G6的教育大類,內(nèi)容圍繞與項目領(lǐng)域相關(guān)的教學(xué)改革、課程設(shè)置、教學(xué)方法、人才培養(yǎng)等方面展開,與項目真實研究內(nèi)容無關(guān);③成果為綜述類文獻,雖詳細介紹了與項目相關(guān)技術(shù)方法的發(fā)展歷程,但未能反應(yīng)出科技項目的核心研究內(nèi)容;④部分成果文獻與項目研究方向與內(nèi)容完全無關(guān)。
表3 低相關(guān)科技項目-成果文獻實例
此外,模型存在將相關(guān)成果誤判的情況,具體原因如下:①項目-成果摘要的寫作文法差異較大。例如,項目BC201XX22成果摘要“酸甘化陰法肇始于仲景,以酸甘和合異類相使化陰生津,陰復(fù)濡潤而不滋……”為古文,而項目摘要“中醫(yī)臨床醫(yī)案采集平臺大多采用C/S(client/server)模式建設(shè),軟件升級更新十分不便……”是白話文。②摘要里非中文字符較多。例如,成果摘要“{cDau(t)+f(t,u(t),v(t))=0,cDav(t)…}”,項目摘要“n維時標上Sobo‐lev空間及定義在該空間上函數(shù)的一些特性……”,模型無法將中文字符的語義與非中文字符的語義匹配。③在科技項目中存在數(shù)量可觀的科技支撐類項目,該類項目主要為科研活動提供基礎(chǔ)設(shè)施,如系統(tǒng)、體系、基地或科室的建設(shè)等,因此,摘要通常是對基礎(chǔ)建設(shè)過程的描述,其成果文獻的研究內(nèi)容與項目相關(guān)但語義上存在較大差異。
3)上述情況的成因分析
①成果文獻的數(shù)量在一定程度上反映了科技項目的研究體量與重要程度,文獻可以從數(shù)量特征層面提升項目的重要性,因此,立項人會將無關(guān)成果劃入項目產(chǎn)出。②項目未能如期完成,預(yù)計成果產(chǎn)出與學(xué)術(shù)價值均未達標,但立項人為通過后評估,將與項目無關(guān)的其他科研成果用來充數(shù),用于滿足成果數(shù)量指標。③隨著高校近年來對科研經(jīng)費管控力度增強,立項機構(gòu)對經(jīng)費用途進行嚴格的規(guī)范,論文的出版費用是重要的途徑之一,將與項目無關(guān)的論文劃入項目的產(chǎn)出,可解決出版費用。④在項目-成果低相關(guān)部分,僅有少部分的單成果項目,而以多成果項目居多。這意味著在多成果項目中,一定數(shù)量的“代表作”已經(jīng)完成了項目額定/核心的研究內(nèi)容,其余成果與項目關(guān)聯(lián)較小。⑤部分成果內(nèi)容與項目相關(guān)性較低,可能由于立項時間較短、期刊審稿流程與周期較長,部分相關(guān)成果尚未發(fā)表。⑥部分類型項目產(chǎn)出具有較強的技術(shù)性或知識產(chǎn)權(quán)敏感,因此,研究成果主要以論文之外的形式呈現(xiàn),如專利、產(chǎn)品等。⑦基金論文比作為期刊評估體系中的重要指標,影響了期刊的收稿傾向。隨著科技文獻數(shù)量指數(shù)增長、論文錄用難度加大,立項人為無關(guān)的成果進行項目“加冕”可增加論文錄用概率。
參考科技報告制度指導(dǎo)意見以及科技報告質(zhì)量監(jiān)管架構(gòu)(圖10),結(jié)合本文的數(shù)據(jù)準備與實驗結(jié)果,發(fā)現(xiàn)微觀層面的質(zhì)量保障機制存在以下問題。
圖10 科技報告質(zhì)量監(jiān)管架構(gòu)
(1)基礎(chǔ)質(zhì)量層面?,F(xiàn)有科技報告總體質(zhì)量良莠不齊,項目標題、摘要的文體、內(nèi)容與字數(shù)的規(guī)范性不盡人意。部分報告摘要開頭著重描述研究背景,部分描述研究目的;部分報告摘要將主要研究內(nèi)容逐條列出并詳細闡述;部分報告摘要將總體研究內(nèi)容一筆帶過,而大篇幅描寫所獲獎項與培養(yǎng)人才等;部分報告直接以《江蘇省科技項目報告》等類似文本作為報告標題;部分報告以“單位名稱+研究報告”的格式命名,僅從報告標題無法獲取任何與研究內(nèi)容有關(guān)的語義信息;科技報告摘要文本長度從50~1000不等,內(nèi)容密度差異較大。摘要作為總結(jié)性文本,規(guī)范的文體與精準的內(nèi)容可以大大提升項目評估與審核的工作效率,同時也為報告撰寫人提供了寫作標準。此外,類似學(xué)術(shù)文獻的半結(jié)構(gòu)化的摘要會蘊含更多的語義信息與文本序列位置信息,有助于科技資源共享服務(wù)系統(tǒng)的構(gòu)建與功能的完善。因此,應(yīng)針對不同類型的項目,完善和細化科技報告摘要與全文的寫作標準。
(2)學(xué)術(shù)質(zhì)量方面??萍紙蟾孀鳛轫椖颗c成果的紐帶,主要通過成果文獻來體現(xiàn)其學(xué)術(shù)質(zhì)量,目前存在成果產(chǎn)出與項目預(yù)期內(nèi)容不符、相關(guān)程度較低以及項目產(chǎn)出成果數(shù)量較少等問題,科技報告并未能如實地對所有成果進行記錄與描述,而多以與科技項目高度相關(guān)的成果為主。科技項目、科技報告與成果文獻三者的研究內(nèi)容應(yīng)協(xié)調(diào)統(tǒng)一、高度相關(guān),允許在一定范圍內(nèi)進行彈性調(diào)整。同時,不同類型項目性質(zhì)不同,在后期評估監(jiān)管時,應(yīng)根據(jù)項目類型與評估需求設(shè)定合理的相似度閾值,調(diào)整評估要求中的成果類型(論文/專利/標準/軟件等)與數(shù)量標準,設(shè)立以“標志性成果”為核心的“代表作制度”,保質(zhì)保量提升評估工作,在總體上加強質(zhì)量層面的監(jiān)管力度。
(3)效益質(zhì)量方面??萍柬椖吭谝欢ǔ潭壬洗砹斯佼a(chǎn)學(xué)研的科技創(chuàng)新與成果轉(zhuǎn)化,因此,多數(shù)科技報告對研究的應(yīng)用價值與技術(shù)價值進行了較好的展現(xiàn),但由于目前公眾對科技報告資源的利用率較低,且社會價值具有隱性與長期性,較難通過科技報告直接進行評估,因此在科技報告效益評估時應(yīng)綜合考慮成果效益。
本文使用科技報告對科技項目信息進行補充,通過文本語義匹配的方法對科技項目及其對應(yīng)成果文獻的相關(guān)程度進行探索,基于小規(guī)模標注數(shù)據(jù)進行數(shù)據(jù)增強,提出了基于BERT融合模型的項目-成果文本相似度計算方式,并取得了較好的實驗效果。研究結(jié)果發(fā)現(xiàn),存在部分成果文獻研究內(nèi)容與項目預(yù)期研究內(nèi)容不符、項目實際完成質(zhì)量低的現(xiàn)象,這一現(xiàn)象警示人們需要透過量化特征、深入探索內(nèi)容特征,完善科技后評估制度、加強科技項目監(jiān)管,從而維護評審的公正性。此外,科技報告審核與科技項目后評估相輔相成,應(yīng)加強科技報告監(jiān)管力度、完善寫作規(guī)范、細化審核標準,促進科技報告資源的利用,著力建設(shè)優(yōu)質(zhì)科技資源,全方位提升我國科技情報服務(wù)效率。
同時,本文存在如下局限:①囿于缺少面向中文科技文本的相關(guān)性標注數(shù)據(jù)集,本文使用的數(shù)據(jù)規(guī)模有待擴展、模型泛化能力有待提升。將在今后使用模型訓(xùn)練的同時,輔以人工校對,擴充數(shù)據(jù)集。②學(xué)科間跨領(lǐng)域合作較多,成果文獻與科技項目相關(guān)性具有彈性,需要綜合考慮學(xué)科特質(zhì)、參考相似度排序結(jié)果,結(jié)合項目類型、根據(jù)實際需求,進一步設(shè)定不同相關(guān)程度的閾值,完善科技項目后評估指標體系。