, ,
隨著學(xué)科的交叉融合,新的研究方向不斷涌現(xiàn),從中識別關(guān)鍵方向?qū)τ诳蒲腥藛T了解學(xué)科發(fā)展趨勢、國家在激烈的國際科技競爭中獲得優(yōu)勢都至關(guān)重要。研究前沿代表科學(xué)發(fā)展的熱點(diǎn)及趨勢,指引科學(xué)發(fā)展的方向,決定技術(shù)創(chuàng)新的路徑、各國政府的科技政策制定、科技資源配置與科研方向的選擇。
研究前沿的概念自Price 1965年提出后,不斷被其他學(xué)者修訂和豐富。Price認(rèn)為,研究前沿具有時(shí)效性[1]。研究前沿隨著時(shí)間發(fā)生變化,就一個(gè)學(xué)科領(lǐng)域來說,研究前沿的變化過程基本代表了這個(gè)學(xué)科的發(fā)展過程。與研究前沿相關(guān)的概念很多,例如熱點(diǎn)主題、新興研究領(lǐng)域、新興主題、新興趨勢、潛在知識等。研究前沿的識別方法大體分為定性和定量方法兩類,前者已經(jīng)比較成熟,后者仍在不斷發(fā)展和完善。
Research frontier和Research front都被翻譯為“研究前沿”,但是這兩者的意義卻存在著區(qū)別[2],前者是指專家根據(jù)自己個(gè)人的科研經(jīng)驗(yàn)判斷得出的研究前沿,后者是指由定量指標(biāo)分析計(jì)算得出的研究前沿。
研究前沿的定義大致分為3類:將被引文獻(xiàn)定義為研究前沿,將施引文獻(xiàn)定義為研究前沿,將突發(fā)詞或熱點(diǎn)主題定義為研究前沿。研究前沿的概念及演進(jìn)過程如表1所示。
表1 研究前沿的概念及演進(jìn)
信息科學(xué)領(lǐng)域存在著很多與“研究前沿”相似的概念,如新興研究領(lǐng)域(Emerging Research Domains,Emerging Knowledge Domains,Emerging Fields,Emerging Research Area)、潛在知識(Latent Knowledge)、新興主題(Emerging Topics)、新興技術(shù)(Emerging Technology)、新興趨勢(Emerging Trend)、研究熱點(diǎn)等。新興趨勢(Emerging Trend)的概念是2003年Apirl Kontostathis提出的,是指隨著時(shí)間推移逐漸引起人們興趣并得到越來越多的研究者討論的主題領(lǐng)域[11];新興主題是Naohiro 2002年提出的,是指在某個(gè)特定科學(xué)研究領(lǐng)域中的由多個(gè)關(guān)鍵詞或者詞組表示的一組新興的主題領(lǐng)域,代表科學(xué)研究領(lǐng)域中最具發(fā)展?jié)摿Φ难芯糠较蚧蜈厔輀12];新興技術(shù)是正在出現(xiàn)的并具有較大發(fā)展趨勢和商業(yè)潛能而且可能對行業(yè)經(jīng)濟(jì)以及產(chǎn)業(yè)結(jié)構(gòu)產(chǎn)生重大影響的技術(shù)[13-14]。它既可以是以前從未出現(xiàn)過的技術(shù),也可以是已有技術(shù)經(jīng)過一段平原期后,最近在原有的研究基礎(chǔ)之上掀起的技術(shù)熱潮[15]。研究熱點(diǎn)雖然還沒有明確的定義,但已經(jīng)被廣泛使用,例如Web of Science將發(fā)表于過去兩年并被大量文獻(xiàn)引用且被引頻次位居其學(xué)術(shù)領(lǐng)域前0.1%的文獻(xiàn)集稱為熱點(diǎn)論文。
與研究前沿相關(guān)的概念很多,本文借鑒相關(guān)概念的研究,探討研究前沿識別方法。
定性分析是根據(jù)研究需要,廣泛收集專家的意見,結(jié)合獲取的資料對學(xué)科發(fā)展進(jìn)程以及現(xiàn)狀進(jìn)行概括,最終形成對課題或?qū)n}研究的前沿預(yù)測和技術(shù)預(yù)見等。定性分析主要有德爾菲法、內(nèi)容分析法、科技政策分析、比較分析法、社會調(diào)查法、專家咨詢法、情景分析法等,有的研究綜合采用幾種方法[16]。基于專家意見的定性分析方法被廣泛應(yīng)用,其中德爾菲法、專家咨詢法和文獻(xiàn)綜述法是比較常用的分析方法。
基于德爾菲法的前沿預(yù)測方法較為成熟、權(quán)威,在國家科技發(fā)展戰(zhàn)略制定中起著至關(guān)重要的作用。例如美國成立專門的利益非攸關(guān)戰(zhàn)略專家委員會,負(fù)責(zé)對美國當(dāng)前的技術(shù)水平與影響力、世界科技發(fā)展態(tài)勢、產(chǎn)業(yè)結(jié)構(gòu)性變化進(jìn)行分析、評估和預(yù)見,形成咨詢報(bào)告;再依據(jù)戰(zhàn)略規(guī)劃,成立科技發(fā)展優(yōu)先領(lǐng)域?qū)iT委員會,通過廣泛調(diào)研,擇優(yōu)篩選,制定關(guān)鍵技術(shù)選擇標(biāo)準(zhǔn),委托世界技術(shù)評估中心等咨詢機(jī)構(gòu)進(jìn)行社會經(jīng)濟(jì)需求分析和國內(nèi)外相關(guān)技術(shù)調(diào)研的此基礎(chǔ)上形成報(bào)告[17]。歐盟2014 年實(shí)施 “地平線 2020”計(jì)劃,其中歐盟科技計(jì)劃的咨詢工作,主要依靠各行業(yè)各領(lǐng)域的專家??萍紤?zhàn)略規(guī)劃、政策效果評價(jià)、項(xiàng)目評審評估等都需要組建相應(yīng)專家組或?qū)<椅瘑T會提供咨詢服務(wù)。其基本原則:歐盟委員會及有關(guān)部門可根據(jù)工作需求成立專家組,專家組至少由 6 人組成且至少召開兩次專家組會議,作為咨詢實(shí)體的專家組主要在立法建議、政策倡議、戰(zhàn)略規(guī)劃與舉措的實(shí)施等諸多方面為歐盟委員會或有關(guān)部門提供專業(yè)咨詢服務(wù)支持[18]。歐盟于2007年成立了歐洲研究理事會(ERC),為歐盟國家的前沿學(xué)科提供科研經(jīng)費(fèi),通過競爭機(jī)制擇優(yōu)資助前沿學(xué)科和交叉學(xué)科的研究以及新技術(shù)和新興領(lǐng)域的開拓性探索,并使用風(fēng)險(xiǎn)性、適用性、跨學(xué)科性、創(chuàng)新性4個(gè)文獻(xiàn)計(jì)量指標(biāo)進(jìn)行評估,評估結(jié)果由ECR同行評審小組判斷裁決,經(jīng)過計(jì)量經(jīng)濟(jì)學(xué)決策模型決策,選擇資助前沿項(xiàng)目?;诙ㄐ苑治龅那把刈R別方法匯集了專家的智慧和經(jīng)驗(yàn),但其對專家的水平要求較高,并受專業(yè)知識面、專家主觀認(rèn)識以及專家時(shí)間精力等不確定性因素影響,比較耗時(shí),成本較高。
20世紀(jì)60年代文獻(xiàn)計(jì)量學(xué)快速發(fā)展,有關(guān)研究前沿的研究隨著SCI 引文數(shù)據(jù)庫的建立逐漸興起,以文獻(xiàn)計(jì)量學(xué)為基礎(chǔ)的定量分析法受到關(guān)注。目前用于識別研究前沿的定量分析法主要有基于引文的前沿監(jiān)測研究方法和基于內(nèi)容的前沿監(jiān)測研究方法。
2.2.1 基于引文的前沿識別研究
2.2.1.1 共被引分析
自1973年Small提出“共引”(Co-citation)的概念[3]后,Garfield和Persson也提出了共被引分析方法[4-5]。共被引分析能夠根據(jù)論文共同被引用的頻次和論文之間共同被引用產(chǎn)生的密切程度,聚類得出某領(lǐng)域內(nèi)的研究前沿,在前沿研究中比較常用?;痉椒ㄊ牵菏紫仁占骋恢黝}相關(guān)的文獻(xiàn)及其參考文獻(xiàn)字段并建立被引文獻(xiàn)索引;然后選擇被引用次數(shù)在一定閾值內(nèi)的論文(高被引論文)作為研究對象,計(jì)算一對被引用文獻(xiàn)的共被引頻率;采用單鏈聚類方法對被引用文獻(xiàn)進(jìn)行聚類分析,先隨機(jī)選擇一篇文獻(xiàn),然后搜索所有與其相關(guān)的文獻(xiàn)單元,進(jìn)而形成共被引的文獻(xiàn)簇;根據(jù)聚類結(jié)果和前面統(tǒng)計(jì)出的共被引頻率,用多維尺度分析繪制出研究前沿的結(jié)構(gòu)圖。多維尺度分析通過低維空間(通常是二維)揭示文獻(xiàn)間的聯(lián)系,并利用平面距離來反映文獻(xiàn)之間的相似程度;然后使用該文獻(xiàn)簇中的文獻(xiàn)題目中經(jīng)常出現(xiàn)的詞語或短語為研究前沿命名;最后在該領(lǐng)域?qū)<业膸椭戮涂梢员容^準(zhǔn)確地揭示該學(xué)科領(lǐng)域中的研究前沿[19]。
ESI Research Fronts是ESI數(shù)據(jù)庫的組成部分之一,在近5年高被引論文的基礎(chǔ)之上,使用共被引分析和聚類分析得到各學(xué)科領(lǐng)域的ESI研究前沿,科睿唯安從2013年起將該方法應(yīng)用于ESI每年定期發(fā)布的“研究前沿”報(bào)告[20]。ESI 研究前沿以ESI高被引論文(論文的被引頻次在同出版年、同學(xué)科論文中位居前1%的論文)為起點(diǎn),基于共被引分析方法用單鏈接聚類算法聚類識別得出。他們認(rèn)為,ESI研究前沿與科學(xué)研究前沿存在著很大程度上的重合關(guān)系(見圖1),并且ESI研究前沿是洞悉科學(xué)研究前沿的重要起點(diǎn)。在聚類構(gòu)建研究前沿時(shí),按照ESI研究前沿的共被引強(qiáng)度閾值判斷兩篇文章A和B是否構(gòu)成一個(gè)共被引對的計(jì)算方式如下:
其中cocitation frequency是論文A和B的共被引頻次,Citation A是論文A的被引頻次,Citation B是論文B的被引頻次。
當(dāng)cosine similarity≥0.1時(shí),說明兩篇文章可以組成共被引對。如果共被引對(A,B)中的一篇文獻(xiàn)和共被引對(C,D)中的一篇文獻(xiàn)具有較強(qiáng)的共被引關(guān)系,則 (A,B)和(C,D)將形成更大的聚類。當(dāng)組成某一研究前沿的核心論文數(shù)過高(>50)時(shí),則調(diào)高閾值,但須保證一個(gè)ESI研究前沿最少有2篇核心論文。最終從組成ESI研究前沿的核心論文的題目中提取關(guān)鍵詞,組成ESI研究前沿名稱[21]。有學(xué)者通過作者共被引分析,發(fā)現(xiàn)使用多種類型的數(shù)據(jù)源識別研究前沿的效果要好于使用單一的論文數(shù)據(jù)[22]。在聚類方法的選擇中,除了單鏈聚類方法以外,雙聚類方法能夠?qū)Ω弑灰墨I(xiàn)和引用文獻(xiàn)進(jìn)行雙向聚類,可以反映共被引分析過程中被引文獻(xiàn)與引用文獻(xiàn)的對應(yīng)關(guān)系,因此也被廣泛使用。例如楊穎、崔雷參考Persson對研究前沿的定義,在共被引分析方法中應(yīng)用雙聚類方法得到了護(hù)理學(xué)領(lǐng)域的研究前沿和知識基礎(chǔ)[23]。
共被引方法的有效性已經(jīng)得到廣泛驗(yàn)證,然而論文從發(fā)表到被引用需要一定的時(shí)間,因此共被引分析法具有一定的滯后性,并且共被引強(qiáng)度閾值的設(shè)定以及聚類的大小都需要人工干預(yù),結(jié)果在一定程度上會受到人為因素的影響。
圖1 ESI研究前沿與科學(xué)研究前沿關(guān)系圖
2.1.1.2 文獻(xiàn)耦合分析
1963年Kessle教授提出了“文獻(xiàn)耦合”(Bibliographic Coupling)這一術(shù)語[24]。無論是文獻(xiàn)耦合還是共被引,都是對文獻(xiàn)相關(guān)性的一種測量。文獻(xiàn)耦合和共被引在概念上存在著嚴(yán)格的對偶關(guān)系,但文獻(xiàn)耦合是靜態(tài)的,而共被引聚類分析隨著時(shí)間推移和新的文獻(xiàn)加入到引用網(wǎng)絡(luò)中而變化。
1974年Weinberg對文獻(xiàn)耦合進(jìn)行了較為全面的研究,并將它應(yīng)用于科學(xué)學(xué)研究中[25]。
此后,更多的學(xué)者進(jìn)一步發(fā)展了文獻(xiàn)耦合的分析方法[5-6]。
采用文獻(xiàn)耦合識別研究前沿的步驟為:首先對某一主題相關(guān)的文獻(xiàn)及其參考文獻(xiàn)字段建立引文索引,之后排除沒有達(dá)到一定耦合頻率閾值的文獻(xiàn)并建立引用矩陣并求得兩個(gè)文獻(xiàn)的耦合頻率;使用譜系聚類方法對文獻(xiàn)單元樣本進(jìn)行聚類分析。譜系聚類方法會產(chǎn)生一個(gè)二叉樹,二叉樹的‘葉’可以將文獻(xiàn)簇形象地表示為線性序列,就可以進(jìn)一步分析得到研究前沿的結(jié)構(gòu);將二叉樹產(chǎn)生的結(jié)果定為縱軸Y,加入時(shí)間軸X就可以得到研究前沿的時(shí)間演化圖。最后提取、使用在該文獻(xiàn)簇的文獻(xiàn)題目中經(jīng)常出現(xiàn)的詞語或短語對研究前沿的命名,并在該領(lǐng)域?qū)<业膸椭?,對各研究前沿進(jìn)行比較準(zhǔn)確的描述[19]。
2005年BoJarneving指出,需要更多詳細(xì)的定性研究來比較共被引分析和文獻(xiàn)耦合分析識別研究前沿的效果[26],并于2007年使用文獻(xiàn)耦合聚類分析方法識別出核心文獻(xiàn)和領(lǐng)域研究前沿[27]。
2012年Schiehd借鑒Persson的定義,提出可以從基于文獻(xiàn)耦合聚類的文獻(xiàn)簇中識別研究前沿,從共被引文獻(xiàn)簇中識別知識基礎(chǔ),并提出了模仿地理地圖的二維和三維圖像探測研究前沿和研究基礎(chǔ)的可視化方法[28]。
還有不少學(xué)者使用專利文獻(xiàn)識別研究前沿,如Huang MH[29]、Boyack KW等[30]認(rèn)為文獻(xiàn)耦合聚類方法的識別效果優(yōu)于共被引聚類方法,因此李蓓、陳向東[31]用基于專利引用耦合聚類的方法識別納米領(lǐng)域的新興技術(shù)。由于發(fā)明專利文獻(xiàn)能夠反映技術(shù)的價(jià)值和新穎性,因此專利文獻(xiàn)分析是研究前沿識別方法中的一種新思路。
基于文獻(xiàn)耦合的分析方法雖可在一定程度上彌補(bǔ)共被引分析方法的時(shí)滯性,但仍存在不足。因?yàn)?篇論文發(fā)表后,其參考文獻(xiàn)不會再有改變,文獻(xiàn)耦合分析的數(shù)據(jù)集不會像共被引分析那樣隨時(shí)間發(fā)生變化,所以基于文獻(xiàn)耦合的方法在研究前沿主題演化上受限。此外,雖然兩篇文獻(xiàn)同時(shí)引用了1篇文獻(xiàn),但有可能引用了文獻(xiàn)的不同部分,引用目的也可能不同。此外,不論是文獻(xiàn)耦合分析還是共被引分析,均不能自動描述篩選獲得論文的主題,而需要通過人工篩選出論文標(biāo)題、關(guān)鍵詞進(jìn)行標(biāo)識,或是通過專家判斷解讀。
2.1.1.3 直接引用分析
自2004年Garfield采用直接引用網(wǎng)絡(luò)的方法得出一個(gè)知識領(lǐng)域文獻(xiàn)的歷史演化圖譜(Historiography Mapping)[32]后,基于直接引文的方法已取得初步進(jìn)展。
2006年,Klavans和Boyack[33]在比較基于直接引用方法和共被引方法的聚類結(jié)果時(shí),發(fā)現(xiàn)直接引用更適用于相似文獻(xiàn)的聚類分析。
2010年,Klavans 和Boyack指出,直接引用分析可以更早、更直接地揭示引文網(wǎng)絡(luò)所代表的研究領(lǐng)域結(jié)構(gòu)特征以及發(fā)展趨勢,但在精確性方面文獻(xiàn)耦合及其復(fù)合方法略優(yōu)于共引分析,而直接引用方法最不準(zhǔn)確[30]。
日本東京大學(xué)的Shibata,Kajikawa,Matsushima和Sakata等學(xué)者組成的研究團(tuán)隊(duì)推動了基于直接引文探測研究前沿方法的發(fā)展[34]并在2009年分別構(gòu)建了氮化鎵(Gallium Nitride)、復(fù)雜網(wǎng)絡(luò)(Complex Network)、碳納米管(Carbon Nanotuhe)3個(gè)領(lǐng)域的3種引文網(wǎng)絡(luò)。他們通過使用Newman[35]用2004年提出的拓?fù)渚垲愃惴▽⒁木W(wǎng)絡(luò)聚類得到各個(gè)領(lǐng)域的文獻(xiàn)簇探測研究前沿,通過對比文獻(xiàn)簇的可見性(標(biāo)準(zhǔn)化后簇的大小)、速度(平均出版年)、拓?fù)湎嚓P(guān)性(密度)3個(gè)指標(biāo)判斷基于直接引用、共被引、文獻(xiàn)耦合3種引文網(wǎng)絡(luò)方法在識別研究前沿上的效果。結(jié)果表明基于直接引用的方法可以識別到更大更早的新興簇,在識別研究前沿方面表現(xiàn)最好,文獻(xiàn)耦合次之,共被引則表現(xiàn)最差。此外,基于直接引用方法得出的論文的內(nèi)容相似度最高。由于最大范圍地包含了核心論文,因此缺失研究前沿的風(fēng)險(xiǎn)性最小[36]。同年,該團(tuán)隊(duì)利用直接引用分析,并使用Newman的拓?fù)渚垲惙椒ǖ玫矫總€(gè)簇內(nèi)鏈接密度高的緊密文獻(xiàn)群,采用A.T.Adai等開發(fā)的LGL模型繪制成動態(tài)可視化大型網(wǎng)絡(luò)以更加直觀地理解文獻(xiàn)簇,描述了太陽能電池研究的技術(shù)趨勢,對能源和太陽能電池的研究結(jié)構(gòu)進(jìn)行可視化分析,有效預(yù)測了新興的研究領(lǐng)域[37]。2011年,他們用同樣方法探測再生醫(yī)學(xué)領(lǐng)域研究前沿并得到專家證實(shí),預(yù)測了成人干細(xì)胞和成體干細(xì)胞方向的研究前沿[38]。他們還采用直接引用方法,通過對比太陽能電池相關(guān)論文與專利2種數(shù)據(jù)源的文獻(xiàn)聚類結(jié)果,識別更具商業(yè)價(jià)值的潛在技術(shù)前沿[39]。
研究表明,基于引文分析的研究前沿識別方法中,共被引和文獻(xiàn)耦合方法較為常見;而基于直接引用的方法識別效果最好,很有可能成為未來研究前沿識別的趨勢。
為獲得最好的研究效果,多數(shù)分析人員會綜合運(yùn)用上述引文分析方法?;谝牡难芯壳把刈R別方法存在引用滯后性及分析對象間接性的問題,因此從能夠更直接體現(xiàn)研究前沿的論文研究內(nèi)容入手進(jìn)行前沿探測受到很多學(xué)者關(guān)注。
2.2.2 基于內(nèi)容的前沿識別研究
2.2.2.1 詞頻分析
詞頻分析是文獻(xiàn)計(jì)量學(xué)中傳統(tǒng)和具有代表性的一種內(nèi)容分析方法,其基本原理是通過詞出現(xiàn)的頻次來確定研究熱點(diǎn)及其變化趨勢[40]。詞頻分析能夠通過給定閾值的關(guān)鍵詞反映某研究領(lǐng)域熱點(diǎn),詞頻越高,表示研究人員對該研究領(lǐng)域關(guān)注度越高。對文獻(xiàn)的主題內(nèi)容進(jìn)行研究,既可揭示其研究熱點(diǎn),又可結(jié)合詞頻出現(xiàn)的年份揭示研究主題的時(shí)間分布,進(jìn)而識別學(xué)科研究熱點(diǎn)及趨勢[41]。
2002年Kleinberg提出的突發(fā)詞檢測算法(Burst Detection Algorithm),可用于檢測某學(xué)科領(lǐng)域內(nèi)研究興趣的突然增長[42]。這個(gè)算法原本是用來檢測單個(gè)詞的突然出現(xiàn),但也適用于時(shí)間序列的多詞專業(yè)術(shù)語和引文分析[43]。
在實(shí)際應(yīng)用過程中,基于詞頻來識別研究前沿的方法過于單薄,因此大都結(jié)合其他方法使用。如Mane以1982-2001年P(guān)roceedings of the National Academy of Science of the United States of America(PNAS)中的論文為數(shù)據(jù)集,用Kleinberg突發(fā)詞檢測算法抽取高頻詞,然后利用共詞方法識別PNAS中的主要研究主題和新興趨勢并繪制出可視化圖譜,通過咨詢領(lǐng)域?qū)<因?yàn)證詞頻分析在識別研究前沿以及主要趨勢的合理性及實(shí)踐價(jià)值[44]。
2006年,陳超美開發(fā)出基于主題詞分析的CiteSpaceⅡ可視化軟件[9],利用突發(fā)詞檢測算法,從題目、敘詞、摘要以及文獻(xiàn)記錄的標(biāo)識符中抽取出數(shù)量上發(fā)生突變的專業(yè)術(shù)語(Burst Terms)來識別新興的學(xué)科前沿。經(jīng)過對大量來源文獻(xiàn)動態(tài)分析后可以得出數(shù)量變化趨勢,對突發(fā)詞進(jìn)行檢測并發(fā)現(xiàn)聚類來識別和表示研究前沿,再從含有突發(fā)詞的文獻(xiàn)的引文中得到知識基礎(chǔ)[45]。
2017年,Xiaorong He等使用突發(fā)詞檢測算法分析關(guān)鍵詞和參考文獻(xiàn),得到有序加權(quán)平均(OWA)算子研究的新興趨勢[46]。
詞頻分析方法的不足在于詞頻閾值的確定存在較強(qiáng)的主觀性,目前學(xué)者大多將高頻詞匯閾值設(shè)定為Top50,但是只篩選高頻詞匯進(jìn)行分析會忽略可能代表研究熱點(diǎn)或新研究趨勢的低頻詞匯。
2.2.2.2 共詞分析
Callon 1983年提出的共詞分析技術(shù),是一種根據(jù)文本信息項(xiàng)之間的關(guān)聯(lián)強(qiáng)度進(jìn)行有效可視化的內(nèi)容分析技術(shù)[47]。共詞分析法對文獻(xiàn)內(nèi)容的挖掘更加深入準(zhǔn)確,最大程度發(fā)揮了詞頻分析的優(yōu)勢,因此越來越多的研究者采用共詞分析方法來識別研究前沿。隨著研究的深入,共詞分析方法不斷改進(jìn),分析詞從索引詞、關(guān)鍵詞發(fā)展到自由詞,從單個(gè)詞語、雙詞短語再到多詞短語,詞語共現(xiàn)范圍可被限定在同一句子之內(nèi)、數(shù)十個(gè)詞之內(nèi)、同一段落之內(nèi)或者同一篇論文之內(nèi)等[48]。
1984年Rip等采用共詞分析方法對10年內(nèi)生物技術(shù)領(lǐng)域的論文進(jìn)行分析揭示了該領(lǐng)域的現(xiàn)狀和研究前沿,指出識別研究前沿要結(jié)合科學(xué)計(jì)量方法(ScientometricMethod)和專家認(rèn)知分析(Cognitive Analysis)[49]。
1993年Kostoff提出了數(shù)據(jù)庫內(nèi)容結(jié)構(gòu)分析法(Database Tomography,DT),在持續(xù)改進(jìn)的同時(shí)先后進(jìn)行了技術(shù)競爭情報(bào)和高技術(shù)領(lǐng)域研究前沿分析等應(yīng)用[50]。
1998年,Bhattacharya抽取論文標(biāo)題中的詞語構(gòu)建共現(xiàn)網(wǎng)絡(luò),通過聚類分析來識別凝聚態(tài)物理研究領(lǐng)域內(nèi)和領(lǐng)域間的新興研究領(lǐng)域,并指出這種方法能比基于引文的方法更好地探測科學(xué)領(lǐng)域的研究活動[9]。
在前沿識別研究中,許多學(xué)者會綜合應(yīng)用多種方法。如2017年Carlos Olmeda-Gómez等使用基于關(guān)鍵詞共現(xiàn)方法和基于共被引網(wǎng)絡(luò)并結(jié)合突發(fā)詞檢測算法2種分析技術(shù),從知識基礎(chǔ)中識別研究前沿,最終得出西班牙圖書館和信息科學(xué)產(chǎn)出的主題背景和前沿[51]。
由于詞語在不同的語境下含義會有所不同,單個(gè)詞語并不能表達(dá)具體的意思,只有出現(xiàn)在句子中才會有意義。因此僅共詞分析方法不足以揭示研究前沿。
2.2.2.3 文本挖掘
基于文本挖掘的前沿監(jiān)測方法主要包括新興趨勢探測(Emerging Trend Detection,ETD)方法、非相關(guān)知識發(fā)現(xiàn)方法和基于概率主題模型方法。A.Kontostathis等2003年提出的新興趨勢探測(ETD)概念,是指監(jiān)測某個(gè)領(lǐng)域中熱點(diǎn)信息的動態(tài)趨勢,當(dāng)探測到最新發(fā)展態(tài)勢時(shí)給以提示[11],因此從本質(zhì)上講ETD也是一種研究前沿探測研究[52]。
1986年,D.R Swanson首次提出“基于非相關(guān)文獻(xiàn)的知識發(fā)現(xiàn)法”,從表面沒有任何聯(lián)系的文獻(xiàn)內(nèi)容中識別出新穎的、潛在有效的并且最終可理解的知識的信息研究方法[53]。非相關(guān)知識發(fā)現(xiàn)方法摒棄了傳統(tǒng)的引文分析方法,利用自然語言處理技術(shù)對科技文獻(xiàn)內(nèi)容進(jìn)行深入分析,從中發(fā)現(xiàn)相關(guān)知識點(diǎn),進(jìn)而發(fā)現(xiàn)潛在的知識關(guān)聯(lián)[54]。
D.M.Blei等于2003年提出了LDA模型,并對文本進(jìn)行“隱性語義分析”(LSA)[55];于2006年又提出動態(tài)主題模型[56],主要研究如何擴(kuò)展LDA模型,讓動態(tài)LDA模型可以處理具有時(shí)間戳的文檔數(shù)據(jù)集,實(shí)現(xiàn)動態(tài)主題的探測與追蹤。LDA 模型理論完備、參數(shù)比較容易設(shè)置并且有良好的泛化能力,能以詞組的形式表示主題詞-主題-文檔之間的語義關(guān)系,改善了共詞分析不能有效表達(dá)詞匯間語義關(guān)系的缺陷,使分析結(jié)果更加準(zhǔn)確、可靠、成熟。
研究前沿的識別和選擇對于政府制定科技發(fā)展戰(zhàn)略或者企業(yè)制定指導(dǎo)性的發(fā)展規(guī)劃都具有支撐決策的重要意義。
日本技術(shù)預(yù)見工作始于20世紀(jì)70年代。1970年,日本科技廳采用德爾菲法進(jìn)行關(guān)鍵技術(shù)和通用技術(shù)的選擇[57],進(jìn)行第一個(gè)預(yù)見分析。日本為了成為全球科學(xué)技術(shù)的領(lǐng)導(dǎo)者并保持其科技強(qiáng)國的地位,從第三期《科學(xué)技術(shù)基本計(jì)劃》(2006-2010)開始將研究前沿作為首要研究課題,確定生命科學(xué)、信息通信、環(huán)境、納米材料等 8 個(gè)重點(diǎn)領(lǐng)域作為日本 2006-2010 年科研攻關(guān)的重點(diǎn),又從中遴選確定了 273 個(gè)重要研發(fā)課題。這些課題是通過技術(shù)預(yù)測、國際比較、公民調(diào)查等多種方法挑選出來的,其設(shè)定的目標(biāo)大多是采用定性與定量相結(jié)合的方式確立的[58]。
韓國自1993年起,每5年進(jìn)行一次技術(shù)預(yù)見工作,截至2011年,共進(jìn)行了4次技術(shù)預(yù)見。其中前兩次技術(shù)預(yù)見運(yùn)用了德爾菲法,第三次則增加了未來社會與社會需求展望、未來社會情景描述等預(yù)測方法。2009年,韓國采用文本挖掘、論文網(wǎng)絡(luò)分析等方法,進(jìn)行了為期兩年的“第四次技術(shù)預(yù)見”,以便更好地把握社會和科技發(fā)展的態(tài)勢。國家科學(xué)技術(shù)審議會負(fù)責(zé)審議和批準(zhǔn)技術(shù)預(yù)見的結(jié)果,其下設(shè)的技術(shù)預(yù)見綜合委員會,由來自科技領(lǐng)域和人文社會領(lǐng)域的20位專家構(gòu)成,負(fù)責(zé)技術(shù)預(yù)見工作的總體協(xié)調(diào)與組織。技術(shù)預(yù)見綜合委員會下設(shè)未來技術(shù)評估委員會、未來展望委員會和技術(shù)預(yù)見學(xué)科委員會3個(gè)委員會,由各領(lǐng)域?qū)<医M成,分別負(fù)責(zé)對上一次技術(shù)預(yù)見結(jié)果進(jìn)行評估、對未來社會進(jìn)行展望和分析、以未來社會展望為基礎(chǔ)遴選未來技術(shù)[59]。
加拿大創(chuàng)新基金會(CFI)通過研究技術(shù)的可發(fā)展性、創(chuàng)新能力、對國家的有益性三個(gè)重要標(biāo)準(zhǔn)來評估所有提案,根據(jù)滿足審查標(biāo)準(zhǔn)的程度,選擇最優(yōu)的提案,由研究人員、研究管理人員和私營部門管理人員組成的審查人員審查后向CFI提供資助建議。
大型企業(yè)通常已經(jīng)占據(jù)一個(gè)或多個(gè)領(lǐng)域的領(lǐng)軍地位,為了謀求更長遠(yuǎn)的發(fā)展,它們通常會對有潛力的重要領(lǐng)域做出預(yù)測。幾乎一半的美國“財(cái)富”1000強(qiáng)企業(yè)都使用技術(shù)預(yù)見方法進(jìn)行企業(yè)戰(zhàn)略規(guī)劃。這些公司一般規(guī)模較大,通常都有自己的戰(zhàn)略規(guī)劃部門負(fù)責(zé)進(jìn)行前瞻性和面向未來的研究。例如飛利浦、朗訊科技、西門子、戴姆勒-克萊斯勒以及殼牌等大型公司已經(jīng)開發(fā)出自己的未來展望系統(tǒng),并通常采用基于專利分析、文獻(xiàn)分析、情景分析、調(diào)查的方法,或者使用德爾菲法和技術(shù)路線圖進(jìn)行決策?;萜铡⒂⑻貭柡凸雀璧仍S多大公司對技術(shù)創(chuàng)新預(yù)見,都率先使用“預(yù)測性市場”,即通過一個(gè)虛擬的交易機(jī)制,從關(guān)于未來可能的技術(shù)發(fā)展方向上挖掘所有員工的知識和經(jīng)驗(yàn)的方式來做出決策判斷。這種方法類似而又不同于基于專家的預(yù)測方法,是一種比較新的方法[60]。
目前,對研究前沿還沒有明確、統(tǒng)一的定義,也缺少一套客觀公認(rèn)的標(biāo)準(zhǔn)化指標(biāo)體系。研究前沿的定性識別方法大多是基于專家預(yù)測,專家的主觀意見占有很大比重,同時(shí)對專家的專業(yè)素養(yǎng)要求較高。雖然不少國家和大型企業(yè)借助專家的意見來輔助戰(zhàn)略決策,但在實(shí)際應(yīng)用中,這種方法費(fèi)時(shí)費(fèi)力,并不能及時(shí)滿足研究前沿識別的需求。
共被引分析、文獻(xiàn)耦合分析、直接引用分析以及共詞分析等方法在探測研究前沿中應(yīng)用廣泛,可以根據(jù)使用情況及應(yīng)用環(huán)境的不同選擇適合的方法。共被引分析、文獻(xiàn)耦合、共詞分析大多使用單鏈接聚類算法等傳統(tǒng)的聚類技術(shù),存在主觀設(shè)定閾值的問題,需要借助領(lǐng)域?qū)<业慕?jīng)驗(yàn)以獲得更好的聚類結(jié)果。復(fù)雜網(wǎng)絡(luò)領(lǐng)域的社團(tuán)結(jié)構(gòu)探測算法可通過網(wǎng)絡(luò)結(jié)構(gòu)的特征直接獲取最優(yōu)化的聚類結(jié)果,不會存在閾值主觀調(diào)整的問題,因此將來可能會有更多的社團(tuán)結(jié)構(gòu)探測算法應(yīng)用于科學(xué)網(wǎng)絡(luò)中。日本的Shibata團(tuán)隊(duì)證明,基于直接引用的方法識別研究前沿效果優(yōu)于基于共被引、文獻(xiàn)耦合的方法,有可能成為研究新趨勢。基于引文分析的方法雖然應(yīng)用廣泛,但依賴于能夠提供引文關(guān)系的數(shù)據(jù)庫,而在現(xiàn)實(shí)中這樣的數(shù)據(jù)庫是相當(dāng)有限的。從這個(gè)意義上來說,基于詞的分析方法的應(yīng)用空間更為廣闊?;谖谋就诰虻那把乇O(jiān)測方法直接通過對文本內(nèi)容的分析,自動識別研究前沿,較為簡便快捷,在前沿研究中會得到越來越多的重視和應(yīng)用。
與期刊論文數(shù)據(jù)相比,專利、各國政府部門的科技規(guī)劃、各國基金機(jī)構(gòu)資助的重點(diǎn)領(lǐng)域的項(xiàng)目申請書和研究報(bào)告以及重要組織、學(xué)會、科研機(jī)構(gòu)撰寫的相關(guān)研究前沿的研究報(bào)告等多種數(shù)據(jù)更能及時(shí)反映科學(xué)研究前沿,會越來越多地應(yīng)用于科學(xué)前沿識別。