蔣穎 逯萬輝
(中國社會科學評價研究院,北京,100732)
隨著科學研究的不斷深入,交叉學科的重要性日益凸顯,學術界對于交叉學科的研究也逐漸深化。早期以定性研究為主,多從概念辨析、交叉學科特征與類型等問題入手,后來逐漸深入到交叉學科的知識整合、推進機制、交叉學科評價、超學科研究等全方位的研究[1-2]。近十幾年來定量研究有了更多的突破,主要集中于交叉學科測度、跨學科規(guī)律研究、跨學科知識轉移與知識點發(fā)現(xiàn)等方面[3-5]。
深入了解交叉學科發(fā)展演化規(guī)律和影響機制是促進交叉學科發(fā)展的前提和基礎??傮w而言,交叉學科發(fā)展的驅動力包括科學系統(tǒng)內在動力和外在的社會動力兩個方面,科學進步的必然趨勢和學科分化的內在邏輯是推動交叉學科發(fā)展的內在動力,社會發(fā)展的外在需求是推動交叉科學發(fā)展的外在動力[6]。從學科發(fā)展的內在邏輯來看,學科內部不同理論之間的滲透、競爭和沖突,理論與實驗之間的沖突,以及不同學科之間的相互作用是推動學科發(fā)展的重要因素。交叉學科的內在發(fā)展動力除了以上因素之外,還有來自于不同學科的理論之間發(fā)生不同跨度的滲透、競爭和融合[7]。對于一門具體的交叉學科而言,其發(fā)展動力又可具化為交叉學科自身的動力、來自于其他學科的推動力及社會需求三個方面。而新興交叉學科的社會需求相對穩(wěn)定,學科尚未發(fā)展完成,自身動力并不強大,因此來自于其他學科的推動力,特別是向交叉學科輸出大量知識的學科的推動作用,就成為新興交叉學科發(fā)展最重要的影響因素。為避免與通常意義的“學科”混淆,我們將交叉學科的知識來源學科稱之為“來源學科”。來源學科對于交叉學科的發(fā)展至關重要,來源學科自身的發(fā)展也會影響和帶動交叉學科的發(fā)展。
按照來源學科之間的距離,學科交叉可分為遠緣交叉和近緣交叉等不同模式。遠緣交叉的學科,如自然科學領域與社會科學領域的學科交叉所形成的學科[8],其來源學科在理論、方法等方面存在巨大差異,來自于不同領域的來源學科可能采用不同的研究范式,其知識整合的難度更大,來源學科之間的競爭和博弈更為明顯。學科發(fā)展快,能夠更好滿足交叉學科需求的來源學科在競爭中逐漸占上風;學科發(fā)展慢,不能很好滿足交叉學科需求的來源學科就會逐漸被弱化甚至淘汰。此時,交叉學科也可能因此而發(fā)生范式轉換,即一種范式取代另一種范式。
隨著交叉學科的發(fā)展,來源學科的種類和數(shù)量也會發(fā)生變化,眾多來源學科中,只有少數(shù)學科對交叉學科的形成和發(fā)展產生重大影響。因此我們需要了解在交叉學科發(fā)展過程中,哪些來源學科對于交叉學科的發(fā)展起到重要的作用?這些眾多的學科之間是什么關系?它們之間的競爭或合作關系是否影響到交叉學科的發(fā)展?重要來源學科地位是穩(wěn)定的嗎?如果來源學科地位發(fā)生變化對交叉學科意味著什么?對這些內容的探索有助于我們從來源學科的角度進一步了解交叉學科的發(fā)展機制。
從知識交流角度來看,交叉學科在形成和發(fā)展過程中必然存在來自來源學科的知識流動。通過對知識流動的測度,可以考察交叉學科從不同的來源學科之間吸取的知識量,了解各來源學科之間的關系及其對交叉學科發(fā)展的影響,進而從一個方面揭示交叉學科發(fā)展的動力機制。學科間的知識流動可以用文獻之間的引用關系來揭示,雖然這種方法還存在一定局限性,但它也是經(jīng)過驗證的最常用和最有效的方法[9]。例如,Yan基于WoS數(shù)據(jù)和JCR分類利用最短路徑法構建知識流動網(wǎng)絡,分析了學科間知識傳播的模式[10],呂海華和李江提出從“學科勢能”角度考察跨學科知識流動的規(guī)律[11]。在學科交叉過程中知識流動特征及影響方面,Аmjad與Аli對計算機科學和物理學頂級期刊之間的知識擴散模式和擴散趨勢進行了分析[12];Gates等基于1900-2017年間WoS數(shù)據(jù)庫分析了《自然》雜志和其他期刊引用各學科論文及被各學科引用的情況,發(fā)現(xiàn)與100年前相比,現(xiàn)在的論文借鑒并影響了更多學科[13];王旻霞、趙丙軍發(fā)現(xiàn)在國內跨學科知識交流網(wǎng)絡中,存在影響力較大的知識源學科節(jié)點,各學科作為知識輸出源的地位不均衡[14];周秋菊等從期刊同被引和互引兩個角度分析了生態(tài)學領域的學科結構和知識流動,發(fā)現(xiàn)生態(tài)學高影響因子期刊在知識交流網(wǎng)絡中位于核心位置,并在知識交流中承擔了更多的輸出作用[15];劉超等基于引文分析了國內圖書情報學與新聞傳播學之間的相互影響和學科交叉程度,發(fā)現(xiàn)兩學科間的相互影響度和交叉度近年來明顯增大[16]。目前多數(shù)研究側重于對學科之間知識流動定量測度方法的探索及知識流動的特征分析,較少從來源學科對交叉學科發(fā)展影響的角度進行研究,特別是很少從整體角度考察來源學科群的結構及層次,以及來源學科之間競爭與合作關系對交叉學科發(fā)展的影響等問題,而這些問題對于揭示交叉學科發(fā)展機制有重要意義。
“計算語言學”一詞最早出現(xiàn)于20世紀60年代初期。經(jīng)過六十年的發(fā)展,計算語言學已經(jīng)成為一門重要的有影響力的學科。作為一門交叉學科,計算語言學與很多學科相關。國家科技名詞委發(fā)布的《語言學名詞》一書認為計算語言學是“涉及語言學、計算機科學和數(shù)學的邊緣學科”[17],陳平認為“計算語言學是語言學、計算機科學、數(shù)學、心理學、認知科學等學科結合、融匯形成的交叉學科”[18]。計算語言學作為交叉學科,具有明確的目的性和問題驅動特征,常被稱為是“用計算機和為計算機研究語言的科學”[19]。馮志偉[20]、李德毅[21]等分別總結了計算語言學及相關學科自然語言處理的發(fā)展歷史。綜合來看,計算語言學可以分為以下幾個發(fā)展階段:萌芽期(1940年代至1950年代末期)、初步發(fā)展期(1960年代中期至1980年代末期)、繁榮期(1990年代至2007年)及興盛期(2008年之后)。綜上,計算語言學是一個典型的交叉學科,橫跨人文社會科學、自然科學和工程技術等多個領域,學科跨度大,涉及面廣,從產生概念到迅猛發(fā)展,有合理的研究時間窗,可以代表新興交叉學科的一種類型。在學科發(fā)展方面,計算語言學學科隨著對語言分析、理解和處理的理論、技術及方法的變化而不斷發(fā)展,這些理論、技術及方法分別來自于不同的學科或研究領域,是計算語言學發(fā)展的動力和源泉。
因此,本文以計算語言學為例,探討交叉學科知識來源學科的總體結構和層次劃分,分析來源學科之間的競爭與合作關系對交叉學科發(fā)展的影響。我們希望這些分析視角有利于進一步了解交叉學科的發(fā)展機制。
本文采取定量與定性相結合的方法進行研究?;谖墨I分布劃分計算語言學發(fā)展階段,用定性方法描述不同階段的發(fā)展特點;用聚類方法確定來源學科的關系及總體結構;引進來源學科勢能的概念用于測度來源學科影響力,從而對來源學科進行分層;考察主導學科之間的合作與競爭關系及對交叉學科的影響,從主導學科地位的變化思考計算語言學學科發(fā)展的影響因素。
受呂海華和李江對“學科勢能”定義[11]的啟發(fā)(下文簡稱之為“呂文”),我們提出“來源學科勢能”的概念,用于測度在知識輸出方面來源學科對交叉學科的優(yōu)勢程度①物理學對勢能的定義是:物體(或系統(tǒng))由于位置或位形的變化而具有的能。物體(或系統(tǒng))的勢能,只能對選定的初始位形來計算(見《中國大百科全書》第三版網(wǎng)絡版:勢能. https://www.zgbk.com/ecph/words?SiteΙD=1&Name=%E8%83%BD&Type=bkzyb&subSourceType=000003000007000006)。按照這個定義進行類推,當來源學科對交叉學科進行知識輸出(也就是交叉學科引用來源學科文獻)時,來源學科相對交叉學科存在知識優(yōu)勢,以交叉學科作為初始位形,兩者的勢差大小可以用基于引文量的指標來表示?!皝碓磳W科勢能”的含義與呂文中“學科勢能”的概念既有關聯(lián)又有所不同。相同的是兩者都用于表示學科之間相對的知識地位優(yōu)勢,均以引文為基礎進行測度;不同的是呂文從學科體系的整體視角去定義學科勢能,而本文則從交叉學科與來源學科之間的單向、微觀關系出發(fā)定義來源學科勢能,前者是多個學科之間相互知識流動后疊加出來的宏觀結果,后者反映的是在單向知識流動情境下來源學科相對于交叉學科的知識地位優(yōu)勢。?!皝碓磳W科勢能”是在交叉學科與其知識來源學科之間通過交叉學科對來源學科的引用關系形成的相對位置所確定的勢能。呂文的公式同時考慮了學科之間知識的相互流動,包括直接流動和間接流動,本文僅分析來源學科對交叉學科的影響,因此只關注來源學科到交叉學科知識的單向、直接流動,不考慮交叉學科對來源學科的知識輸出情況。我們設定作為初始位形的交叉學科勢能為0,來源學科的勢能值就等于來源學科相對于交叉學科的勢差,也就是來源學科流向交叉學科的知識量。來源學科勢能越高,流向交叉學科的知識量越大,對后者的影響力也越大,其中勢能最高的若干學科對交叉學科的發(fā)展有重要的推動或引領作用。
呂文中,原始的學科勢能計算以被引頻次為基礎,為了去除學科規(guī)模的影響,進行了標準化處理,即將被引頻次除以學科發(fā)文量。本文的分析中因涉及較長時段的數(shù)據(jù),考慮到交叉學科的篇均參考文獻量隨時間的推移存在明顯的增加趨勢(計算語言學篇均參考文獻量從1991年的23.9篇增長到2020年的54.8篇),需要消除參考文獻量的增長因素之后才能比較不同年代的來源學科勢能變化趨勢,因此在呂文基礎上又除以引用年度的篇均參考文獻量。最后,由于標準化處理之后得到的數(shù)值較小,為便于觀察比較,再將得到的值乘以100。
此時我們將來源學科勢能計算公式定義為:
其中,ESit是來源學科i在某年度t相對于交叉學科的來源學科勢能,由于交叉學科的勢能為0,因此ESit也等于來源學科與交叉學科的勢差;Cit是來源學科i在某年度t被交叉學科論文所引用的總頻次;Pt為交叉學科在某年度t發(fā)表的論文總數(shù);Rt為在某年度t中交叉學科論文的篇均參考文獻量。
研究表明來源學科數(shù)量眾多,例如一篇期刊論文平均引用六個學科的文獻[12],交叉學科動輒引用幾十、上百甚至更多學科的內容,而學科間的知識流動并不均衡,來源學科對于交叉學科的影響力也有差異[10,13-14]。為更好地對來源學科進行分析,我們對來源學科進行聚類、分層,并分析來源學科在交叉學科發(fā)展過程中的競爭與合作關系。
對來源學科的聚類基于共被引文獻的相似性假說,通過提取參考文獻的學科特征,構建學科共被引矩陣,進而實現(xiàn)學科相似性計算和聚類分析。本文利用VOSviewer文獻可視化工具生成聚類圖譜。VOSviewer采用Fast-Newman聚類算法,該算法是譜聚類算法的改進。
在聚類分析基礎上,為區(qū)分來源學科對交叉學科的不同影響,我們根據(jù)勢能的大小將來源學科分為主導學科、重要學科和一般學科等不同層次。其中,主導學科為各學科群中在較長時段內平均勢能最高的一個或幾個學科,代表該學科群的主要研究方向;重要學科為某時段內各學科群勢能均值前10%的來源學科;其余來源學科作為一般學科。
為揭示來源學科在交叉學科發(fā)展過程中的競爭與合作關系,我們用來源學科勢能代表其競爭力,用學科同被引強度代表合作關系。為消除文獻規(guī)模增長帶來的影響,我們在學科共被引頻次基礎上,計算相對共被引強度(兩學科共被引頻次在該時段全部共引關系中的占比),并用它來反映不同時段的學科合作水平。
本文以“計算語言學”學科為具體研究對象。計算語言學與另一個學科“自然語言處理”之間存在重合,兩者之間的界限較為模糊,但也各有側重。在《中華人民共和國學科分類與代碼》(GB/T13745-2009)中前者是語言學(一級學科)和應用語言學(二級學科)下的三級學科,后者是計算機科學(一級學科)和人工智能(二級學科)下的三級學科。計算語言學更側重于對理論、邏輯模型和計算技術的研究,期刊論文是其重要的成果形式;而自然語言處理面向工程層面,更注重問題的解決方案和代碼的實現(xiàn),研究成果更多體現(xiàn)為會議論文。本文重點研究作為交叉學科的計算語言學,因此我們只選擇期刊論文作為研究對象??紤]到兩者存在的重合部分,也同時檢索了自然語言處理的期刊論文。
2021年3 月,通過構建檢索式②交叉學科邊界的確定是一個有難度的問題,特別是面對長達60年的時間段,從期刊、分類等角度都難以獲取理想的文獻集合。雖然利用主題檢索可能存在漏檢現(xiàn)象,但也是相對可操作的選擇。本文希望盡量避免其他弱相關文獻對研究過程的干擾,因此在難以兼顧查全率與查準率的情況下,我們優(yōu)先考慮查準率,最大限度保證來源數(shù)據(jù)樣本的準確,以實現(xiàn)對計算語言學的知識來源結構進行較為精準的挖掘和分析?!癟S=(Natural Language Processing)OR TS=(Computational Linguistics)”,利用SCΙ和SSCΙ兩個數(shù)據(jù)庫分別檢索并下載文獻及引文信息,進行合并去重處理后得到最終的數(shù)據(jù)集,最后共獲取1961-2020年計算語言學論文1.38萬篇,涉及參考文獻63.33萬條。
我們采用JCR的論文分類體系對計算語言學論文及其引文中的期刊論文進行學科分類。鑒于WoS數(shù)據(jù)庫引文中的期刊名稱是縮寫形式,而JCR中的期刊名稱是全寫形式,因此,本文以ESΙ作為橋梁,構建起“期刊名稱簡寫——期刊名稱全寫——期刊所屬學科分類”的映射關系,獲取計算語言學中參考文獻的學科屬性,即計算語言學的來源學科。
鑒于1960-1990年數(shù)據(jù)量少,不能支持有效的引文數(shù)據(jù)分析,因此文獻增長分析以1961-2020年為時間窗,其他對來源學科的相關分析時段則從1991年開始。
在學科發(fā)展的定量描述方面,普賴斯指數(shù)增長模型、邏輯增長模型等多個以學科文獻累積量為基礎的模型常用于揭示較長時間段的學科發(fā)展狀況[22]。雖然該方法有一定局限性[23],但仍可在相當程度上反映學科發(fā)展的一般趨勢。相對于文獻累積量,年度發(fā)文量能夠更靈敏地反映出學科的增長和變化情況。成熟穩(wěn)定的學科,年度發(fā)文量會保持平穩(wěn)或慢速增長;衰落中的學科,年度發(fā)文量會有下降的趨勢;相關文獻[24-25]表明,一些處于快速增長期的學科,年度發(fā)文量符合指數(shù)增長規(guī)律。
從計算語言學學科發(fā)展過程來看,自學科誕生之后,相關研究論文從零散分布到波動增長,再到穩(wěn)定的快速增長,經(jīng)歷了學科形成、發(fā)展和繁榮的過程,已經(jīng)成為一個具有相當規(guī)模的交叉學科(見圖1)。我們對1961-2020年發(fā)文量進行指數(shù)曲線擬合,得到指數(shù)方程:
其中,N是某年度的發(fā)文量,t是年份數(shù)(起始年份為1),R2= 0.939。
這意味著1961-2020年期間,計算語言學學科發(fā)展速度很快,年度發(fā)文量呈指數(shù)增長,年度增長量為13.2%,年度發(fā)文量倍增時間為5.3年,屬于發(fā)展速度較快的學科。
從圖1可以看出,計算語言學的發(fā)展歷程呈現(xiàn)出三個不同的發(fā)展階段,時間段劃分與馮志偉[20]和李德毅[21]等專家的定性階段劃分較為一致,由于1960年之前還沒有誕生“計算語言學”等術語,因而本文不包括萌芽期。根據(jù)學科文獻發(fā)展的數(shù)量、年度增長率和倍增時間,我們認為三個階段分別為學科形成時期、學科發(fā)展時期和學科繁榮時期。
圖1 1961-2020年度發(fā)文量分布Fig.1 Logarithmic Distribution of Publications from 1961 to 2020
我們對三個階段的發(fā)文量進行指數(shù)曲線擬合,并根據(jù)年度增長率計算了文獻倍增時間。三個階段的特征總結如下。
(1)學科形成時期(1961-1990年):發(fā)文量低,波動大,增長快。
1960年代開始出現(xiàn)少量計算語言學研究論文,1980年代發(fā)文量明顯增加,但每年最多不超過13篇,1990年突增到27篇。對這一階段發(fā)文量進行線性(R2=0.586)和指數(shù)(R2=0.658)擬合,后者擬合效果相對較好。該階段是學科創(chuàng)建初期,發(fā)文量波動大,但增長速度很快,年度增長率為8.5%,倍增時間為8.2年。
從學科發(fā)展過程來看,早期的機器翻譯被看成一種機械的解讀密碼的過程,在經(jīng)歷了失敗之后,學者們認識到應當加強語言和自然語言計算機處理的基礎研究,并正式認可“計算語言學”名稱。此后語言學家和計算機專家合作研究,在自然語言理解、話語分析等方面取得較大進展,此時主要研究范式為基于規(guī)則的理性主義研究方法,更多地利用人類的內省知識,也就是語言學研究成果。在該階段后期,學者們又開始對研究理論和方法進行反思,這使計算語言學的研究又逐步回到早期幾乎被否定的有限狀態(tài)模型和經(jīng)驗主義方法[20]。
(2)學科發(fā)展時期(1991-2007年):發(fā)文量較高,波動中的快速增長。
1991年,論文數(shù)量從1990年的27篇突破性地增長到87篇,此后在小幅波動中快速增長。對這一階段發(fā)文量進行線性(R2=0.839)和指數(shù)(R2=0.866)擬合,兩者擬合效果相近,但后者效果略好??傮w而言,這一階段文獻增長速度很快,平均年增長率為7.3%,倍增時間為9.5年。
“問渠那得清如許?為有源頭活水來?!彼氖旮母镩_放的實踐為我國憲法發(fā)展提供源頭活水,憲法的不斷完善為改革開放保駕護航。五次修憲、加強實施,憲法隨著黨領導人民進行改革開放和中國特色社會主義偉大實踐的發(fā)展而與時俱進,不斷彰顯我國憲法的中國特色、中國風范,為世界憲法文明增添寶貴的中國智慧和中國經(jīng)驗。
在這一時期,概率和數(shù)據(jù)驅動的方法成為計算語言學的標準方法,基于統(tǒng)計的機器學習算法開始流行。研究工作的重要突破是在基于規(guī)則的技術中引入了語料庫方法,其中包括統(tǒng)計方法、基于實例的方法、通過語料加工手段使語料庫轉化為語言知識庫的方法等。這一階段理性主義和經(jīng)驗主義并行,基于統(tǒng)計的機器學習算法、機器翻譯、搜索引擎獲得了成功。
(3)學科繁榮時期(2008-2020年):發(fā)文量穩(wěn)定、單調高速增長。
2008-2020年年度發(fā)表論文數(shù)呈典型的指數(shù)增長分布(R2=0.946)。該階段文獻年度增長率達到15.9%,倍增時間縮短至4.4年。同前兩階段相比,這一階段學科發(fā)展速度更快,進入了穩(wěn)定、單調增長時期。從發(fā)文量分布來看(圖1),這一階段隨時間推移呈現(xiàn)加速的態(tài)勢。前期增長速度與總體速度接近,后期(2016-2020年)增速大幅提高,明顯高于該階段整體擬合速度。
2008年之后,人工智能得到迅速發(fā)展,深度學習方法被廣泛使用,神經(jīng)網(wǎng)絡技術將計算語言學推向發(fā)展高潮。2017年,F(xiàn)acebook宣布推出了基于卷積神經(jīng)網(wǎng)絡開發(fā)的語言翻譯模型,此后機器翻譯的速度和準確度有了大幅度提高。2018年谷歌人工智能研究院提出BERT預訓練語言模型,取得“全面超越人類”的成就,相關成果被很多領域廣泛應用。這一階段經(jīng)驗主義占據(jù)絕對優(yōu)勢,以深度學習為基礎的研究方法顛覆了語言學基于規(guī)則的分析方法。
縱觀計算語言學發(fā)展歷程,我們發(fā)現(xiàn)各階段一直存在對不同理論與方法的選擇、使用和反思,來源于語言學、計算機科學和人工智能等領域的喬姆斯基的生成語法理論、語料庫方法、深度學習理論方法等,在不同階段分別作為計算語言學研究的主流力量推進計算語言學科的發(fā)展。
計算語言學的知識來源于多個學科。從1991-2020年來源學科數(shù)量的分布(圖2)可以看出,計算語言學來源學科的數(shù)量呈不斷增加的態(tài)勢,從1991年的73個增長到2020年的228個,來源學科日益廣泛,學科多樣性程度不斷增強。2017年之后,學科數(shù)逐漸趨向平穩(wěn)。由于來源學科數(shù)量已與JCR學科總數(shù)越來越接近,因而此后學科數(shù)量的增加空間已經(jīng)不大。
圖2 計算語言學來源學科數(shù)量分布Fig.2 Quantity Distribution of Source Disciplines of Computational Linguistics
為更好地了解不同來源學科的關系及對計算語言學的影響,我們以五年為一個單位,利用VOSviewer的譜聚類方法畫出來源學科群的聚類關系圖。限于篇幅,只展示其中的四張圖。
從圖3可以明顯看出,隨著時間的推移,來源學科數(shù)量快速增加,涉及范圍越來越廣,學科間的聯(lián)系越來越多,學科多樣性、凝聚性都明顯增強。類團的劃分及主要學科的聚類結果保持較為穩(wěn)定的狀態(tài),重要來源學科中只有個別學科的歸類稍有變動。各階段聚類結果均顯示,計算語言學的來源學科按照其學科性質聚集成三個大的類團,具體如下。
圖3 1991-2020年來源學科聚類圖Fig.3 Cluster Map of Source Disciplines from 1991 to 2020
語言學與認知科學學科群:該學科群的主體是語言學、認知科學及其他與語言學相關的學科,包括語言學、實驗心理學、神經(jīng)科學、心理學、聲學、行為科學、多學科科學,以及社會科學相關學科?,F(xiàn)代語言學的領軍人物喬姆斯基把語言學置于認知科學的范疇之內,促進了心理語言學和神經(jīng)語言學的發(fā)展,由此引領第二次認知革命。因此,語言學與心理學、神經(jīng)科學等具有密切聯(lián)系。該學科群為計算語言學提供語言學理論和方法,主要通過語言學、多學科科學與另外兩個學科群之間建立聯(lián)系。從歷年聚類圖中可以看出語言學與認知科學學科群一直占有非常重要的位置,但是最后五年的相對重要性和影響力明顯下降。
交叉學科應用學科群:1991-1995年曾以信息系統(tǒng)為中心,但很快計算機科學-交叉科學應用就成為該學科群的核心。此外,圖書館學情報學、醫(yī)學信息學、健康保健科學與服務等是其中重要的學科。該學科群外圍是醫(yī)學、生物學領域的相關學科。如果說前兩個學科群分別代表計算機和語言學的理論與方法,那么第三個學科群更偏重計算語言學在各學科領域的應用,如文獻信息檢索、醫(yī)學信息處理等。該學科群早期較為薄弱,后期得到長足發(fā)展。
從來源學科三十年變化過程來看,位于三群交界處,將三個學科群密切聯(lián)系在一起的學科包括語言學、人工智能、計算機交叉科學應用和多學科科學,這些學科被引量較高,在不同學科群之間架起重要橋梁,對計算語言學發(fā)展有重要作用。
隨著學科的細分及交叉學科的發(fā)展,來源學科種類不斷增加,涉及范圍越來越廣泛。但是眾多來源學科對交叉學科的影響程度并不相同,實際上只有少數(shù)學科是交叉學科的主要知識來源,對交叉學科的發(fā)展產生重要影響。從圖3可以看出,每個來源學科群中都有較為核心的學科,它們被引頻次高,與其他學科聯(lián)系緊密,對交叉學科發(fā)展的影響更大。同時,隨著交叉學科的發(fā)展,來源學科的數(shù)量及影響力也會產生變化。
經(jīng)計算,1991-2020年計算語言學各來源學科勢能均值是0.305,中位數(shù)是0.035,最大值為9.464,呈明顯的偏態(tài)分布,勢能前20%的學科(46個)占總勢能的81.33%,大部分勢能聚集于少數(shù)學科中。為更好地分析來源學科對交叉學科的影響,我們基于來源學科勢能的大小,結合聚類結果,將來源學科分為主導學科、重要學科和一般學科三個層次?!爸鲗W科”是在較長時段內保持很高的勢能,對交叉學科知識輸出量大,對交叉學科發(fā)展產生引領作用的來源學科,一個交叉學科可以同時有多個主導學科;“重要學科”表示對交叉學科發(fā)展產生較為重要作用的來源學科,其學科勢能相對較高,知識輸出量較大;“一般學科”的勢能較低,數(shù)量雖然龐大,但對交叉學科知識輸出量少、影響力小,可能預示未來潛在的發(fā)展方向。下面將從重要學科入手,確定對交叉學科發(fā)展影響較大的來源學科并觀察其范圍拓展情況,重點分析主導學科及其發(fā)展變化對交叉學科的影響。
我們以五年為一個單位,確定勢能均值前10%的學科作為重要來源學科(圖4),并觀察計算語言學的發(fā)展變化及研究領域拓展趨勢。重要學科共有31個,在各階段的勢能占比從58.7%(2016-2020年)到70.2%(2001-2005年)之間,平均占比65.4%。
圖4 計算語言學的重要來源學科Fig.4 Ιmportant Source Disciplines of Computational Linguistics
1991-2020年,計算機科學學科群中的重要學科在穩(wěn)定中有發(fā)展。人工智能、信息系統(tǒng)、電氣與電子工程、軟件工程、計算機科學理論與方法5個學科一直保持在前10%;計算機硬件與架構在早期是重要的來源學科,因為當時的系統(tǒng)處理能力在很大程度上取決于硬件的性能,但是2006年之后隨著硬件性能的普遍提高,不再成為計算語言學研究的制約條件,該學科退出重要來源學科清單;2016-2020年間,多學科-地理科學、環(huán)境科學進入了前10%。語言學與認知科學學科群經(jīng)歷不穩(wěn)定的發(fā)展之后重要學科數(shù)量明顯減少。實驗心理學、神經(jīng)科學、語言學、多學科科學、心理學等5個學科一直保持在前列,心理學多學科從1996年開始成為重點來源學科,其他學科的表現(xiàn)不夠穩(wěn)定。從來源學科勢能來看,最后五年除多學科科學之外,其他學科勢能數(shù)值下降幅度較大,重要學科數(shù)量也明顯減少。交叉學科應用學科群早期只有計算機交叉學科應用和圖書館學情報學兩個重要學科,但是卻呈現(xiàn)出不斷發(fā)展的趨勢,從1996年開始不斷有生命科學領域學科的加入并保持較為穩(wěn)定的發(fā)展。
從總體來看,重要來源學科的數(shù)量隨時間變化而不斷增長,但三個學科群呈現(xiàn)出不同的特點。計算機科學學科群總體穩(wěn)定,來源學科勢能總體呈增長趨勢,說明計算語言學對該學科群的知識依賴程度增強;語言學與認知科學學科群有過較大影響但近五年萎縮嚴重,說明計算語言學對該學科群相關學科的知識依賴程度降低;交叉學科應用學科群是新興的生長點,隨著計算語言學的發(fā)展,在生命科學領域有更廣泛的應用,同時也從生命科學領域吸收更多相關知識。
在重要來源學科分析中,我們看到每個學科群都有幾個學科長期穩(wěn)定地保持較高的來源學科勢能,在學科聚類圖中與其他學科有更為密切的聯(lián)系。我們將某一時段內每個來源學科群中勢能最大的一個或幾個學科定義為計算語言學的主導學科。主導學科有兩個層面的含義,一個是作為學科群中勢能最高的學科,代表該學科群的主要研究方向;其次是對交叉學科輸出更多的知識,產生更大的影響。為了更好地展示和比較,我們選擇1991-2020年間來源學科勢能平均值大于1.5的14個學科,通過觀察比較發(fā)現(xiàn)不同學科群中的主導學科。
(1)計算機科學學科群的主導學科
從1991-2020年來源學科勢能分布情況來看,人工智能和信息系統(tǒng)是計算機科學學科群的主導學科(圖5)。
圖5 計算機科學學科群的主導學科Fig.5 Leading Disciplines of Computer Science Cluster
1990年代該學科群出現(xiàn)了多個勢能較高的學科。最初,計算機科學理論與方法勢能很高,但是很快就下降,并一直呈下降趨勢。軟件工程曾經(jīng)在1994年達到峰值,但是之后也與計算機科學理論與方法一樣保持下降趨勢。20世紀90年代末期開始,人工智能逐漸超越其他學科,成為主導學科,隨后是信息系統(tǒng)。2007年之后,人工智能學科占據(jù)了較大優(yōu)勢。2016年前后是一個轉折點,這一年開始人工智能拉大與信息系統(tǒng)的差距,呈現(xiàn)出遙遙領先的態(tài)勢,而信息系統(tǒng)的來源學科勢能則從2016年開始一路下降。
這種變化態(tài)勢與人工智能學科的發(fā)展和突破密切相關,如2006年提出神經(jīng)網(wǎng)絡深度學習算法、2016年АlphaGo戰(zhàn)勝人類、2017年出現(xiàn)基于卷積神經(jīng)網(wǎng)絡開發(fā)的語言翻譯模型等,人工智能領域的這些突破極大地帶動了計算語言學的發(fā)展。特別是2018年谷歌人工智能研究院提出BERT預訓練語言模型之后,人工智能的來源學科勢能保持大幅度穩(wěn)定增長。
(2)語言學與認知科學學科群的主導學科
從學科群的發(fā)展過程來看,語言學與認知科學學科群的主導學科是實驗心理學、語言學和神經(jīng)科學三個學科(圖6)。
圖6 語言學與認知科學學科群的主導學科Fig.6 Leading Disciplines of Linguistics and Cognitive Science Cluster
相對于另外兩個學科群而言,該學科群的來源學科勢能在各年度之間波動較大。1990年代至本世紀初期,語言學和實驗心理學一直處于主導學科的地位,兩個學科的波動變化趨勢較為接近。2002年,神經(jīng)科學也達到一個較高水平,邁入了主導學科的行列。但是此后神經(jīng)科學的波動較大,其來源學科勢能在2012年一度攀升到9.464的歷史最高水平,之后又大幅度下降。神經(jīng)科學對計算語言學科影響力的快速提升可能是因為語言學研究中越來越多地采用神經(jīng)科學的手段研究語言和大腦的關系以及語言的演化,與此同時,計算神經(jīng)科學的發(fā)展為腦科學和人工智能搭建了橋梁,促進了計算語言學的發(fā)展。但是也有學者指出神經(jīng)科學與語言學和人工智能方面的交叉融合還面臨著很多問題和挑戰(zhàn)[26-27],這可能也是其勢能下降的原因之一。
值得注意的是,該學科群的來源學科勢能在近幾年整體出現(xiàn)大幅下降。語言學來源學科勢能于2009年達到最后一個高峰,從2010年起開始下降,2020年為1991年以來該學科最低值。2015年開始,神經(jīng)科學和實驗心理學也出現(xiàn)了明顯的持續(xù)下降。這個現(xiàn)象一方面與認知語言學的發(fā)展有關,如惠特曼認為在北美地區(qū)“認知語言學正在走下坡路”[28];另一方面,與人工智能中深度學習等方法的替代作用有關,隨著人工智能的全面應用,語言學與認知科學的方法大面積被摒棄。
(3)交叉學科應用學科群的主導學科
交叉學科應用學科群的主導學科只有一個,是計算機科學-交叉科學應用(圖7)。
圖7 交叉學科應用學科群的主導學科Fig.7 Leading Disciplines of Ιnterdisciplinary Аpplications Cluster
1990年代該學科群整體來源學科勢能較低,對計算語言學的知識輸出水平不高。本世紀初開始,計算機科學-交叉科學應用學科影響力逐漸增大,發(fā)展成為該學科群中的主導學科。
結合上述分析,我們最終確定6個學科作為計算語言學的主導學科,它們也是所有學科中平均勢能最高的前6個學科(見表1)。
表1 計算語言學的主導學科Table 1 Leading Disciplines of Computational Linguistics
李喜先認為,交叉學科發(fā)展過程中存在學科或理論間的合作與競爭。當兩個學科(理論)發(fā)展中內在合作因素大于競爭因素,則兩個學科(理論)可以穩(wěn)定共存;當對抗作用起主導作用時,則僅有一個學科(理論)可以存在[7]。
本文數(shù)據(jù)中揭示出的主導學科之間的關系變化,與以上推斷表現(xiàn)出較好的一致性。我們以語言學和人工智能作為語言學與認知科學學科群和計算機科學學科群中主導學科的代表進行分析。一方面,來源學科勢能表示來源學科對交叉學科的知識輸出程度,對于人工智能和語言學這兩個有競爭關系的來源學科而言,它們的來源學科勢能可以反映其競爭力的大?。涣硪环矫?,兩個來源學科在計算語言學中的同被引強度可顯示它們在交叉學科發(fā)展過程中合作關系的強弱。為觀察兩個來源學科的競爭與合作關系,我們以五年為一個時間點,畫出兩個學科的競爭(圖8)和合作趨勢圖(圖9)。其中,為消除文獻規(guī)模增長帶來的影響,我們采用相對共被引強度(兩學科共被引頻次在該時段全部共引關系中的占比)來反映不同時段的學科合作水平。
圖8 人工智能與語言學的競爭力比較Fig.8 Comparison of Competitiveness between Аrtificial Ιntelligence and Linguistics
圖9 人工智能與語言學的合作水平Fig.9 Cooperation between Аrtificial Ιntelligence and Linguistics
從來源學科競爭力角度看,1991年至2010年,人工智能和語言學的來源學科勢能水平較為相近,兩者對于交叉學科具有水平相近的競爭力;2010年之后兩者競爭力發(fā)展趨勢相反,一升一降之間形成剪刀差,人工智能競爭力不斷增強,而語言學則日漸衰弱。從兩個學科的合作情況來看,1991-2005年,兩者之間的合作水平(相對共被引強度)在穩(wěn)定中保持緩慢上升的趨勢,但此后卻持續(xù)下降,2016-2020年的相對共被引強度還不到2001-2005年的三分之一,兩學科之間的合作關系下降到很低的水平。
在上述過程的中后期我們觀察到兩個主導學科的關系和地位發(fā)生了巨大變化:兩學科的競爭力一升一降,差距不斷加大,與此同時合作水平直線下降。在這種狀態(tài)下,主導學科之間原有的均衡關系被打破,來源學科由兩個主導學科合作并存的狀態(tài)變成一個學科獨領風騷。結合前文分析我們也可以看到,受到人工智能學科的影響,計算語言學在這一階段得到長足發(fā)展,進入繁榮發(fā)展時期。
從這個觀點出發(fā),本文進一步推測,具有不同研究范式的主導學科,當它們有穩(wěn)定合作且雙方競爭力較為均衡的狀態(tài)下,交叉學科受到兩個主導學科的影響,可能同時存在多個研究范式;當某一個主導學科有了突破性發(fā)展,該學科就具備更強的競爭力,更容易打破主導學科之間的合作狀態(tài),在帶動交叉學科迅速發(fā)展的同時,也促使交叉學科發(fā)生研究范式的轉換。
袁毓林[19]認為,從方法論和哲學背景上看,計算語言學有理性主義和經(jīng)驗主義兩大分野。理性主義通過人工匯編初始語言知識(主要表示成形式規(guī)則)和推理系統(tǒng)來建立處理自然語言的符號系統(tǒng)。這種系統(tǒng)通常根據(jù)一套規(guī)則或程序,將自然語言“理解”為某種符號結構;再通過某種規(guī)則,從組成該結構的符號的意義上推導出該結構的意義。這些規(guī)則主要來自于語言學的研究成果。經(jīng)驗主義方法認為人的知識只有通過感官傳入、再通過一些簡單的聯(lián)想和泛化的操作才能獲得,人不可能天生擁有一套有關語言的原則和處理方法。在計算語言學中,許多研究嘗試從大量的語言數(shù)據(jù)中獲取語言的結構知識,如來自于人工智能的神經(jīng)網(wǎng)絡方法由機器通過學習訓練數(shù)據(jù)獲得人工神經(jīng)節(jié)點之間的連結強度,以反映從輸入狀態(tài)到輸出狀態(tài)之間的映射關系,進而獲得某種語言處理能力。
在計算語言學發(fā)展過程中,理性主義與經(jīng)驗主義交替占上風。受喬姆斯基內在語言官能學說的影響,早期計算語言學界曾經(jīng)很多人信奉理性主義,其特征是通過形式規(guī)則和推理系統(tǒng)來建立處理自然語言的符號系統(tǒng)。20世紀90年代之后,基于語料庫的經(jīng)驗主義方法論得以發(fā)展,但仍需要語言學理論的支持。“越來越多的學者認識到,基于語料庫的分析方法至少是對基于規(guī)則的分析方法的一個重要補充”[29]。因此,在這一階段理性主義和經(jīng)驗主義并行。2008年以來,傳統(tǒng)的機器學習方法進一步發(fā)展成為基于神經(jīng)網(wǎng)絡的深度學習方法,這種經(jīng)驗主義方法獨立于具體語言,“是在計算語言學歷史上獲取語言學知識方法的具有革命性意義的變革”[29]。與此同時,基于句法—語義規(guī)則的理性主義方法受到質疑,數(shù)據(jù)驅動的計算語言學研究范式成為當前計算語言學的主流范式。
有學者曾經(jīng)將計算語言學研究分為認知的范式和計算的范式兩種類型,前者把語言使用看作是一種以知識為基礎的交際過程, 認為人無論是說話還是聽話都必須具有一定的知識,后者用計算機來模擬人習得、儲存、運用這些知識[19]。按照類似的邏輯,從研究模式和方法論角度來看,可以認為基于內省法和語感的傳統(tǒng)語言學(理性主義)研究和基于數(shù)據(jù)的人工智能(經(jīng)驗主義)研究代表了不同的研究范式,它們在交叉學科中的勢能相近或地位劇烈變化意味著交叉學科研究范式共存或范式轉換。
實際上,語言學家也認識到計算語言學的范式轉換,并對語言學的發(fā)展感到憂慮,如惠特曼指出:“語言學所面臨的真正危機是能否成功應對來自計算語言學的挑戰(zhàn)”[28]。劉海濤認為,大數(shù)據(jù)時代,語言研究的范式到了要轉變的時候,要強調數(shù)據(jù)驅動的語言學研究[30]。
綜上分析,我們認為至少在本文的案例中,交叉學科的發(fā)展是在多個具有不同研究范式的主導學科之間的合作和競爭過程中完成的。在主導學科合作狀態(tài)下,交叉學科可能同時或交替存在多個研究范式;而某一個主導學科的突破性發(fā)展則可以帶動交叉學科的迅速發(fā)展,打破主導學科之間的合作狀態(tài),并促使交叉學科發(fā)生研究范式的轉換。
本文以計算語言學的發(fā)展歷程為例,從交叉學科的知識來源學科角度進行定性和定量分析,希望通過這個具體案例對交叉學科發(fā)展機制研究的一般性方法和思路帶來啟發(fā)。
在交叉學科的發(fā)展過程中,來自于其他學科的推動力,特別是向交叉學科輸出大量知識的來源學科的推動作用是交叉學科發(fā)展的重要影響因素。來源學科之間存在競爭和博弈的關系,其本身的發(fā)展也會影響和帶動交叉學科的發(fā)展,因此可以通過來源學科在交叉學科中的地位及變化揭示交叉學科發(fā)展的影響因素。
基于這樣的邏輯,我們提出“來源學科勢能”概念,用以測量來源學科對交叉學科的知識輸出地位,在此基礎上將來源學科分為主導學科、重要學科和一般學科等不同層次?!爸鲗W科”為各學科群在較長時段內平均勢能最高的一個或幾個學科,對交叉學科知識輸出量大,對交叉學科發(fā)展產生重要的引領性作用,是我們應當重點關注的對象;“重要學科”是一定時間內各學科群勢能均值前10%的來源學科,其知識輸出量較大,通過對不同時段重要學科的分析可以了解交叉學科主要知識來源及其拓展變化情況;“一般學科”的勢能較低,數(shù)量雖然龐大,但對交叉學科知識輸出量少、影響力小,可能預示未來潛在的發(fā)展方向。
通過分析主導學科地位的變化,可以發(fā)現(xiàn)交叉學科是在主導學科之間的合作和競爭過程中不斷推進發(fā)展。當具有不同研究范式的主導學科之間有穩(wěn)定合作且雙方競爭力較為均衡的狀態(tài)下,交叉學科受到兩個主導學科的影響,可能存在多個研究范式;當某一個主導學科有了突破性發(fā)展,該學科就具備更強的競爭力,更容易打破主導學科之間的合作狀態(tài),在帶動交叉學科迅速發(fā)展的同時,也促使交叉學科發(fā)生研究范式的轉換。
至此,我們從來源學科知識輸出的角度出發(fā),形成了對交叉學科發(fā)展內在機制的一條研究路徑,即通過引文關系測度來源學科勢能,基于來源學科對交叉學科的地位和影響力對來源學科進行分層,不同層次的來源學科對交叉學科發(fā)展的作用不同;通過對交叉學科發(fā)展過程中主導學科之間合作與競爭關系的分析,揭示交叉學科的主要發(fā)展動力及可能帶來的范式轉換現(xiàn)象。不同交叉學科可能有自己的發(fā)展模式,但利用這個研究路徑進行分析,有利于發(fā)現(xiàn)交叉學科發(fā)展中來自于來源學科的動力機制,以及學科發(fā)展變遷的規(guī)律。相關研究結果可以用于科研政策管理,如制定相關政策以引導和增強主導學科對交叉學科的促進作用,加強重點來源學科與交叉學科的聯(lián)系,不斷拓展交叉學科的新領域,更好地促進交叉學科的發(fā)展。
本研究也存在一些不足和局限。長期以來,文獻的學科分類問題始終是制約交叉學科定量分析的瓶頸問題。本文按照JCR分類方法對整本期刊的論文進行分類,分類準確性受到一定影響,同時也未能對引文中的圖書等類型進行學科分類,這也在一定程度上影響了數(shù)據(jù)匹配的比例。由于早期(1961-1990)數(shù)據(jù)量相對較小、引文學科分類數(shù)據(jù)匹配率較低等原因,未能對這一時期的來源學科進行分析。此外,主導學科的確定過程中,閾值的劃分有一定主觀性和經(jīng)驗性。
作者貢獻說明
蔣穎:提出研究思路,設計研究方案,論文撰寫與修改;
逯萬輝:數(shù)據(jù)收集、分析與處理,圖表制作,論文修改。
支撐數(shù)據(jù)
支撐數(shù)據(jù)由作者自存儲,Email:jiangying@cass.org.cn。
1.逯萬輝.CL disciplinary citation.xlsx.計算語言學知識輸入學科.
2.蔣穎. Disciplinary potential energy of source disciplines.xlsx.來源學科勢能.