●秦長江
(1.南京農(nóng)業(yè)大學(xué) 信息科技學(xué)院,南京 210000;2.河南科技大學(xué) 管理學(xué)院,河南 洛陽 471003)
學(xué)術(shù)論文是學(xué)術(shù)研究的有形載體,是映射某一學(xué)科領(lǐng)域興起、發(fā)展、演進、融合及分化態(tài)勢過程和規(guī)律的一個重要標(biāo)志。論文的關(guān)鍵詞又是論文內(nèi)容的提示符,是作者學(xué)術(shù)思想及學(xué)術(shù)觀點的凝煉,也是文獻計量、科學(xué)計量研究的重要指標(biāo)。[1]
兩個關(guān)鍵詞在同一篇文獻中同時出現(xiàn)稱為關(guān)鍵詞共現(xiàn)。該方法中聚類和分析的指標(biāo)是詞(敘詞或關(guān)鍵詞),而詞與詞之間的關(guān)系代表著概念間的關(guān)系,因而聚類處理之后所形成的類能夠比較清晰、簡單、明了地揭示學(xué)科或主題的結(jié)構(gòu)與變化。[2]與單純的主題詞統(tǒng)計、排序,進而分析研究熱點的文獻計量方法相比,共詞分析不僅分析高頻詞,更注重這些詞之間的聯(lián)系,從而更好地反映了概念之間的關(guān)系。更為重要的是,共詞分析法是對當(dāng)前發(fā)表文獻的直接統(tǒng)計,反映的是當(dāng)前論文所集中關(guān)注的主題和趨勢形成之后的焦點,適合尋找知識領(lǐng)域的研究熱點和前沿。因為前沿領(lǐng)域的研究往往人數(shù)眾多而不集中,作品較分散,被引用情況不穩(wěn)定,而關(guān)鍵詞卻很好地體現(xiàn)了學(xué)科的研究熱點、焦點領(lǐng)域和該領(lǐng)域前沿發(fā)展方向。[3]
總之,共詞分析法與共引分析法的功能、結(jié)果是一致的,但對國內(nèi)研究者而言,共詞分析法更有價值的是不需要龐大的引文索引作基礎(chǔ),免去了國內(nèi)引文數(shù)據(jù)庫數(shù)據(jù)質(zhì)量不高的障礙,而且應(yīng)用的范圍更為廣泛,不僅僅包括學(xué)術(shù)期刊,還可以包括會議錄等其他灰色文獻。[4]隨著計算機技術(shù)的發(fā)展,共詞分析法在分析學(xué)科發(fā)展歷史、揭示某一領(lǐng)域研究的發(fā)展動態(tài)和趨勢、發(fā)現(xiàn)新的學(xué)科增長點和突破口等方面的作用越來越顯著。
而共詞知識圖譜則是指將可視化技術(shù)與共詞分析原理結(jié)合,生成具有各種屬性的圖形、圖表或科學(xué)地圖,來確定這些代表性詞語之間的概念圖譜或知識網(wǎng)絡(luò)結(jié)構(gòu),通過一系列圖譜詳細地描述某一學(xué)科領(lǐng)域的主題和熱點,以揭示知識領(lǐng)域結(jié)構(gòu)、映射知識領(lǐng)域發(fā)展趨勢。[5]
大量的文獻調(diào)研表明,國內(nèi)共詞知識圖譜的研究與國外相比有極大差距,主要表現(xiàn)在3個方面:[6]①研究手段和方法嚴重滯后;②研究層次低;③研究對象范圍過窄。目前國內(nèi)共詞知識圖譜研究都局限在自然科學(xué)、管理科學(xué)領(lǐng)域,且大部分都是這些學(xué)科某一研究方向的國際化研究,數(shù)據(jù)都選自國外權(quán)威數(shù)據(jù)庫,還沒有在我國人文學(xué)科,特別是文史學(xué)科中研究成果的報道。由于人文社會科學(xué)研究及其文獻具有自然科學(xué)所沒有的特點,因此,構(gòu)建文史學(xué)科的共詞知識圖譜,研究方法更具復(fù)雜性和特殊性。比如對于相關(guān)朝代和地名的取舍問題,如果也采取共詞知識圖譜通常使用的方法,一開始就將朝代和地名舍去,那么,一是由于文史學(xué)科過多的高頻詞都是類似性質(zhì)的詞,略去過多會影響到研究的準(zhǔn)確性;二是會影響區(qū)域史和不同時期分區(qū)史的研究。然而,如何對待這些高頻關(guān)鍵詞,國內(nèi)外還沒有任何研究報道。因此,本文把研究對象選定為文史特征很強的學(xué)科——農(nóng)業(yè)史學(xué)科,把知識圖譜方法應(yīng)用到我國人文學(xué)科領(lǐng)域的研究中,從實證角度證明知識圖譜這一科學(xué)計量學(xué)方法在人文學(xué)科中的有效性和存在的問題。這也是國內(nèi)文獻和科學(xué)計量學(xué)研究方法的一次有意義的創(chuàng)新嘗試。
本文采用共詞分析法,按照1980—1995、1996—2008兩個階段,對1980—2008年我國農(nóng)業(yè)史學(xué)科文獻的關(guān)鍵詞進行統(tǒng)計,通過考察這兩個階段關(guān)鍵詞之間關(guān)聯(lián)的強弱來挖掘知識結(jié)構(gòu)之間的親疏,用知識圖譜方法中的類團關(guān)系圖來定量地分析兩個時期農(nóng)史學(xué)科集中關(guān)注的熱點主題和主題變遷,使結(jié)論具有定性、定量的特點,提供了一個觀察學(xué)科發(fā)展演進過程全景的新視角。
本次實驗共詞數(shù)據(jù)采用套錄“中國農(nóng)史論文全文數(shù)據(jù)庫”(該數(shù)據(jù)庫是由南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院開發(fā)的,主要對現(xiàn)、當(dāng)代農(nóng)史研究論文進行數(shù)字化加工和整合。共收錄1980—2005年間的農(nóng)史論文10098篇)的數(shù)據(jù),補充錄入2005—2008年數(shù)據(jù)的方法(補充數(shù)據(jù)主要采用“中國期刊全文數(shù)據(jù)庫”中《中國農(nóng)史》《農(nóng)業(yè)考古》《古今農(nóng)業(yè)》這三大農(nóng)史期刊2005年至今的所有論文數(shù)據(jù)),同時再搜索、篩選、補充其他相關(guān)期刊中農(nóng)史論文的數(shù)據(jù),將三種方法獲得的數(shù)據(jù)進行查重、剔除后整合到一起,建立中國農(nóng)史學(xué)科論文關(guān)鍵詞共詞數(shù)據(jù)庫,作為分析的樣本和基礎(chǔ)。所建立的中國農(nóng)史學(xué)科論文關(guān)鍵詞共詞數(shù)據(jù)庫共有文獻數(shù)據(jù)12247條,1980—1995年有4325條,年平均270條;1996—2008年有7922條,年平均609條。詞表的集合足夠大,進行共詞分析是適合和恰當(dāng)?shù)摹?/p>
首先對共詞數(shù)據(jù)庫的數(shù)據(jù)進行篩選清理,將非純學(xué)術(shù)論文和沒有關(guān)鍵詞的論文全部剔除后,利用自編的計算機程序,將這些關(guān)鍵詞按照它們出現(xiàn)的頻次由高到低排序,得到兩個階段降序排列的關(guān)鍵詞總數(shù)分別是8472、11631個。按照科學(xué)計量學(xué)的原理,共詞分析法對高頻詞數(shù)量的選擇沒有統(tǒng)一規(guī)定,如果選擇的高頻詞過少,則不能如實反映學(xué)科結(jié)構(gòu)的構(gòu)成;如果范圍過大,則將給共詞分析帶來不必要的干擾。目前高頻詞的選擇一般為截取的高頻詞的累積頻次要達到總頻次的40%左右,[7]因此,本文分別截取第一階段詞頻量大于12、第二階段詞頻量大于14的高頻關(guān)鍵詞,這樣第一階段詞頻量大于12的關(guān)鍵詞共有120個,累積頻次為3054,達到總頻次的36.1%(3054/8472=0.3605);第二階段詞頻量大于14的關(guān)鍵詞共有156個,累積頻次為5291,達到總頻次的46.6%(5291/11361=0.4657),將這些關(guān)鍵詞作為表現(xiàn)當(dāng)前中國農(nóng)史學(xué)科研究熱點的標(biāo)志是合適的。
鑒于文史學(xué)科的特殊性,筆者在數(shù)據(jù)處理過程中,發(fā)現(xiàn)有許多同義和意義相近的關(guān)鍵詞匯,如明清時期和明清、江南地區(qū)和江南、民國時期和民國、茶葉和茶、先秦時期和先秦、農(nóng)具和農(nóng)業(yè)工具、栽培史和栽培歷史等等。為統(tǒng)一處理,筆者將所有這樣的兩個詞統(tǒng)一為一個更常用的詞。將所有類似表達同樣內(nèi)容的詞匯統(tǒng)一規(guī)范處理后,再將一些無法表達實際意義的詞如:發(fā)展、起源、開發(fā)、對策、影響、傳播、現(xiàn)狀、分布等統(tǒng)一刪除,這樣,第一階段詞頻量大于12的120個關(guān)鍵詞簡化為86個、第二階段詞頻量大于14的156個關(guān)鍵詞簡化為113個,從而分別確定了兩個階段的86個和113個高頻關(guān)鍵詞表(限于篇幅,兩個詞表略),作為共詞分析我國農(nóng)史學(xué)科研究熱點的基礎(chǔ)。
利用自編的計算機程序,統(tǒng)計這些關(guān)鍵詞在該共詞數(shù)據(jù)庫中共同出現(xiàn)的次數(shù),這樣形成了一個86×86和113×113的共詞矩陣(由于篇幅限制,兩個表略)。這樣的共詞矩陣是一個對稱矩陣。因為兩個關(guān)鍵詞共現(xiàn)頻次的多少直接受兩個關(guān)鍵詞各自詞頻大小的影響。因此,要想真正揭示關(guān)鍵詞之間的共現(xiàn)關(guān)系,還需引入表示關(guān)鍵詞共現(xiàn)相對強度的指標(biāo)。在文獻計量學(xué)中,目前應(yīng)用較多的就是Ochiia系數(shù)和Jaccard指數(shù)。[8]本文用Ochiia系數(shù)將共詞矩陣轉(zhuǎn)換成相關(guān)矩陣,然后再用“1”與全部相關(guān)矩陣上的數(shù)據(jù)相減,得到表示兩詞間相異程度的相異矩陣(86個高頻關(guān)鍵詞的相異矩陣片段見表1,113個高頻關(guān)鍵詞的相異矩陣略)。相異矩陣中的數(shù)據(jù)數(shù)值越大,表明關(guān)鍵詞之間的距離越遠,相似度越差。[9]
表1 86個高頻關(guān)鍵詞共詞相異矩陣(部分)
利用相關(guān)的多元統(tǒng)計方法,進行聚類分析,得到聚類結(jié)果樹狀譜系圖。用該圖把這些關(guān)鍵詞重新組合起來,關(guān)鍵詞之間的親疏關(guān)系就表示出來。從而反映出這些關(guān)鍵詞所代表的研究熱點和研究主題。[10]類團形成后,通過計算各類目之間的外部鏈接和內(nèi)部鏈接,得到類團之間和類團內(nèi)的聯(lián)系強度。兩個類團的所有關(guān)鍵詞共同出現(xiàn)在同一篇論文中的次數(shù)總和就是兩者的“外部鏈接”,內(nèi)部鏈接指某類團所包含的全部關(guān)鍵詞共同出現(xiàn)在同一篇論文中的次數(shù)總和。按照鏈接強度繪制成類團關(guān)系圖,以反映各類團之間的關(guān)系。[11]本文首次在國內(nèi)利用社會網(wǎng)絡(luò)分析軟件pajek繪制出類團關(guān)系圖。
通過對1980—1995年、1996—2008年兩個階段86、113個高頻詞共詞矩陣的聚類,分別在分類閾值為2.2、2.25水平上得到12個、15個類團,分別包含55個、61個關(guān)鍵詞。兩個階段中刪去的詞分別是:表示朝代和地區(qū)的關(guān)鍵詞、未聚入任何類目的詞、聚成了兩個小類團的詞(如第一階段的農(nóng)業(yè)資料和甲骨文、第二階段的少數(shù)民族和畜牧業(yè)等,由于每個類團只有2個關(guān)鍵詞而被忽略掉)。由此,筆者列出了每階段的聚類結(jié)果(由于篇幅限制,兩個階段的樹狀聚類圖略),繪制了類團關(guān)系圖等知識圖譜,進行詳細的對比研究。
兩個階段由聚類圖的聚類結(jié)果形成的類團關(guān)系表見表2。
第一階段有12個類團,根據(jù)學(xué)科范疇總結(jié)為以下6個方面:①農(nóng)業(yè)科技史,有農(nóng)業(yè)生產(chǎn)與工具史、畜牧獸醫(yī)史、稻作農(nóng)業(yè)研究、作物栽培史、農(nóng)田水利史5個類團,居各類團主題內(nèi)容之首;②農(nóng)業(yè)考古與農(nóng)業(yè)起源研究(有兩個強度大的類團);③農(nóng)業(yè)經(jīng)濟史研究(有土地制度史和以農(nóng)業(yè)經(jīng)濟結(jié)構(gòu)為主的研究兩個類團);④農(nóng)書研究類團;⑤農(nóng)業(yè)文化史研究(即茶文化類團);⑥傳統(tǒng)農(nóng)業(yè)與農(nóng)業(yè)現(xiàn)代化研究類團。
表2 類團關(guān)系表
第二階段有15個類團,根據(jù)學(xué)科范疇總結(jié)為以下6個方面:①農(nóng)業(yè)科技史,稻作農(nóng)業(yè)研究、農(nóng)田水利史依然存在;畜牧獸醫(yī)史、作物栽培史消失;農(nóng)業(yè)考古、農(nóng)業(yè)起源與原始農(nóng)業(yè)、農(nóng)業(yè)生產(chǎn)與工具史合并成一個關(guān)鍵詞最多、強度最大的一個類團:農(nóng)業(yè)起源與原始農(nóng)業(yè)研究。②農(nóng)書研究、傳統(tǒng)農(nóng)業(yè)與農(nóng)業(yè)現(xiàn)代化研究、茶文化類團依然保留,變化不大,該階段又有了茶葉生產(chǎn)與貿(mào)易史研究類團,說明有關(guān)茶的研究內(nèi)容在擴展。最值得關(guān)注的是第二階段中出現(xiàn)的新類團。在這一階段,與農(nóng)業(yè)經(jīng)濟史(特別是當(dāng)代農(nóng)業(yè))研究有關(guān)的新類團和農(nóng)業(yè)環(huán)境史研究、農(nóng)業(yè)災(zāi)害史研究類團的出現(xiàn)是最顯著的特征。雖然這些類團關(guān)鍵詞不多,類團強度不夠大,但很值得研究。③農(nóng)業(yè)經(jīng)濟史研究。該階段有4個類團(筆者把當(dāng)代農(nóng)業(yè)經(jīng)濟研究也劃入到該領(lǐng)域),即農(nóng)業(yè)經(jīng)濟史、農(nóng)業(yè)賦役史、三農(nóng)問題研究、人口與土地利用研究。④農(nóng)業(yè)環(huán)境史。本階段有兩個與環(huán)境史有關(guān)的類團:農(nóng)業(yè)環(huán)境史、生態(tài)環(huán)境保護與新農(nóng)村建設(shè)研究(嚴格來說,人口與土地利用研究類團也與環(huán)境史研究相關(guān))。⑤農(nóng)業(yè)災(zāi)害史。這一階段有一個災(zāi)害史類團,根據(jù)關(guān)鍵詞的內(nèi)容來看,研究范圍包括了幾乎所有的農(nóng)業(yè)自然災(zāi)害。⑥農(nóng)業(yè)與農(nóng)村社會發(fā)展史。該階段首次有一個類團:農(nóng)業(yè)鄉(xiāng)村社會史研究進入熱點研究領(lǐng)域。
筆者根據(jù)各類團之間的內(nèi)部聯(lián)系強度和其外部鏈接數(shù)量,首次在國內(nèi)用社會網(wǎng)絡(luò)分析軟件pajek繪制了兩個階段的類團關(guān)系圖(圖1、圖2),形象直觀的研究哪些類團是核心類團、邊緣類團以各類團彼此聯(lián)系的強度。
pajek軟件繪制的網(wǎng)絡(luò)圖,節(jié)點大小代表該類團的內(nèi)部聯(lián)系強度,節(jié)點越大,該類團的內(nèi)部聯(lián)系強度越大;連接節(jié)點線條的粗細和顏色的深淺代表兩個節(jié)點外部鏈接數(shù)量和強度,線條越粗,顏色越深表示兩個節(jié)點外部鏈接數(shù)量和強度越強。
從圖1可以看出,第一階段,“農(nóng)業(yè)生產(chǎn)與工具史”“農(nóng)業(yè)起源與原始農(nóng)業(yè)研究”和“農(nóng)業(yè)考古研究”三個大類團是整個領(lǐng)域的研究重點,它們幾乎與所有的類團都有著或強或弱的聯(lián)系?!暗咀鬓r(nóng)業(yè)研究”“畜牧獸醫(yī)史”“傳統(tǒng)農(nóng)業(yè)與農(nóng)業(yè)現(xiàn)代化研究”“農(nóng)田水利史研究”“作物栽培史研究”等是次核心類團,其他類團是邊緣類團,相互影響很小。
從圖2可知,第二階段情況發(fā)生了很大變化。上階段的兩個大類團合并為一個最大的“農(nóng)業(yè)起源與農(nóng)業(yè)考古研究”核心類團。“三農(nóng)問題研究”成為第二大核心類團;同時上階段的次核心類團“稻作農(nóng)業(yè)研究”“傳統(tǒng)農(nóng)業(yè)與農(nóng)業(yè)現(xiàn)代化研究”“農(nóng)田水利史研究”仍然是次核心類團,而“農(nóng)業(yè)經(jīng)濟史研究”“農(nóng)業(yè)環(huán)境史研究”類團成為新的次核心類團,它們與其他類團聯(lián)系也較多。其余類團是邊緣類團,相互影響很小。唯一例外的是,“茶文化研究”“茶葉生產(chǎn)與貿(mào)易史”類團聯(lián)系很強,但與別的類團聯(lián)系很少。
圖2 15個類團關(guān)系圖
總之,從兩個階段的“稻作農(nóng)業(yè)研究”等次核心類團保持不變;新興的“農(nóng)業(yè)環(huán)境史研究”等類團成為新的次核心類團;出現(xiàn)了不少強度更小、范圍更廣的新類團——這三個現(xiàn)象充分說明農(nóng)業(yè)史學(xué)科的重要研究領(lǐng)域比較穩(wěn)定、主要研究熱點比較突出、學(xué)術(shù)特色依然保持,同時新興研究熱點不斷涌現(xiàn),研究范圍和內(nèi)容更加拓展,研究熱點增多和更加分散。
特別需要說明的是本文對于相關(guān)朝代和地名的取舍。類似性質(zhì)的高頻詞所占比例非常大,因此如何處理,會極大地影響到研究的準(zhǔn)確性和科學(xué)性,而國內(nèi)外還沒有如何處理這些高頻關(guān)鍵詞的任何研究報道。因此,筆者采取了4種方法進行試驗:
(1)在降序排列的關(guān)鍵詞詞頻分布表排出之后,將這些詞排除,然后再進行相關(guān)的后續(xù)步驟;
(2)在合并、規(guī)范處理關(guān)鍵詞后再舍去;
(3)全部詞參與聚類并形成聚類圖后,在形成類團關(guān)系表時將它們排除(就是本文的方法);
(4)這些詞全部參與聚類和分析。
經(jīng)過對比分析,第三種方法效果最好。原因如下:由于學(xué)科的特殊性,第一種方法誤差太大,不能如實反映學(xué)科研究熱點;第二種方法得到的共詞數(shù)量很少,無法進行共詞分析;第四種方法會影響、干擾到類團的命名和分析。因此,雖然第三種方法也有不足,即會影響區(qū)域史和分區(qū)史的研究,但目前是最理想的方法。
總之,雖然共詞分析法避開了引文數(shù)據(jù)這一重要影響研究質(zhì)量的因素,尤其對我國的人文學(xué)科更為適用,但仍然存在一定局限性。比如:①由于人文學(xué)科的特殊性,關(guān)鍵詞的著錄不完全規(guī)范,在歸并意義相同的關(guān)鍵詞時存在一定的主觀性;②期刊不同發(fā)文量造成部分主題關(guān)鍵詞過多或過少,干擾部分類團的命名以及使某些類團的密度和向心有些失真等,這些命題仍需要進一步研究。
[1]張勤,馬費成.國內(nèi)知識管理研究結(jié)構(gòu)探討——以共詞分析為方法 [J].情報學(xué)報,2008,27(1):93-101.
[2]鐘偉金,李佳.共詞分析法研究(三)——共詞聚類分析法的原理特點[J].情報雜志,2008(7):118-120.
[3]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學(xué)報,2006,32(162):88-92.
[4]周靜怡,孫坦.共詞可視化:以人類基因組領(lǐng)域為例 [J]. 情報學(xué)報,2007,26(4):532-537.
[5] Chaomei Chen,Jasna Kuljis.Therisinglandscape:a visual exploration of superstring revolutions in physics[J].Journal of the American society for information scienceand technology, 2003, 54 (5): 435-446.
[6]秦長江.知識圖譜——信息管理與知識管理的新領(lǐng)域[J].大學(xué)圖書館學(xué)報,2009,27(1):30-37.
[7]張勤,馬費成.國外知識管理研究范式——以共詞分析為方法 [J].管理科學(xué)學(xué)報,2006,12(6):526-531.
[8]梁立明,謝彩霞.詞頻分析法用于我國納米科技研究動向分析[J].科學(xué)學(xué)研究,2003,21(3):138-142.
[9] Bauin,Setal.Using bibliometrics in strategic analysis:“understanding chemical reactions” at the CNRS[J].Scientometrics, 1991, 22 (1): 113-137.
[10]劉則淵,尹麗春.國際科學(xué)學(xué)主題共詞網(wǎng)絡(luò)的可視化研究 [J]. 情報學(xué)報,2006,25 (5):20-25.
[11]鐘偉金,李佳.共詞分析法研究(二)——類團分析 [J].情報雜志,2008 (6):141-143.