余豐民
摘 要:通過(guò)1980年~2003年和2004年~2011年兩個(gè)時(shí)間段的詞頻統(tǒng)計(jì)與可視化知識(shí)圖譜等方法的比較分析與研究,展現(xiàn)了國(guó)內(nèi)主題詞表研究領(lǐng)域的熱點(diǎn)和趨勢(shì),認(rèn)為:國(guó)內(nèi)對(duì)主題詞表的研究?jī)?nèi)容在時(shí)間上有明顯的分界線、研究趨勢(shì)展現(xiàn)了知識(shí)組織的演化過(guò)程、主題詞表基于語(yǔ)義描述語(yǔ)言的本體轉(zhuǎn)換是目前學(xué)界研究的熱點(diǎn)和未來(lái)研究的趨勢(shì)。
關(guān)鍵詞:主題詞表;詞頻統(tǒng)計(jì);知識(shí)圖譜;研究熱點(diǎn);研究趨勢(shì)
Abstract:Based on word frequency statistics and visualization of knowledge mapping and other methods of comparative analysis and research in two periods of 1980—2003 and 2004—2011, the article shows the areas of research focus and trends of Thesaurus in China. That is: there is a clear dividing line in two periods, and trends show that the evolution process of knowledge organization system, Thesaurus based on semantic description language ontology conversion is currently a focus of academic research and future research trends.
Keywords:Thesaurus; Word Frequency Statistics;Knowledge Mapping;Research Focus;Research Trends
1引言
主題詞表(敘詞表)是一種情報(bào)檢索語(yǔ)言,它在早期情報(bào)檢索和知識(shí)組織中發(fā)揮著非常重要的作用。早在1876年,美國(guó)圖書(shū)館學(xué)家卡特發(fā)表了他的《字典式目錄條例》 [1]。而隨著計(jì)算機(jī)技術(shù)的發(fā)展,主題詞表的功能也發(fā)生了相應(yīng)的變化。另外,不斷更新的網(wǎng)絡(luò)技術(shù),以及語(yǔ)義網(wǎng)等概念的技術(shù)實(shí)現(xiàn),也為主題詞表的發(fā)展注入了活力。
國(guó)內(nèi)主題詞表研究雖然起步較晚,但從《漢語(yǔ)主題詞表》的問(wèn)世,到《中國(guó)分類(lèi)主題詞表》的出版,均取得了卓越的成就。國(guó)內(nèi)的研究主要集中在主題詞表的介紹、評(píng)價(jià)、編制、修訂、標(biāo)引方法、應(yīng)用及分類(lèi)主題一體化等領(lǐng)域[2][3][4],另外,隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,各類(lèi)詞表被大量應(yīng)用到了信息檢索技術(shù)、知識(shí)組織與管理等領(lǐng)域之中[5][6]。
那么,這些年來(lái)國(guó)內(nèi)對(duì)主題詞表的研究都觸及了哪些主題?其研究的趨勢(shì)和熱點(diǎn)又在哪里?本文試圖通過(guò)對(duì)發(fā)表在期刊上的學(xué)術(shù)論文進(jìn)行研究,旨在為該領(lǐng)域同行了解和掌握研究方向提供些許幫助。
2樣本獲取與研究方法
2.1樣本獲取方法。本文獲取數(shù)據(jù)樣本的方法是:在 “中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)”中,用關(guān)鍵詞“主題詞表 OR 敘詞表”,檢索出1980年~2011年間發(fā)表在“核心期刊”上的論文,因?yàn)椤吨形暮诵钠诳靠傆[》第一版在1992年才出版,上述檢索結(jié)果僅命中了1992年~2011年數(shù)據(jù);因此,作者又補(bǔ)充了1980年~1991年的相關(guān)主題數(shù)據(jù)。經(jīng)過(guò)人工篩選,最后,獲得樣本數(shù)為480篇(檢索日期:2012年2月12日)。
2.2研究方法。本文主要應(yīng)用文獻(xiàn)計(jì)量學(xué)領(lǐng)域的詞頻統(tǒng)計(jì)方法和基于共詞的可視化知識(shí)圖譜方法。
通過(guò)關(guān)鍵詞詞頻的動(dòng)態(tài)統(tǒng)計(jì)與分析,可以反映出某時(shí)間段內(nèi)研究主題的動(dòng)態(tài)變化過(guò)程,如高頻關(guān)鍵詞的發(fā)展期、高峰期及衰退期等。詞共現(xiàn)(共詞)分析方法最早是在1986年由法國(guó)文獻(xiàn)計(jì)量學(xué)家M.Callon等學(xué)者提出的[7]。在詞共現(xiàn)分析方法的基礎(chǔ)之上,我們可以運(yùn)用社會(huì)網(wǎng)絡(luò)分析方法及軟件(如Pajek),繪制出各主題之間的相互聯(lián)系的學(xué)科知識(shí)圖譜。
3 研究結(jié)果
3.1歷年論文發(fā)表情況
對(duì)480篇論文進(jìn)行按年度統(tǒng)計(jì),見(jiàn)圖1。由圖1可以發(fā)現(xiàn),論文數(shù)量基本上呈上升趨勢(shì):1980年~2003年為緩慢上升階段,但1994年和1999年均有突出表現(xiàn);2003年以后,呈現(xiàn)出了快速發(fā)展的態(tài)勢(shì)。究其原因,一方面,隨著計(jì)算機(jī)技術(shù)的發(fā)展,出現(xiàn)了諸如本體等語(yǔ)義網(wǎng)概念的應(yīng)用研究,使得主題詞表研究重新得到了重視;另一方面,有關(guān)主題詞表的研究得到了更多的基金資助,2004年以前,僅有8篇資助論文,而2004年及以后,資助論文達(dá)113篇,尤其是近兩年,基金資助論文比例均達(dá)50%以上。
3.2基于關(guān)鍵詞詞頻統(tǒng)計(jì)。根據(jù)上述480篇論文的研究主題(關(guān)鍵詞),我們可以通過(guò)關(guān)鍵詞詞頻統(tǒng)計(jì)及共現(xiàn)計(jì)算來(lái)分析國(guó)內(nèi)主題詞表研究的熱點(diǎn)與趨勢(shì)。由于有些論文發(fā)表年代尚早,作者沒(méi)有給出關(guān)鍵詞,因此筆者對(duì)這一部分關(guān)鍵詞進(jìn)行了人工補(bǔ)充;同時(shí),為了集中主題,對(duì)一些一義多詞的主要關(guān)鍵詞進(jìn)行了修正,如將“《中國(guó)圖書(shū)館圖書(shū)分類(lèi)法》”統(tǒng)一簡(jiǎn)稱(chēng)為“《中圖法》”,將“語(yǔ)義WEB”統(tǒng)一改為“語(yǔ)義網(wǎng)”,將“敘詞表”統(tǒng)稱(chēng)為“主題詞表”,等。這樣,我們一共可以獲得893個(gè)(1827個(gè)次)關(guān)鍵詞,篇均關(guān)鍵詞約3.8個(gè)。
為了便于比較,本文擬把1980年~2011年劃分為兩個(gè)時(shí)段:1980年~2003年和2004年~2011年。之所以這么劃分,一方面,是因?yàn)閺膱D1中可以發(fā)現(xiàn),2003年以后,研究“主題詞表”的論文數(shù)量增速較快;另一方面,“本體”、“語(yǔ)義網(wǎng)”、“知識(shí)組織系統(tǒng)”等新詞匯在樣本數(shù)據(jù)中均在2004年才出現(xiàn);另外,兩時(shí)段的論文數(shù)量也大致相當(dāng)(分別是220篇和260篇),更具有可比性。表1列出了1980年~2011年高頻關(guān)鍵詞;表2列出了2004年~2011年新出現(xiàn)的關(guān)鍵詞;表3列出了2004年~2011年消失最快的關(guān)鍵詞。
在表1中,可以發(fā)現(xiàn),除“主題詞表”本身外,“本體”、“《中國(guó)分類(lèi)主題詞表》”、“《漢語(yǔ)主題詞表》”、“主題標(biāo)引”等關(guān)鍵詞是總頻次最多的,表明了國(guó)內(nèi)對(duì)“主題詞表”研究的熱點(diǎn)所在。從關(guān)鍵詞數(shù)量上統(tǒng)計(jì),1980年~2003年頻次在3次及以上的關(guān)鍵詞有41個(gè),2004年~2011年有64個(gè),增幅達(dá)56.1%,而兩時(shí)段論文數(shù)量增長(zhǎng)僅為18%,這從某種意義上說(shuō)明了后一時(shí)段比前一時(shí)段研究范圍的擴(kuò)大和研究?jī)?nèi)容的深入。
表2中的新詞基本上屬于“語(yǔ)義網(wǎng)”的范疇:本體是語(yǔ)義網(wǎng)的核心概念[8];SKOS(簡(jiǎn)約知識(shí)組織系統(tǒng))、OWL、主題圖等都是語(yǔ)義描述語(yǔ)言;Protégé是用于構(gòu)建本體的軟件工具;與“本體”直接相關(guān)的關(guān)鍵詞有4個(gè)(領(lǐng)域本體、本體構(gòu)建、分布式本體、中文敘詞表本體)。
在表3中,還可以發(fā)現(xiàn),某些主題的研究正在逐漸縮減,有的甚至已經(jīng)消失了。如,“自動(dòng)標(biāo)引”、“主題法”、“文獻(xiàn)標(biāo)引”、“檢索語(yǔ)言”、“情報(bào)檢索系統(tǒng)”、“情報(bào)檢索”、“信息檢索系統(tǒng)”等關(guān)鍵詞詞頻均出現(xiàn)了不同程度的下降。而像“分類(lèi)主題一體化”研究,在后一時(shí)段內(nèi)已經(jīng)完全消失了。
3.3基于關(guān)鍵詞共現(xiàn)的可視化知識(shí)圖譜分析。為了與關(guān)鍵詞詞頻統(tǒng)計(jì)相一致,我們?cè)谶@里也對(duì)兩個(gè)時(shí)間段進(jìn)行對(duì)比分析,利用Pajek軟件分別繪制出了兩個(gè)時(shí)段的知識(shí)圖譜,見(jiàn)圖2、圖3。在圖中,頂點(diǎn)大小表示關(guān)鍵詞詞頻的高低,連線粗細(xì)表示兩個(gè)關(guān)鍵詞同時(shí)出現(xiàn)在一篇論文中(共現(xiàn))次數(shù)的多少。
從圖2中可以看出,圍繞主題詞表的“詞表編制”是1998年~2003年研究的焦點(diǎn)(連線最粗);“分類(lèi)主題一體化”研究及其成果《中國(guó)分類(lèi)主題詞表》的修訂與主題標(biāo)引,也是該段時(shí)間研究的熱點(diǎn)所在。在圖3中主題詞表轉(zhuǎn)換成本體的研究無(wú)疑是2004年~2011年研究的焦點(diǎn)(連線最粗);以本體為核心的語(yǔ)義網(wǎng)環(huán)境下的知識(shí)組織系統(tǒng)研究,特別是用語(yǔ)義描述語(yǔ)言SKOS(簡(jiǎn)約知識(shí)組織系統(tǒng))的應(yīng)用研究,在圖中非常搶眼;盡管,在這個(gè)時(shí)段,“分類(lèi)主題一體化”這個(gè)關(guān)鍵詞消失了,但有關(guān)分類(lèi)法與主題法及《中國(guó)分類(lèi)主題詞表》的研究還是吸引了不少學(xué)者。
除了有更多的熱點(diǎn)顯現(xiàn)外,圖3與圖2相比,各關(guān)鍵詞之間的關(guān)系更加緊密了,知識(shí)圖譜的網(wǎng)絡(luò)顯得更加復(fù)雜了。另外,從圖譜的結(jié)構(gòu)上看,圖2僅有一個(gè)中心,而圖3已經(jīng)形成了“雙輪驅(qū)動(dòng)”模式[9]。
4結(jié)論
從上世紀(jì)七八十年代開(kāi)始,國(guó)內(nèi)圖書(shū)情報(bào)界及相關(guān)研究領(lǐng)域?qū)W者就進(jìn)行了主題詞表的研制工作,從研究主題的知識(shí)圖譜來(lái)看,其研究熱點(diǎn)主要涉及“漢語(yǔ)主題詞表”、“分類(lèi)主題一體化研究”、“中國(guó)分類(lèi)主題詞表”、“分類(lèi)敘詞表”、“語(yǔ)義描述語(yǔ)言”、“語(yǔ)義網(wǎng)”、“本體”等重要事物和概念。這些事物和概念把國(guó)內(nèi)有關(guān)主題詞表研究的過(guò)程串聯(lián)在了一起。經(jīng)過(guò)以上分析與研究,我們可以大致得出以下結(jié)論:在整個(gè)時(shí)間段上,其研究熱點(diǎn)有著明顯的分界線(2003年~2004年);其研究趨勢(shì)基本展現(xiàn)了知識(shí)組織由手工階段向自動(dòng)化、網(wǎng)絡(luò)化階段的演化過(guò)程;主題詞表基于語(yǔ)義描述語(yǔ)言的本體轉(zhuǎn)換是未來(lái)研究的發(fā)展趨勢(shì)。
參考文獻(xiàn):
[1] 戴淑娟.藝術(shù)科學(xué)領(lǐng)域的新型標(biāo)識(shí)系統(tǒng)——《藝術(shù)科學(xué)敘詞表》[J].圖書(shū)館論壇,1993(6):56~68.
[2] 黎盛榮.《漢語(yǔ)主題詞表》評(píng)介[J]. 圖書(shū)館工作與研究,1981(1):17~21.
[3] 王源,陳長(zhǎng)旭.《漢語(yǔ)主題詞表》簡(jiǎn)評(píng)[J]. 情報(bào)學(xué)刊,1983(1):86~91.
[4] 王金夫.《漢語(yǔ)主題詞表》概說(shuō)[J]. 圖書(shū)館雜志,1986(2):32~34.
[5] 劉春艷,曾錦丹,李佳軍.語(yǔ)義WEB環(huán)境下知識(shí)組織體系SKOS應(yīng)用研究[J].圖書(shū)情報(bào)工作,2006,50(6):23~27.
[6] 段榮婷.基于簡(jiǎn)約知識(shí)組織系統(tǒng)的主題詞表語(yǔ)義網(wǎng)絡(luò)化研究——以《中國(guó)檔案主題詞表》為例[J].中國(guó)圖書(shū)館學(xué)報(bào),2011,37(3):54~65.
[7] Callon M, Law J, Rip A. Mapping the Dynamics of Science and Technology: Sociology of Science in the Real World [M]. London: Macmillan, 1986: 225~226.
[8] 唐靜.敘詞表轉(zhuǎn)換為ontology的研究[J]信息系統(tǒng),2004(6):642~645.
[9] 湯建民. 學(xué)術(shù)研究團(tuán)隊(duì)的可視化識(shí)別及評(píng)估方法研究:以科學(xué)學(xué)研究領(lǐng)域?yàn)槔齕J].情報(bào)學(xué)報(bào), 2010(2):323—330.
(作者單位:浙江樹(shù)人大學(xué)科學(xué)計(jì)量學(xué)研究中心來(lái)稿日期:2012—08—20)