王光志 武華維 王超
摘 要 隨著互聯(lián)網(wǎng)和信息技術的發(fā)展,圖書情報與檔案的工作環(huán)境、內容、方式等發(fā)生了變化。本文從學科內容角度出發(fā),利用期刊論文的題錄信息,提出一種測度圖書情報與檔案一體化程度的方法。根據(jù)齊普夫定律對主題詞賦權,對通過改進Jaccard相似系數(shù)計算學科內容特征的相似度,提出一體化指數(shù)測度三者一體化程度,最后以《中國圖書館學報》《情報學報》《檔案學研究》三種核心期刊為對象進行實證研究。結果發(fā)現(xiàn),三者在某些領域存在逐漸融合的態(tài)勢,但是這種融合的主題內容范圍和融合的程度仍然限制在一定范圍,即沒有出現(xiàn)較為明顯、劇烈變化。
關鍵詞 學科內容 圖情檔一體化 測度方法
Abstract The development of the Internet and information technology has changed the working environment, content and methods of library, information and archives. To this end, from the perspective of subject content, a method for measuring the degree of integration of library, information and archives is proposed. Firstly, according to Zipfs law, the subject words are empowered. Secondly, the Jaccard similarity coefficient is improved to measure the similarity of the subject content. Thirdly, the integration degree of the integration index is proposed. Finally, Journal of the Library Science in China, Journal of the China Society for Scientific and Technical Information and Archives Science Study are empirically analyzed. The results show that there is a gradual integration of the three in some areas, but the scope of the subject matter of the fusion and the degree of integration are still limited to a certain extent, that is, no obvious and dramatic change.
Keywords Subject content. Integration of library, information and archives. Measurement method.
0 引言
自上世紀六七十年代,“圖書、情報、檔案一體化”被提出以來[1],國內有相當一部分學者認為圖書、情報、檔案工作一體化是必然的發(fā)展趨勢,并以此為中心展開了許多相關研究。隨著互聯(lián)網(wǎng)和信息技術的迅猛發(fā)展,圖書情報、檔案的工作環(huán)境、內容、方式等內容也隨之發(fā)生變化,尤其是人工智能、物聯(lián)網(wǎng)、云計算等信息技術的出現(xiàn),使得圖情檔的學科體系和能力建設無法忽視信息和數(shù)據(jù)這一核心[2]。在信息化、網(wǎng)絡化的今天,圖書、情報、檔案一體化這一命題是否仍然成立,并且圖書、情報、檔案的一體化程度如何?現(xiàn)有的研究似乎對這一疑問尚未有充分的認識和研究。鑒于此,本文采用一種定量分析的方式,從學科內容的角度出發(fā),構建一種圖書、情報、檔案一體化的測度方法,以期為相關研究人員提供一種觀測新背景下圖書、情報、檔案一體化發(fā)展程度的新方法或新途徑。
1 相關研究綜述
1978年,中國科學院最早提出“圖書與情報一體化”,以提高工作效率、避免重復浪費,便于統(tǒng)一領導規(guī)劃[3]。這引起學界廣泛關注,隨后國內學者展開了一系列圖書、情報、檔案一體化的相關研究。首先,部分學者對圖書、情報、檔案一體化的必要性和內在依據(jù)展開相關研究,如劉英則和呂福玲[4]認為圖書、情報、檔案同屬于知識載體,都是信息的范疇,這便為三者一體化管理提供了理論依據(jù)。李學軍[5]認為圖書、情報、檔案三者都屬于信息源的一種,這種共性便為圖情檔一體化提供了理論基礎,同時,這種共性使得三者會擁有相同的服務或工作對象,其工作方式和技術方法手段也會相同。另外,許芳[6]、符少華[7]、李華[8]等學者認為,圖書、情報、檔案是企業(yè)進行科技信息管理的重要手段,在信息技術時代背景下,通過圖書、情報、檔案三者間的知識共享,可以增強企業(yè)知識創(chuàng)新,提供企業(yè)競爭力,所以對企業(yè)來說,圖書、情報、檔案一體化是必然趨勢;而宋雄偉[9]、余敏[10]、翁雪梅[11]等學者認為,圖書、情報、檔案一體化,對高校的教育、教學、科研發(fā)展起著重要的推動作用,便于圖書情報學科相關知識在學校內部的共享與流動,所以實行圖情檔一體化是改善和發(fā)展現(xiàn)代高校信息服務的趨勢。
為了進一步論證圖情檔一體化的可行性,相關學者調研了歐美國家中圖情檔一體化的理論和實踐研究。李群和劉維榮[12]發(fā)現(xiàn),美國、英國和日本在圖情檔一體化方面主要體現(xiàn)在利用網(wǎng)絡和信息技術實現(xiàn)三者數(shù)字資源的共享以及一體化管理。李群[13]進一步對美國的教學實踐進行研究,發(fā)現(xiàn)美國大學的檔案學與圖書館學、情報學之間的教學聯(lián)系緊密,三者在教學中相互滲透。張錦和王海蘭[14]研究發(fā)現(xiàn),英國電影組織(BFI) 在組織和功能上實現(xiàn)英國電影信息中心、英國國家影視圖書館、英國國家影視檔案館三者之間的一體化運行模式。
隨著研究程度的深入,學者開始重點研究圖書、情報、檔案一體化策略,具體來說,就是研究從哪些方面可以更好地實現(xiàn)圖書、情報、檔案一體化的開展和進行。如葉鷹[15]進一步探討了圖書情報檔案一體化的學理基礎;吳營和季曉琳[16]參考ISO9000標準管理原則,探討了圖書情報檔案一體化的質量管理。田麗[17]探討了遼寧省圖書、情報、檔案專業(yè)人才校館所聯(lián)合培養(yǎng)的模式。王小云[18]從圖書、情報、檔案的專業(yè)課程資源的建設角度,探討了圖書、情報、檔案一體化專業(yè)教育的問題。趙益民[19]探索了圖書情報檔案的一體化整合模式,嘗試通過行業(yè)聯(lián)盟的形式對圖書情報檔案從虛擬層次進行一體化整合,以實現(xiàn)資源建設和業(yè)務管理的整合。
綜上所述,可以發(fā)現(xiàn)幾乎所有涉及圖情檔一體化的相關研究都未持懷疑乃至否定態(tài)度,當然也有部分學者就圖情檔一體化的可行性進行了論證,如葛翠玲[20]對圖情檔一體化開展了否定性檢驗研究,論證結果多認為圖情檔一體化在我國具有很強(或者一定的)可行性。但是,筆者認為部分學者顯然混淆了圖情檔一體化的概念內涵。其實,圖情檔的一體化是在保持三者獨立性,而不是取消三者獨立性的基礎上相互聯(lián)系、相互滲透的,三者是在較高程度的協(xié)調性、統(tǒng)一性和整體性[21]上,為社會提供信息保障,三者的本質都是信息工作系統(tǒng)[22],包括工作流程的一體化、服務對象的一體化、資源建設的一體化,學科建設的一體化等等。從現(xiàn)有文獻中發(fā)現(xiàn),學者多從信息資源一體化、工作流程一體化、服務流程一體化等工作實務上進行的定性研究,尚未提及較為系統(tǒng)或詳實的定量分析。當然也有部分學者從學科建設方面了一些圖書、情報、檔案一體化的定性探討,但是多數(shù)研究似尚未對學科內容方面進行較為深入的定量分析。如劉滿閃和焦運立[23]從基本共性和非基本共性的角度探討了圖書、情報、檔案一體化的學科依據(jù);趙國俊[24]研究了圖書、情報、檔案三個學科發(fā)展的分化和整合趨勢,他認為當前三個學科在不斷分化和整合,其中整合成為主流形態(tài)。張莉婭和鄧勇[25]從著者交叉和知識網(wǎng)絡的角度分析了圖書、情報、檔案三個學科的交叉融合,利用期刊論文中的著者和關鍵詞分析發(fā)現(xiàn)三者雖屬于同源性學科但是三者之間有著本質的區(qū)別。初景利和張穎[2]指出當前圖情檔存在學科邊界模糊、學科融合危機、體系構建艱巨等問題。閆慧[26]認為圖情檔三個學科之間存在認同危機,三者不僅長期以來存在話語碎片化、內生力不足的問題,而且圖書館、檔案兩個學科偏文和情報學話語偏理,這一切都使得三者之間的融合難道較大。
2 圖情檔一體化程度分析框架
隨著期刊全文數(shù)據(jù)庫、文摘數(shù)據(jù)庫及信息技術的發(fā)展,期刊論文的題錄信息成為承載文獻內容的重要元數(shù)據(jù)。利用相關技術和方法對某一學科領域的期刊題錄信息進行處理與分析,可以揭示該學科研究與發(fā)展的內外部特征[27-29]??紤]到學科內容主要以文本信息為承載對象,而期刊承載了學科發(fā)展、建設方面的信息,所以本文從學科內容的角度來測度圖書、情報、檔案一體化程度時,主要以期刊為數(shù)據(jù)對象、以文本處理及分析方法為手段。如果代表學科內容的圖情檔三類期刊題錄信息之間呈現(xiàn)較高的一致性,即研究內容較為相似,則說明圖書、情報、檔案在學科內容的一體化程度較高,反之則說明三者一體化程度不緊密。其具體的分析框架見圖1。
3 數(shù)據(jù)處理方法
本文以期刊的題名、摘要、關鍵詞三種題錄信息來表征圖書館學、情報學、檔案學學科的主要內容??紤]到主題是表示學科內容的基本單位,本文利用自然語言處理技術對題名、作者關鍵詞和摘要作為輸入數(shù)據(jù)源作進一步的文本分詞處理,以分別獲取圖書館學、情報學、檔案學學科領域主題詞。
3.1 數(shù)據(jù)處理工具及流程
本文主要采用python語言中的jieba分詞工具來進行文本分詞。同時,考慮到該工具中分詞詞表可能無法識別這三個學科的專業(yè)主題詞,所以本文同時將作者關鍵詞作為分詞詞典的重要補充;然后,使用自建的常用停用詞表對分詞結果進行進一步過濾,然后再進行詞性分析,僅保留包含實意的動詞、動名詞。最后,分別對圖書館學、情報學和檔案學數(shù)據(jù)集中的關鍵詞進行頻次統(tǒng)計,然后根據(jù)詞頻的大小選取前100個高頻詞,分別形成三個主題詞集合Term情報、Term圖書館、Term檔案。針對圖書、情報、檔案學科內容的一體化測度便是在這三個主題詞集合的基礎上展開的。
3.2 基于Jaccard相似系數(shù)的計算方法
本文為了證明圖書、情報、檔案在學科內容上一體化程度,需要在已經(jīng)獲取的圖書、情報、檔案三個主題詞集合的基礎上,進一步計算三個主題詞集合之間的相似程度,以便獲取三者學科內容的一體化程度。
本研究主要采用Jaccard(杰卡德)相似系數(shù)分別計算出圖書與情報、情報與檔案、檔案與圖書之間的主題內容相似度。Jaccard相似系數(shù),又稱Jaccardindex,在于計算集合A與集合B的交集元素在各自集合中所占的比例。Jaccard相似系數(shù)可用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本間的相似度越高,Jaccard系數(shù)值越小,樣本間的相似度越低。Jaccard相似系數(shù)用公式(1) 表示為:
Jaccard相似性系數(shù)主要用于計算符號度量或布爾值度量的樣本間相似度。若樣本間的特征屬性由符號和布爾值標識,無法衡量差異具體值的大小,只能獲得“是否相同”這樣一種結果,而Jaccard系數(shù)關心的是樣本間共同具有的特征。這恰好符合本研究測度圖書、情報、檔案學科內容一體化的需求。同時,與常用的余弦相似系數(shù)相比,Jaccard系數(shù)可以避免因文本數(shù)據(jù)稀疏影響而導致誤導性計算結果的出現(xiàn),尤其適合稀疏度過高的數(shù)據(jù)。假設在計算圖書與情報、情報與檔案、檔案與情報之間學科內容相似度時,如果三個學科的主題詞頻數(shù)據(jù)比較稀疏,那個他們三者之間的內容相似度會呈現(xiàn)出比較高的數(shù)值,這樣不可避免的會影響對實際情況的判斷。考慮到數(shù)據(jù)稀疏性這一因素,本研究選擇Jaccard系數(shù)來計算文本相似度。
3.3 Jaccard相似系數(shù)的局限與改進
Jaccard系數(shù)也存在一定的局限。具體來說,Jaccard相似系數(shù)使用0~1表示關鍵詞的值,對于每一個詞同等對待,計算方便快捷。然而,Jaccard相似系數(shù)只考慮主題詞集合之間共同交集,忽視交集主題詞頻之間的數(shù)量差異,沒有考慮到詞頻的影響。鑒于此,本文對Jaccard相似系數(shù)做出進一步的改進,將主題詞的詞頻這一因素考慮進來,利用改進后的Jaccard相似系數(shù)來計算圖書、情報、檔案三個學科彼此間的內容相似性。Jaccard相似系數(shù)的改進步驟具體如下。
首先,增加主題詞權重。根據(jù)齊普夫定律,本文按照詞頻統(tǒng)計從大到小進行排序,然后將主題詞詞頻順序的序數(shù)的倒數(shù)作為該主題詞的權重值。
3.4 一體化程度測度說明
利用Jaccard相似系數(shù)計算圖書與情報、圖書與檔案、情報與檔案之間學科內容的相似程度,這種相似程度僅僅體現(xiàn)了兩個對象之間的一體化程度,為此需要將圖書、情報、檔案三者之間的相似程度擬合成一個整體才能夠代表三者學科內容的一體化程度的數(shù)值。
本文利用三者之間的集中程度和離散程度將三個學科內容相似系數(shù)擬合成學科內容一體化指數(shù)。在利用圖書、情報、檔案三者間的內容相似程度來把握三者學科內容的一體化程度時,主要利用三者間的內容相似度的集中程度來反映相似度的整體集中水平,利用三者間內容相似度的離散程度來反映各個相似度之間的差異程度。如果圖書、情報、檔案三者間的內容相似程度的整體水平高且各個相似間的差異小,那么三者的整體內容相似度高,即學科內容的一體化程度高。所以一體化在測度時既要考慮各個相似程度的整體水平,也要考慮離散水平,兩個因素相互依賴。由于兩個因素的相互作用決定了整體一體化水平,因而我們采用乘法合成法,將整體水平和離散水平合成一個指標。本研究中采用均值來表示整體水平,采用變異系數(shù)來衡量離散水平,其中不用標準差的原因主要是它只能反映組內數(shù)據(jù)的離散水平,而無法衡量不同數(shù)據(jù)組間的離散水平。而變異系數(shù)則消除了不同組間數(shù)據(jù)量綱的問題,可以進行不同組間的離散程度比較。由此,圖書、情報、檔案學科內容的一體化指數(shù)的公式為:
4 實證分析
4.1 數(shù)據(jù)來源與獲取
《中國圖書館學報》 《情報學報》 《檔案學研究》分別是由中國圖書館學會、中國科學技術情報學會和中國檔案學學會主辦的國家級專業(yè)期刊,三個刊物分別刊發(fā)圖書館、情報、檔案研究的重要成果,具有很高的學術水平,是國內圖書情報檔案研究熱點和前沿主題的風向標,具備一定的代表性。因此本文將三種期刊分別作為圖書、情報、檔案學科內容分析的數(shù)據(jù)來源。
在CNKI《中國學術期刊數(shù)據(jù)庫》中檢索《中圖書館學報》和《檔案學研究》自2008年以來近十年所有的文章,從萬方數(shù)據(jù)《中國學術期刊數(shù)據(jù)庫》中檢索《情報學報》自2008年以來的所有文章,經(jīng)人工篩選,只保留學術研究論文,共獲得3396篇,作者關鍵詞8618個(見表1)。
4.2 文本計算與分析
首先,利用python語言中的jieba分詞工具來對3396篇《中國圖書館學報》、《情報學報》、《檔案學研究》中論文的題錄信息進行文本分詞;然后,去除停用詞和按詞性進一步過濾后,分別統(tǒng)計三種期刊中的主題詞頻數(shù),按照詞頻統(tǒng)計從大到小進行排序,利用(公式2)獲得所有主題詞的權重。再次,選取前100中的主題詞作為主題詞集合,并取圖書、情報、檔案三者之間主題詞集合的交集。最后按照(公式4)計算圖書、情報、檔案三者之間主體內容的相似程度。
表2為2008—2017年圖書、情報、檔案三者之間的交集主題詞個數(shù),交集主題詞集的個數(shù)占比都在18%~50%,僅由交集主題詞集合的數(shù)量可以看出圖書、情報、檔案三者的學科內容呈現(xiàn)一定程度的一體化(交集主題詞占比高于18%),但是這種一體化的程度并不太高(交集主題詞占比低于50%)。
在交集主題詞集合的基礎上,進一步結合主題詞的權重分析2008—2017年圖書-情報、情報-檔案、檔案-情報兩兩之間的內容相似度(見圖2)。在2008—2017年這十年間,圖書-情報間的內容相似度在0.0363~0.0753范圍內,圖書-檔案間的內容相似度在0.0309~0.0695范圍內,情報-檔案間的內容相似度在0.0204~0.0695范圍內,可以看出三者之間內容相似度總體上集中在0.02~0.08。2008—2010年之間,圖書-情報間的相似度明顯高于其他兩個,情報-檔案間的相似度相對較低。在2011—2016年間,情報-檔案間的相似度開始逐漸提高,相較于同期其他相似度,開始顯出一定的優(yōu)勢;相同時期,相較于同期其他相似度,圖書-情報間的相似度優(yōu)勢有所降低。在這十年間,相較于同期其他相似度,圖書-檔案間的相似度優(yōu)勢不是非常明顯??傮w上看,圖書-情報、圖書-檔案、檔案-情報三者之間的內容相似度總體上呈現(xiàn)增大的趨勢(圖2中兩條直線所示)。
4.3 一體化系數(shù)計算分析
在完成圖書-情報、圖書-檔案、情報-檔案內容相似度分析的基礎上,利用(公式4) 計算2008—2017年圖書、情報、檔案三者一體化指數(shù),具體結果如圖3所示。從總體上看,圖書、情報、檔案三者學科內容的一體化呈現(xiàn)逐漸增大的趨勢,但這是一種比較緩慢的增大過程(圖3中的直線所示)。在這十年間,圖書、情報、檔案學科三者之間的內容相似的平均水平集中在0.038~0.068,三者之間的整體相似程度變化幅度小,三者之間的內容相似度的差異程度集中在0.072~0.482,內容相似程度的差異性波動較大,但是圖3可以看出這種差異性總體上呈現(xiàn)出逐漸降低的趨勢。
2008年和2013年的一體化指數(shù)分別為十年間的最低值和最高值,進一步對2008年(圖4)和2013年(圖5)的一體化內容發(fā)現(xiàn),2008年的一體化程度明顯差于2013年的一體化程度。在2008年,圖書-情報、情報-檔案、圖書-檔案三者所具有相似主題內容各異,尤其是圖書-情報之間存在較多的相似主題,圖書-情報之間多側重自動構建、資源、專家、主題詞表、中文、中國、質量、知識轉移、知識流、知識管理、戰(zhàn)略、用戶研究、用戶、影響因素、引文分析、研究綜述、研究現(xiàn)狀、學科、敘詞表、信息資源、項目、系統(tǒng)、網(wǎng)絡環(huán)境、網(wǎng)絡、途徑、圖書館服務、數(shù)字圖書館、數(shù)字、實證研究、論文、領域本體、理論、科學、技術、高校圖書館、服務質量、電子政務、測度。而情報-檔案、檔案-圖書之間的相似主題內容較少,其中情報-檔案多側重知識集成、因素、新聞、情報、企業(yè)、領域、國際、關系、高校、概念、對策,檔案-圖書多側重政府信息公開、信息資源建設、信息服務、新時期、現(xiàn)狀、文獻、圖書館、史學、美國、理性、開發(fā)利用、基礎理論、傳統(tǒng)。所以,2008年圖書、情報、檔案的一體化程度總體較差,其中圖情檔三者共同關注的主題內容為策略、發(fā)展趨勢、環(huán)境、科學、模式、模型、期刊、視角、體系、信息。
在2013年,圖情檔三者共同關注的主題內容為美國、技術、內容、環(huán)境、中國、網(wǎng)絡、實證研究、信息、資源、評價、方法研究、研究述評、高校等,圖書-情報、情報-檔案、圖書-檔案三者共同擁有的主題內容數(shù)量較多。圖書-檔案多側重數(shù)據(jù)庫、信息化、圖書館學、資源共享、國際、平臺、信息資源、館藏、標準等內容,圖書-情報多側重情感分析、個性化、用戶、電子、質量、web2.0、特征融合、制度、社交網(wǎng)絡、文獻等內容,情報-檔案多側重互聯(lián)網(wǎng)、政府門戶網(wǎng)站、數(shù)據(jù)挖掘、突發(fā)事件、知識圖譜、企業(yè)、政策、信息服務、電子政務、數(shù)據(jù)等內容,圖書-情報、情報-檔案、檔案-圖書之間的相似主題內容的數(shù)量比較均衡。
5 結語
通過對以《中國圖書館學報》《情報學報》《檔案學研究》三種核心期刊為代表的圖書、情報、檔案學科內容的分析研究發(fā)現(xiàn),三者面臨的工作環(huán)境、工作對象、手段發(fā)生變化,三者在某些領域存在逐漸融合的態(tài)勢,但是三個學科之間仍然有自己的特定的理論和方法,這種融合的主題內容范圍和融合的程度仍然限制在一定范圍,即沒有出現(xiàn)較為明顯、劇烈變化。
本文基于學科內容的圖書、情報、檔案一體化的測度,通過對核心期刊的論文題錄信息實證研究發(fā)現(xiàn),可以量化圖書、情報、檔案在學科內容上的一體化程度及趨勢。當然,本文提出的方法也存在一定的局限性。首先,選用實證數(shù)據(jù)可能無法全部囊括全部的圖書、情報、檔案的主題內容。其次,對學科內容的把握仍然僅僅依賴于期刊的題錄信息,受一定條件的限制,無法通過全文來進行分析。最后,本研究仍然將主題詞作為構成學科內容的基本單元,但是主題詞可能會脫離具體語義,造成與內容之間存在一定的誤差,影響分析結果。所以,針對這三個方面的問題,未來本研究的研究重點將會側重基于更多期刊的全本數(shù)據(jù)及基于語義的學科內容分析。