顧東曉 盛東方
摘要:文章采用引文分析法,探究了圖書情報領域研究對學術深網(wǎng)資源(AIW資源)的利用情況與趨勢。文章首先界定學術深網(wǎng)資源的內(nèi)涵與特征,爬取近五年出現(xiàn)在領域權(quán)威期刊中的學術深網(wǎng)資源引文作為研究樣本,進而從學術深網(wǎng)資源引文的總體情況、資源類型、和資源來源三個層面進行分析,最后對科研資源的聚合與服務建設發(fā)展提出了建議。
關鍵詞:學術深網(wǎng)資源;資源聚合;學科服務;引文分析法
中圖分類號:G250.73 文獻標識碼:A DOI:10.1 1968/tsyqb.1003-6938.2016039
1.引言
以開放存取運動(Open Access Movement)為代表的模式變革促使越來越多的學術資源數(shù)字化后呈現(xiàn)在網(wǎng)絡中,而搜索引擎的誕生極大地方便了科研工作者查找此類資源并由此改變了他們的信息搜索與利用行為。近年來國內(nèi)外學者開始從網(wǎng)絡引文角度關注網(wǎng)絡學術資源的利用情況,多數(shù)聚焦于引文數(shù)量、域名分布、可追溯性等特征指標,鮮有對網(wǎng)絡引文資源類型的深層次挖掘。本文以學術深網(wǎng)資源為研究切人點,探索通過引文分析法研究“看不見”網(wǎng)站資源對圖書情報學科科研工作的價值,揭示本領域?qū)W者對此類資源的利用規(guī)律,以期為進一步開發(fā)和利用學術深網(wǎng)資源提供依據(jù)。
2.“看不見”的網(wǎng)站與學術深網(wǎng)資源
2.1“看不見”的網(wǎng)站與學術深網(wǎng)
“Invisible Web”最初產(chǎn)生于互聯(lián)網(wǎng)領域,類似的概念包括“Deep Web”、“Hidden Web”等,國內(nèi)學者馬費成將其譯為“看不見”的網(wǎng)站。美國圖書館員和信息專家Chris sherman和GaryPrice將“看不見”的網(wǎng)站定義為:在互聯(lián)網(wǎng)上可獲得的,但傳統(tǒng)的搜索引擎由于技術限制不能,或者經(jīng)過慎重考慮后不作索引的那些網(wǎng)頁、文件或其它高質(zhì)量、權(quán)威的信息。而在學術工作中,由于“看不見”的網(wǎng)站的存在,搜索引擎的結(jié)果質(zhì)量往往引發(fā)質(zhì)疑?;诖?,德國學者Dirk Lewandowski與Philipp Mayr提出了學術深網(wǎng)(Academic Invisible Web,AIW)的概念,指包括所有數(shù)據(jù)庫在內(nèi)的傳統(tǒng)搜索引擎無法檢索到的學術內(nèi)容,并認為,學術深網(wǎng)涵蓋了文獻(如期刊論文、學位論文、報告、圖書)、數(shù)據(jù)(如調(diào)查數(shù)據(jù))、電子內(nèi)容(如開放存取文檔)等資源,對學術工作極具價值。美國數(shù)據(jù)整合與企業(yè)信息分析公司Bright Planet發(fā)布的白皮書進一步顯示,“看不見”的資源規(guī)模遠大于表面網(wǎng)(Surface Web)并持續(xù)高速增長,同時,信息質(zhì)量與內(nèi)容深度也遠高于表面網(wǎng)。
2.2學術深網(wǎng)資源類型
“看不見”的網(wǎng)站以關系數(shù)據(jù)庫fRelationalDatabase Files)內(nèi)容為主,還包括未被鏈接的網(wǎng)頁(Unlinked Pages)、非HTML網(wǎng)頁(Non-html Pages)、特殊文件(Special Files)、實時或者流動文件(Realtime or Streaming Files)以及動態(tài)網(wǎng)頁(Dynamic Pages)等。國內(nèi)學者陳紅勤在Sherman和Price工作的基礎上歸納出“看不見”的網(wǎng)站形成的原因主要有技術、經(jīng)濟和知識產(chǎn)權(quán)三類。Lewandowski和Mayr認為,從圖書館的角度而言,學術深網(wǎng)資源(后文簡稱AIW資源)以諸如PDF、PPT、DOC格式的特殊文件為主。隨著技術的發(fā)展,一些AIW資源正逐漸變得可見,譬如使用“關鍵詞+filetvpe:pdf”的查詢語句可以檢索PDF格式的文件,又如谷歌與百度都新增了圖像搜索功能等。盡管如此,“一站式”檢索并未真正實現(xiàn)。因而,本文仍將上述類型資源劃歸為AIW資源。
3.數(shù)據(jù)來源與處理
國家標準化管理委員會于2005年發(fā)布的最新版《文后參考文獻著錄規(guī)則》(以下簡稱《規(guī)則》),規(guī)定了包括數(shù)據(jù)庫在內(nèi)的網(wǎng)絡資源的標引格式。但根據(jù)《規(guī)則》識別AIW資源存在兩個困難:一是部分文獻尤其是年代較久的文獻并未嚴格按照《規(guī)則》進行標引:二是某些資源特征無法通過著錄符號識別與區(qū)分,如動態(tài)網(wǎng)頁與靜態(tài)網(wǎng)頁。為彌補以上不足,本文采用著錄符號與URL雙重特征識別方法抽取目標引文,AIW資源分類與特征見表1。
在數(shù)據(jù)來源上,為準確把握圖書情報領域AIW資源利用情況,在綜合考量數(shù)據(jù)的可獲取性、準確性和權(quán)威性等方面的基礎上,本文選取中文社會科學引文索引(CSSCI)公布的《CSSCI(2014-2015)來源期刊擬收錄目錄》中的《中國圖書館學報》、《大學圖書館學報》、《圖書情報工作》與《情報學報》①4種期刊2010年至2014年刊載的學術論文作為研究樣本獲取AIW引文。以往引文分析研究數(shù)據(jù)來源大多為CSSCI,但筆者經(jīng)測試發(fā)現(xiàn),從CSSCI中提取到的引文數(shù)據(jù)存在內(nèi)容缺少或格式不規(guī)范等問題。比較后,本文選取萬方數(shù)據(jù)庫作為數(shù)據(jù)源,根據(jù)數(shù)據(jù)抽取規(guī)則編寫爬蟲程序獲得目標著錄信息。數(shù)據(jù)采集時間為2015年11月18日到11月22日,共得到含AIW引文論文1699篇,AIW引文4597條。
4.數(shù)據(jù)分析
4.1AIW引文總體描述
從期刊分布和年度分布兩個維度,通過AIW引文的統(tǒng)計分析可以間接地反映科研工作者對AIW資源的價值認識和依賴程度。從表2可以看出,含AIW引文論文在全部刊載論文中占比超過三分之一,而《中國圖書館學報》更是超過半數(shù),其中,篇均AIW引文數(shù)為2.71,AIW引文數(shù)在網(wǎng)絡引文總數(shù)中占比達到30.22%。這表明AIW資源是網(wǎng)絡學術資源的重要組成部分,被圖書情報領域?qū)W者廣泛認可,并在其科研工作中發(fā)揮著重要價值。按時間順序縱向觀察(見表3)可以發(fā)現(xiàn)2010-2014五年間單篇論文引用的AIW資源條目不斷增加,引用AIW資源的論文比重也大致呈上升趨勢,尤其是2013、2014兩年,比重達到40%左右。這反映出圖書情報領域?qū)W者對AIW資源的認同度不斷提升,越來越重視AIW資源的利用。
4.2AIW資源類型分析
根據(jù)AIW資源分類與特征(表1)對樣本中AIW資源引文類型進行考察,需要說明的是,數(shù)據(jù)處理中發(fā)現(xiàn)大量數(shù)據(jù)庫類型引文未能嚴格按照數(shù)據(jù)庫文件的著錄規(guī)則進行標注,且數(shù)據(jù)庫文件的URL不具備統(tǒng)一的可識別特征,因而本部分主要從特殊文件和動態(tài)網(wǎng)頁兩個大類進行分析。
從表4可以看出,特殊文件中PDF文件的引用明顯多于其它類型,這與前人的研究結(jié)論吻合,且在AIW引文中占比逐年增多,2011年開始已超過半數(shù),2014年更達到65.75%。PDF文件是一種通用的文件格式,具有跨平臺、易于傳輸與存儲等特性㈣,有研究表明,PDF格式的網(wǎng)絡學術資源與較高的學術價值存在關聯(lián),這很大程度上解釋了PDF文件被持續(xù)大量引用的原因。Word文檔與PPT文件也多次出現(xiàn)在AIW引文中,此結(jié)果與一項基于Google搜索的網(wǎng)絡學術資源類型調(diào)查結(jié)論相符。除此之外,xls、zip、xar、.exe格式的資源也出現(xiàn)在引文中,但頻次很低。
而對于動態(tài)網(wǎng)頁來說,一方面URL特征中的,asp、.isp、.php等僅反映了資源網(wǎng)頁的開發(fā)語言,不代表其本身的某些特征屬性差異;另一方面,網(wǎng)址中的“?”符號表示網(wǎng)頁屬于動態(tài)網(wǎng)頁,經(jīng)常會和其它URL特征一同出現(xiàn),如“http://www.sciencenet.cn/m/user-content.asox?id=216844”,因而對這些不同特征符號之間的引文變化情況進行分析價值較小。故此處不再考察各特征動態(tài)網(wǎng)頁引文在AIW引文中的占比,而選擇將動態(tài)網(wǎng)頁作為一個整體,分析其歷年在網(wǎng)絡引文中占比的變化。從表5可以看出,2010-2014五年間動態(tài)網(wǎng)頁引文占網(wǎng)絡引文的比重呈現(xiàn)回落趨勢,從2010年的16.97%下降到2014年的9.24%,五年來合計占比為12.78%。國內(nèi)學者丁敬達、楊思洛對2005-2010年間圖書情報領域權(quán)威期刊網(wǎng)絡引文進行分析發(fā)現(xiàn),動態(tài)類網(wǎng)絡引文比例是逐年上升的,六年的合計占比為10.47%。將這兩組數(shù)據(jù)進行對比,發(fā)現(xiàn)盡管2010-2014年動態(tài)網(wǎng)頁引文量出現(xiàn)下降,總體上較五年前仍有增長。相信隨著用戶生成內(nèi)容的進一步推廣及其價值逐漸被認可,動態(tài)網(wǎng)頁型資源還將越來越多的出現(xiàn)在學術研究過程中。
4.3AIW資源來源分析
通過對AIW引文的域名進行分析,可以了解此類資源的來源以及研究者的利用偏好,并間接衡量不同網(wǎng)站的學術價值。按照域名可以將常見學術相關網(wǎng)站分為7類:.com(工商企業(yè))、.org(非營利組織)、.net(網(wǎng)絡機構(gòu))、.edu(教育)、.gov(政府)、.ac(學術)、.int(國際組織)。本文對AIW引文域名統(tǒng)計見圖1??梢钥闯觯霈F(xiàn)頻次較高的域名由高到低依次是.org、.edu、.com、.gov,這與國內(nèi)一項對2010-2012年網(wǎng)絡引文來源域名的研究結(jié)果(.org>.com>.gov>.edu)有所區(qū)別,也與中國互聯(lián)網(wǎng)信息中心發(fā)布的《第36次中國互聯(lián)網(wǎng)絡發(fā)展狀況調(diào)查統(tǒng)計報告》中的中國域名分類統(tǒng)計結(jié)果(.com>.net>.ac>.org)有較大差異。
為進一步探究AIW資源來源,挖掘在圖書情報領域研究中發(fā)揮重要價值的網(wǎng)站,本文對各類型高被引網(wǎng)站進行了統(tǒng)計,結(jié)果見表6??梢钥闯?,學術類機構(gòu)協(xié)會、圖書館與數(shù)據(jù)庫等傳統(tǒng)學術資源提供方提供了大量的優(yōu)質(zhì)AIW資源,且受到研究者的高度關注與廣泛引用。而來源網(wǎng)站中多次出現(xiàn)的各類學術數(shù)據(jù)庫與搜索引擎如IEEE Xplore、CiteSeer、eLIS、e線圖情等,正印證了真正的深網(wǎng)內(nèi)容以數(shù)據(jù)庫為主的論斷。從網(wǎng)站的內(nèi)容來看,高被引網(wǎng)站主題以圖書情報為核心向相關學科和領域延伸,如面向法學與知識產(chǎn)權(quán)的北大法寶、世界知識產(chǎn)權(quán)組織。這反映出我國圖情學者的研究主題與學術知識來源的跨學科性。從地域分布和語種來看,以國際圖書館協(xié)會聯(lián)合會等機構(gòu)協(xié)會為代表的英文類國際域名網(wǎng)站占了相當大的比重,除此之外,來源于美國與英國的資源也頗受關注??梢?,隨著我國圖書情報學科國際化程度的持續(xù)提高,科研人員對國際上的學術資源越來越重視,尤其在相關非營利組織資源不斷豐富、教育資源與政府信息進一步開放的趨勢下,相信外文資源將會越來越多的出現(xiàn)在我國圖情領域的研究中。伴隨Web2.0產(chǎn)生的新型學術資源網(wǎng)站如社會科學研究網(wǎng)、讀寫網(wǎng)同樣值得關注。有學者指出,Web2.0能夠促進知識的交流共享,學術博客作為一種新的信息資源,包含大量前沿學術資源。統(tǒng)計結(jié)果表明,Web2.0下的新型網(wǎng)絡學術資源已被科研工作者認可并廣泛利用。另外,經(jīng)濟合作與發(fā)展組織、中國互聯(lián)網(wǎng)信息中心等網(wǎng)站資源的廣泛引用,反映出我國圖情領域研究呈現(xiàn)出關注經(jīng)濟發(fā)展,注重與產(chǎn)業(yè)界結(jié)合的趨勢,更表明科研工作者已不再局限于傳統(tǒng)學術資源,而是更多地利用“非學術”資源進行科學研究。
5.總結(jié)與討論
本文運用引文分析的方法,對近五年出現(xiàn)在圖書情報領域四種權(quán)威期刊上的AIW引文進行分析,探究AIW資源在本學科研究中的利用情況與趨勢。
(1)AIW資源大量出現(xiàn)在學術論文引文中,反映出我國圖情學者在科研過程中對學術資源的搜集與利用已不再局限于淺層的“表面網(wǎng)”,更加關注那些輕易“不可見”但價值量極高的深度資源,并且,AIW資源比重的持續(xù)加大也顯示了學者對其依賴程度的不斷提升。然而,持續(xù)的各種數(shù)字化工程雖然有力推動了資源的開放共享,但相對落后的搜索能力側(cè)面上加劇了學術資源的“不可見”。因而,旺盛的資源需求與有限的獲取能力和較高的搜索成本成為了AIW資源利用的一大突出矛盾。AIW概念的提出者Lewandowski與Mavr認為,針對這種現(xiàn)狀,以圖書館為代表的學科服務提供方有責任通過合作等方式努力使AIW的內(nèi)容對科研工作者可見?;诖?,本文認為深度聚合圖書情報領域AIW資源,實現(xiàn)高質(zhì)量科研信息導航與服務意義重大。
(2)從資源格式來看,以PDF文件為代表的非結(jié)構(gòu)化文檔由于在AIW引文中占比極大應予以足夠重視。如前文所述,PDF格式的網(wǎng)絡資源往往具有較高的學術價值,但學術搜索引擎如Google Scholar的搜索范圍以結(jié)構(gòu)化數(shù)據(jù)庫中正式發(fā)表的學術文獻為主,對非正式發(fā)表的學術文獻覆蓋率低,導致大量極具學術價值的PDF類型資源仍“不可見”。國內(nèi)外學者為解決這一問題從鏈接、內(nèi)容、文體等特征人手嘗試對PDF學術資源的識別和檢索加以改進并取得了一定成果。就本文研究結(jié)果而言,對PDF、DOC、PPT等格式文件的分析與處理仍是提升AIW資源利用效率的重點。另外,研究結(jié)果還表明,動態(tài)網(wǎng)頁型資源在學術研究中頗具價值,針對此類資源的獲取,有學者提出對特定“不可見”網(wǎng)站編寫腳本或程序進行查詢和提取是有效途徑。
我國圖情學者在科研工作中對AIW資源的利用呈現(xiàn)出來源網(wǎng)站與資源內(nèi)容的跨學科、國際化、非傳統(tǒng)、新形式的趨勢。因而在進行學科知識聚合與服務中,也應突破固有思維,順應科研活動變化。從來源上,除傳統(tǒng)提供學術資源服務的數(shù)據(jù)庫、圖書館外,一方面向提供經(jīng)濟、政策與行業(yè)等背景信息的非學術類工商企業(yè)、政府和非營利組織網(wǎng)站拓展;一方面重視Web2.0環(huán)境下各類非正式學術交流社區(qū):從內(nèi)容上,向圖書情報研究的相關支撐與交叉學科延伸:從區(qū)域上,打破地區(qū)與語言的限制,引入豐富的外文資源。依據(jù)以上原則篩選出重點信息源,結(jié)合上文提到的編寫特定腳本或程序進行查詢和提取的方式,對其AIW資源進行揭示。