(1.蘭州大學(xué)圖書館 甘肅蘭州 730000)
摘 要:文章通過文獻分析對網(wǎng)絡(luò)機器人探測技術(shù)的研究現(xiàn)狀進行總結(jié);對DSpace、EPrints、Digital Commons、 University of Minho Statistics Add-on for DSpace以及 Institutional Repository Usage Statistics UK (IRUS-UK) 5個機構(gòu)知識庫平臺中網(wǎng)絡(luò)機器人探測技術(shù)的應(yīng)用進行了比較。探討了開放獲取機構(gòu)知識庫建設(shè)過程中的用戶使用量統(tǒng)計問題的解決方案。分析得出:在開放獲取機構(gòu)知識庫中同時應(yīng)用網(wǎng)絡(luò)機器人探測技術(shù)與人工排除網(wǎng)絡(luò)機器人措施,對于提高用戶使用數(shù)據(jù)統(tǒng)計的準(zhǔn)確性有一定的幫助;學(xué)術(shù)類搜索引擎是網(wǎng)絡(luò)機器人探測技術(shù)監(jiān)控的重點對象。
關(guān)鍵詞:網(wǎng)絡(luò)機器人探測;開發(fā)獲取機構(gòu)知識庫;用戶使用數(shù)據(jù)統(tǒng)計
中圖分類號:G202 文獻標(biāo)識碼:A DOI:10.11968/tsyqb.1003-6938.2017042
1 引言
機構(gòu)知識庫(IR)建設(shè)與開放獲取(OA)運動正在全球范圍內(nèi)沖擊和改變著傳統(tǒng)的學(xué)術(shù)出版模式及傳播方式,影響和變革著傳統(tǒng)出版發(fā)行機制、知識交流利益分配方式、知識成果的價值判斷標(biāo)準(zhǔn)等,形成了一股不可逆轉(zhuǎn)的知識成果運動方式變革潮流[1]。 截至2016年11月,全球范圍內(nèi)的學(xué)術(shù)性機構(gòu)知識庫數(shù)量已超過4000個,這些機構(gòu)知識庫中的很大一部分由學(xué)科聯(lián)盟或各高校自主建設(shè),以用戶自存儲的模式來保存和展示科研人員的研究成果,通常這些資源支持開放獲取。
隨著用戶獲取信息的途徑越來越多,使用情況的統(tǒng)計數(shù)據(jù)成為分析和了解資源價值的重要手段?,F(xiàn)階段對于下載量統(tǒng)計數(shù)據(jù)有兩種不同的觀點,一些認(rèn)為下載量統(tǒng)計方式存在問題,統(tǒng)計結(jié)果為無用信息[2],另一些機構(gòu)和用戶使用這些數(shù)據(jù)進行論文排名、作者排名、甚至定期將這些數(shù)據(jù)發(fā)布以進行宣傳。文章下載量有時還被作為預(yù)測文章被引次數(shù)的前期指標(biāo)[3],可以說是學(xué)術(shù)和科學(xué)研究出版物的最重要指標(biāo)之一。
無論持有哪種觀點,任何數(shù)據(jù)作為一個度量或僅作為簡單的宣傳推廣目的使用都必須是準(zhǔn)確的。然而,各類搜索引擎以及惡意評論制造者對網(wǎng)絡(luò)機器人的使用對開放獲取機構(gòu)知識庫的數(shù)據(jù)統(tǒng)計準(zhǔn)確性提出了極大挑戰(zhàn)。有數(shù)據(jù)表明,由網(wǎng)絡(luò)機器人制造的流量,占到了網(wǎng)絡(luò)總流量的8.51%-32.6%[4]。網(wǎng)絡(luò)機器人在不同類型的網(wǎng)站上所制造的流量差別很大,有一項針對互聯(lián)網(wǎng)檔案館的調(diào)查表明,93%的使用請求來自于網(wǎng)絡(luò)機器人[5]。
有哪些技術(shù)可用來探測網(wǎng)絡(luò)機器人?主要的機構(gòu)知識庫平臺是如何進行網(wǎng)絡(luò)機器人探測的?這些問題的探討對我國開放獲取機構(gòu)知識庫建設(shè)過程中的用戶使用量統(tǒng)計問題的解決提供了參考。
2 網(wǎng)絡(luò)機器人探測技術(shù)
Tan 與 Kumar[6]最早開展了對網(wǎng)絡(luò)機器人探測技術(shù)的研究;Doran 與 Gokhale[4]對主要的網(wǎng)絡(luò)機器人探測技術(shù)進行了總結(jié)。雖然這些研究主要來自于計算機科學(xué)領(lǐng)域,但已有研究人員將研究重點聚焦在其在學(xué)術(shù)信息系統(tǒng)的應(yīng)用上[7-9]。對Doran 與 Gokhale的分類體系進行簡化后,列出了用于網(wǎng)絡(luò)機器人探測的23個獨立變量(見表1)。
研究人員提出的變量分析方法各不相同,既有在服務(wù)器端對已知的機器人進行數(shù)據(jù)匹配的方式[8]也有利用復(fù)雜的機器學(xué)習(xí)技術(shù)的方式[10]??梢悦鞔_的是,沒有一種方法可以保證精確的探測到所有訪問過網(wǎng)絡(luò)服務(wù)器的機器人。因此,網(wǎng)絡(luò)機器人探測技術(shù)的階段性目標(biāo)變成了在保證錯報數(shù)量最?。ú闇?zhǔn)率)的基礎(chǔ)上最大程度的探測出網(wǎng)絡(luò)機器人(查全率),即在盡量少的把人工行為標(biāo)注為網(wǎng)絡(luò)機器人行為的同時盡可能多的捕獲網(wǎng)絡(luò)機器人[11]。筆者對各項針對網(wǎng)絡(luò)機器人探測技術(shù)查全率、查準(zhǔn)率以及F-值(查全率與查準(zhǔn)率的調(diào)和平均數(shù))的研究進行了匯總??梢钥闯?,網(wǎng)絡(luò)機器人探測技術(shù)的查全率在0.85與0.97之間,查準(zhǔn)率在0.82與0.95之間,F(xiàn)-值在0.84與0.94之間(見表2)。
在測試一項機器人探測技術(shù)時,研究人員首先要知道日志文件中的哪一個會話是網(wǎng)絡(luò)機器人所創(chuàng)
建。大部分情況下,檢測與標(biāo)注數(shù)據(jù)的工作是應(yīng)用另一項非測試的機器人探測技術(shù)以自動或半自動的形式完成的,但有時是通過人工形式進行的。 Doran 與Gokhale [12]分析了人工檢測與自動檢測數(shù)據(jù)集的優(yōu)缺點,指出人工檢測準(zhǔn)確率高,但可檢測的網(wǎng)絡(luò)機器人的范圍較小,且受到數(shù)據(jù)大小的限制,自動檢測所用到的技術(shù)本身就不可能完全準(zhǔn)確,與所測試技術(shù)結(jié)果的對比不具有可信度。
由于專家的意見不統(tǒng)一、技術(shù)測試的局限性以及檢測技術(shù)精確度的影響,合理的機器人探測技術(shù)應(yīng)用應(yīng)該是一種混合模型,應(yīng)用多種技術(shù)與數(shù)據(jù)來達(dá)到一個盡可能好的效果[13]。
3 網(wǎng)絡(luò)機器人探測技術(shù)在開放獲取知識庫中的應(yīng)用
機構(gòu)知識庫中的內(nèi)容通常是通過主流搜索引擎的自動索引功能被用戶所發(fā)現(xiàn)。一方面,機構(gòu)知識庫需要吸引搜索引擎以提升其內(nèi)容的可見度;另一方面,出于準(zhǔn)確的用戶使用數(shù)據(jù)統(tǒng)計的需求,機構(gòu)知識庫需要應(yīng)用機器人探測技術(shù)來剔除網(wǎng)絡(luò)機器人對使用量的影響。
通常,機構(gòu)知識庫中的日志信息有以下缺陷:除下載請求之外的會話數(shù)據(jù)有限或不存在;知識庫中的會話通常只包含單獨的下載信息,而不包含下載之前的點擊量信息與下載之后的瀏覽信息;在日志中可見的信息局限在日期、時間、HTTP方法與響應(yīng)碼、IP地址、用戶代理字符串以及referring 網(wǎng)站。這導(dǎo)致表1中所列的多種網(wǎng)絡(luò)機器人探測技術(shù)并不能在機構(gòu)知識庫中使用,如Web頁面組件請求、圖像鏈接比、資源類別請求等。由于機構(gòu)知識庫用戶實時交互技術(shù)使用較少,鼠標(biāo)移動與鍵盤聲監(jiān)測通常也無法進行,而使用驗證碼會導(dǎo)致機構(gòu)知識庫中的資源無法被搜索引擎發(fā)現(xiàn)?;谝陨显?,筆者歸納了國外主要的OA機構(gòu)知識庫平臺所采用的網(wǎng)絡(luò)機器人探測方式(見表3)。
3.1 DSpace
DSpace是全世界范圍內(nèi)應(yīng)用最廣泛的機構(gòu)知識庫系統(tǒng),自2002年發(fā)布以來,已經(jīng)有超過1600家機構(gòu)使用。DSpace采用Apache SOLR進行用戶使用數(shù)據(jù)統(tǒng)計,該系統(tǒng)從2010年起,采用了網(wǎng)絡(luò)機器人探測技術(shù)來進行數(shù)據(jù)過濾[14]。
DSpace采用了3種方式來探測網(wǎng)絡(luò)機器人。首先,對每一個下載與頁面瀏覽記錄的用戶代理字符串進行檢測,使之與235個已知用戶代理模式(正則表達(dá)式)進行對比;其次,檢測訪問請求的IP地址,使之與6個最大的搜索引擎的IP地址列表進行對比。除此之外,對比列表還包括一份包含2528個IP地址的其他搜索引擎IP地址列表,以及與搜索引擎無關(guān)的48個已知網(wǎng)絡(luò)機器人列表。大部分IP地址列表可以通過網(wǎng)絡(luò)查詢自動更新。最后,對正式域名采用反向DNS名稱查找的方式使之與已知網(wǎng)絡(luò)機器人域名列表進行對比[15]。從2014年開始,基于用戶使用數(shù)據(jù)統(tǒng)計準(zhǔn)確性的需求,DSpace 已經(jīng)開始對其網(wǎng)絡(luò)機器人探測方式進行重新評估[16]。
3.2 EPrints
EPrints是全球最早上線的機構(gòu)知識庫平臺,全球用戶數(shù)量排在DSpace之后,位居第二,有578家機構(gòu)使用[17]。EPrints平臺中的用戶使用數(shù)據(jù)統(tǒng)計模塊叫IRStats 2,這個模塊中使用了網(wǎng)絡(luò)機器人探測技術(shù)[18]。
IRStats 對下載量數(shù)據(jù)的過濾基于兩種方式。一種方式是利用用戶代理字符串列表,該列表包含960個已知網(wǎng)絡(luò)機器人及爬蟲軟件信息。如果使用請求的用戶代理字符串記錄與列表信息相匹配,下載記錄數(shù)據(jù)在用戶下載量統(tǒng)計時將被過濾;第二種方式通過檢測單個IP地址申請下載的時間間隔來進行。默認(rèn)情況下,如果同一IP地址在24小時內(nèi)多次申請下載同一條信息,在進行用戶下載量統(tǒng)計時,只按一次計算。這一過濾方式的階段性目標(biāo)是識別所謂的“重復(fù)下載”[19]。嚴(yán)格意義上來講,重復(fù)下載并不一定完全是網(wǎng)絡(luò)機器人的行為,但過濾軟件會把此類合法下載識別為網(wǎng)絡(luò)機器人行為,在數(shù)據(jù)統(tǒng)計時排除在外。此外,因為同一網(wǎng)絡(luò)機器人在24小時內(nèi)對機構(gòu)知識庫中所有文件進行單次下載的行為是被允許的,如果這個網(wǎng)絡(luò)機器人每24小時對這個機構(gòu)知識庫中的所有文件進行下載,所有這些下載數(shù)據(jù)將被記錄在用戶下載數(shù)量之中。盡管如此,這種方式已經(jīng)在沒有人工干預(yù)的情況下,很大程度上限制了網(wǎng)絡(luò)機器人的行為。
3.3 Digital Commons
Digital Commons是一個服務(wù)器托管機構(gòu)知識庫平臺,全球用戶數(shù)有400個機構(gòu)[20]。該平臺上的所有開放獲取資源都通過Digital Commons Network這一單一門戶來揭示,現(xiàn)有150多萬條OA數(shù)據(jù)。由于Digital Commons是一個集中管理的網(wǎng)絡(luò)知識庫,其機器人探測技術(shù)所需的數(shù)據(jù)集要大大多于單個的機構(gòu)知識庫系統(tǒng)。大規(guī)模的數(shù)據(jù)集可以提供更加準(zhǔn)確的用戶行為探測,這是本地部署的機構(gòu)知識庫所不能比擬的。此外,機構(gòu)知識庫所制定的數(shù)據(jù)規(guī)則,對使用平臺的所有機構(gòu)均適用,這使得多個計數(shù)器可以兼容跨機構(gòu)站點的下載統(tǒng)計數(shù)據(jù)。
Digital Commons 所使用的網(wǎng)絡(luò)機器人探測技術(shù)由一系列的過濾器組成。由用戶代理字符串已經(jīng)申明的已知網(wǎng)絡(luò)機器人產(chǎn)生的下載以及使HTTP產(chǎn)生除200與302響應(yīng)碼以外其他響應(yīng)碼的下載,均不計入用戶使用量統(tǒng)計中。用戶在30秒內(nèi)使用同一IP地址對同一資源的下載,也將被計數(shù)器排除在使用量統(tǒng)計之外[21]。referrer字段用來識別自動產(chǎn)生的鏈接地址。最后,Digital Commons使用內(nèi)部的加權(quán)算法進行實時計算。這個算法有5個指標(biāo),包括一個IP地址24小時之內(nèi)在平臺上對所有知識庫及所有文章的所有活動記錄、來自代理服務(wù)系統(tǒng)的請求、下載請求的定位信息、下載請求是否來自.edu 域名,第5個指標(biāo)來自于交叉比較一個IP地址所代理的用戶數(shù)量與由每一個IP—用戶代理配對所產(chǎn)生的條目下載請求數(shù)量。
3.4 Minho大學(xué)統(tǒng)計組件
Minho 大學(xué)統(tǒng)計組件開發(fā)于2006年,是一個與DSpace相結(jié)合的開源統(tǒng)計系統(tǒng)。開發(fā)的初衷是向全世界展示Minho大學(xué)機構(gòu)知識庫中的資源使用情況,促進機構(gòu)知識庫的進一步完善[22]。此系統(tǒng)還具有全面的工作流以及管理數(shù)據(jù)統(tǒng)計功能。
Minho統(tǒng)計組件在數(shù)據(jù)庫中存儲了DSpace中所有的下載比特流(包括PDF格式與其他格式)。該系統(tǒng)采用多樣化的方式來探測網(wǎng)絡(luò)機器人。包括與包含793個已知網(wǎng)絡(luò)機器人的預(yù)設(shè)表單進行匹配,探測假網(wǎng)頁的訪問請求與來自 robots.txt 文件列表里的網(wǎng)址訪問請求。數(shù)據(jù)庫中包含被定義為網(wǎng)絡(luò)機器人的相關(guān)IP地址與用戶代理字符串,這些信息通過預(yù)先的日志分析產(chǎn)生。所有這些疑似網(wǎng)絡(luò)機器人的下載行為,在用戶使用數(shù)據(jù)統(tǒng)計中都會被過濾,不會被終端用戶所見。
為了標(biāo)注下載信息,網(wǎng)絡(luò)機器人探測腳本讀取服務(wù)器日志文件,檢查每一個訪問請求的IP地址以及代理信息是否已經(jīng)存儲在數(shù)據(jù)庫中。如果代理字符串在數(shù)據(jù)庫中找到,使用這個用戶代理字符串的所有新IP地址,將被標(biāo)注為潛在的網(wǎng)絡(luò)機器人。如果IP地址與用戶代理字符串信息都不在數(shù)據(jù)庫中,探測腳本將對代理信息與預(yù)設(shè)代理列表以及假網(wǎng)頁與robots.txt 文件列表相比對。如果匹配成功,這個新的IP/代理配對將被記錄,由這個地址所產(chǎn)生的下載歷史數(shù)據(jù)是否在使用量數(shù)據(jù)統(tǒng)計時被剔除,需要進行人工決策[23](Minho統(tǒng)計組件的網(wǎng)絡(luò)機器人探測腳本的決策過程見圖1)。
除網(wǎng)絡(luò)機器人探測腳本以外,Minho統(tǒng)計組件還向用戶提供綜合管理界面,在一分鐘之內(nèi)超過10次訪問請求或產(chǎn)生多次會話的IP地址將顯示在這個界面上[24]。在一定時間段內(nèi),高頻出現(xiàn)的IP地址也會顯示在這個界面上。這個工具將有助于人工決策是否將單個IP地址加入到疑似網(wǎng)絡(luò)機器人列表中。
3.5 IRUS-UK
IRUS-UK是應(yīng)用于英國91個機構(gòu)知識庫的使用量統(tǒng)計系統(tǒng)[25]。該系統(tǒng)遵循COUNTER-PIRUS業(yè)務(wù)規(guī)程,旨在為英國機構(gòu)知識庫聯(lián)盟提供統(tǒng)一的用戶機構(gòu)知識庫使用量[26]。
與Digital Commons Network一樣,IRUS-UK是一項大規(guī)模的服務(wù),應(yīng)用網(wǎng)絡(luò)機器人探測技術(shù)在中心服務(wù)上,在多個機構(gòu)知識庫中進行跨平臺數(shù)據(jù)統(tǒng)計。這兩個系統(tǒng)都與開放獲取機構(gòu)知識庫聯(lián)盟(COAR)的使用量統(tǒng)計小組合作,與此同時,IRUS-UK還致力于促進反網(wǎng)絡(luò)機器人工作組的成立[27]。
為了探測網(wǎng)絡(luò)機器人,IRUS-UK使用包含241個已知網(wǎng)絡(luò)機器人用戶代理模式的反網(wǎng)絡(luò)機器人列表,并且對過于活躍的IP地址進行了訪問限制。最初,IRUS-UK設(shè)置過濾在一天之內(nèi)從91個機構(gòu)知識庫中下載超過200次的IP地址的所有下載次數(shù)數(shù)據(jù),下載超過100次的IP地址下載數(shù)據(jù)的一部分也會被過濾[28]?,F(xiàn)階段,IRUS-UK將所有IP地址一天下載次數(shù)的最大值設(shè)置成了40次,并且長期進行加強網(wǎng)絡(luò)機器人探測技術(shù)的研究。
3.6 網(wǎng)絡(luò)機器人探測技術(shù)應(yīng)用評價
5種OA機構(gòu)知識庫平臺網(wǎng)絡(luò)機器人探測方式各有特點。 Dspace采用了單一的綜合日志分析模式,數(shù)據(jù)需求較少,實現(xiàn)難度較低,且采用了高效的 Solr索引技術(shù)[29],系統(tǒng)資源耗費較少,執(zhí)行效率高,但有如下疏漏之處:一是IP地址列表并沒有實現(xiàn)自動更新,自2010年采用網(wǎng)絡(luò)機器人探測技術(shù)以來,DSpace使用的用于對比的IP地址列表就從未更新過;二是用戶代理字符串的更新并不及時,DSpace最后一次更新用戶代理字符串是在2015年4月;此外,DSpace的對比域名列表只包含了10種域名模式,以至于其網(wǎng)絡(luò)機器人探測更像是功能性或?qū)嶒炐缘?,在實際應(yīng)用中并不能發(fā)揮應(yīng)有作用。EPrints雖然只采用2種數(shù)據(jù)來進行網(wǎng)絡(luò)機器人探測,卻兼顧了綜合日志分析模式與流量分析模式,數(shù)據(jù)分析方法比較全面,但存在網(wǎng)絡(luò)地址轉(zhuǎn)換給正確的識別網(wǎng)絡(luò)機器人帶來影響的問題。這就需要系統(tǒng)在查全率與查準(zhǔn)率之間做一個平衡。通常,超時時間設(shè)置的越短,查全率越低、查準(zhǔn)率越高;超時時間設(shè)置的越長,查全率越高、查準(zhǔn)率越低。多用戶使用同一IP地址訪問EPrints時,所產(chǎn)生的使用數(shù)據(jù)統(tǒng)計問題也已經(jīng)被多個用戶所提出[30]。Digital Commons采用了10個字段來進行網(wǎng)絡(luò)機器人探測,在5個OA機構(gòu)知識庫平臺中為最多,大規(guī)模的數(shù)據(jù)集以使探測的全面性得到了保障。此外,服務(wù)器托管模式以及統(tǒng)一的規(guī)則有利于統(tǒng)計數(shù)據(jù)在更大范圍以及更多方向上應(yīng)用。但其內(nèi)部加權(quán)算法中的單個IP地址使用不同的代理字符串下載相同數(shù)量條目的計算是算法中的一個缺陷,在這種加權(quán)模式下,網(wǎng)絡(luò)機器人的行為將不被識別。Minho大學(xué)統(tǒng)計組件在數(shù)據(jù)需求上選擇了折中處理,同時引入自動機器探測與人工排查結(jié)合的兩階段探測模式重點突出對查準(zhǔn)率的保證,但存在缺乏API和代碼級文檔的問題[23-24]。在數(shù)據(jù)庫中過濾網(wǎng)絡(luò)機器人使用量以及進行使用量重新統(tǒng)計需要耗費大量時間及系統(tǒng)資源,包括CPU、內(nèi)存、數(shù)據(jù)量連接等。使用SQL語言進行使用量統(tǒng)計時容易產(chǎn)生大量的錯誤代碼,需要大量的時間去修復(fù),整體系統(tǒng)運行效率較低。IRUSUK的部署模式與Digital Commons相近,但在探測字段需求上進行了簡化,且開發(fā)團隊長期重視網(wǎng)絡(luò)機器人探測技術(shù)的研究,算法版本迭代速度快,但其針對性強,應(yīng)用范圍僅限于英國,全球推廣難度較大。
IP地址的靜態(tài)檢測問題是5個OA機構(gòu)知識庫存在的共有問題。一是被檢測到的網(wǎng)絡(luò)機器人IP地址以及用戶代理字符串,并沒有自動被添加到列表中,這導(dǎo)致檢測結(jié)果具有很大的隨機性,某一次檢測中的正確結(jié)果可能在下次檢測時被忽略;二是一旦一個IP地址被標(biāo)注為來自于網(wǎng)絡(luò)機器人,這個IP地址將永遠(yuǎn)被加入黑名單。如果此后這個IP地址被正常使用者使用,此用戶的使用量還是會被系統(tǒng)過濾,而將IP地址從黑名單去除的方式極為有限;三是一旦一個用戶代理字符串與一個網(wǎng)絡(luò)機器人IP地址綁定,任何使用這個代理的新IP地址都會被認(rèn)為是網(wǎng)絡(luò)機器人。為了解決這些問題,與DHCP配置相結(jié)合的探測技術(shù)將是研究的重點方向。
4 機構(gòu)知識庫網(wǎng)絡(luò)機器人探測技術(shù)實施建議
4.1 探測方式
現(xiàn)階段主要的機器人探測技術(shù)主要是利用會話數(shù)據(jù)來識別網(wǎng)絡(luò)機器人。如本文所述,在實際的機構(gòu)知識庫中,實時會話數(shù)據(jù)很少或沒有,于是使用行為被限定為直接使用搜索引擎一次性下載文檔的行為。使用可擴展的已知網(wǎng)絡(luò)機器人IP地址列表、可自動收割的用戶代理字符串來判定網(wǎng)絡(luò)機器人行為,是機構(gòu)知識庫可采用的較為節(jié)約成本的模式。同時,在這種情況下,人工判斷一些可疑的IP地址是否為網(wǎng)絡(luò)機器人對于提高查全率與查準(zhǔn)率有一定的幫助。筆者總結(jié)了可用于人工判斷網(wǎng)絡(luò)機器人行為的基本字段(見表4)。
4.2 探測對象
國外學(xué)者研究表明,對于OA學(xué)術(shù)期刊來說,大量的網(wǎng)絡(luò)機器人行為來自于少數(shù)幾個搜索引擎。在所調(diào)查的341個下載樣本中,有165個下載來自于Google學(xué)術(shù)的 Googlebot ,占總下載次數(shù)的48%[8]。在我國,學(xué)術(shù)類網(wǎng)絡(luò)搜索引擎近年來也快速發(fā)展。2014 年 6 月 13 日,“百度學(xué)術(shù)搜索”上線,旨在構(gòu)建為用戶提供海量中英文檢索的學(xué)術(shù)搜索平臺,涵蓋各類學(xué)術(shù)期刊、會議論文[31],成為我國最大的學(xué)術(shù)類網(wǎng)絡(luò)搜索引擎。與國外的學(xué)術(shù)類搜索引擎一樣,百度學(xué)術(shù)也未向外公布其搜索來源,僅簡單介紹了收錄范圍??梢酝茰y,各類OA機構(gòu)知識庫也是其獲取學(xué)術(shù)資源的一個主要渠道。因此,網(wǎng)絡(luò)機器人探測的重點對象應(yīng)放到主要的學(xué)術(shù)類搜索引擎上來。
4.3 數(shù)據(jù)利用
準(zhǔn)確的用戶使用數(shù)據(jù)統(tǒng)計是機構(gòu)知識庫功能升級的基礎(chǔ),對用戶使用數(shù)據(jù)的合理利用,是網(wǎng)絡(luò)機器人探測技術(shù)應(yīng)用的最終目標(biāo)。Coyners[32]認(rèn)為電子資源統(tǒng)計數(shù)據(jù)的分析可以直接推動服務(wù)提升和增強用戶支持。網(wǎng)絡(luò)機器人探測技術(shù)所監(jiān)控的數(shù)據(jù)是挖掘讀者需求的重要數(shù)據(jù)來源,通過數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以實現(xiàn)對用戶數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘、聚類分析、趨勢預(yù)測等。在實際挖掘中可以采用C4.5決策樹算法,將用戶下載偏好類型作為類標(biāo)簽,對影響分類的評價規(guī)則進行挖掘,揭示用戶偏好特點和規(guī)律,結(jié)合協(xié)同推薦算法,可以為用戶提供更加智能化、個性化的信息推送服務(wù)[33]。此外,國內(nèi)領(lǐng)先的中國科學(xué)院機構(gòu)知識庫通過利用用戶使用數(shù)據(jù)與其他科研數(shù)據(jù)的關(guān)聯(lián)、開放數(shù)據(jù)接口,實現(xiàn)了知識分析和信息可視化,以此來進行科研成果管理、科研產(chǎn)出評價等信息增值服務(wù),促進了機構(gòu)知識庫平臺功能的擴展和優(yōu)化[34]。
在用戶使用數(shù)據(jù)利用存在的問題方面,Baker和Read[35]指出缺乏統(tǒng)一的數(shù)據(jù)統(tǒng)計標(biāo)準(zhǔn)是阻礙大規(guī)??缙脚_數(shù)據(jù)挖掘深入開展的根本原因?,F(xiàn)階段,商用數(shù)據(jù)庫的用戶使用數(shù)據(jù)統(tǒng)計大多基于COUNTER標(biāo)準(zhǔn)。我國深圳大學(xué)設(shè)計了USSER平臺,基于數(shù)據(jù)庫商提供的原始 COUNTER報告,對其進行深入整合與分析,針對電子資源使用統(tǒng)計整合與分析難題進行了探索與實踐,初步取得了成效[36]。機構(gòu)知識庫平臺的用戶使用數(shù)據(jù)統(tǒng)計同樣可以統(tǒng)一采用此標(biāo)準(zhǔn),在此基礎(chǔ)上實現(xiàn)用戶使用數(shù)據(jù)在更深更廣的尺度上被充分利用。
5 結(jié)語
開放獲取機構(gòu)知識庫的用戶使用量統(tǒng)計,不但是服務(wù)效果和服務(wù)價值體現(xiàn)的主要指標(biāo),其自身也有許多問題需要進一步研究,如網(wǎng)絡(luò)機器人探測技術(shù)在機構(gòu)知識庫中的應(yīng)用效果如何、向用戶提供的使用量數(shù)據(jù)準(zhǔn)確性如何等。隨著大數(shù)據(jù)時代的來臨,各個開放機構(gòu)知識庫構(gòu)建部門已經(jīng)意識到了使用統(tǒng)計數(shù)據(jù)的重要性,但是對如何方便地獲得和展示使用統(tǒng)計數(shù)據(jù)、進行數(shù)據(jù)共享、方便地整合與加工使用統(tǒng)計數(shù)據(jù)、實現(xiàn)使用統(tǒng)計數(shù)據(jù)的長期保存等問題仍需進一步研究。
參考文獻:
[1] 徐紅玉,李愛國.中國科學(xué)院系統(tǒng)與高等學(xué)校機構(gòu)知識庫建設(shè)比較研究[J].圖書情報工作,2014,58(12):78-83.
[2] Cornell University Library (n.d.).arXiv.org e-Print archive[EB/OL].[2016-12-03].http://arxiv.org.
[3] Brody T,Harnad S,Carr L.Earlier Web Usage Statistics as Predictors of Later Citation Impact[J].Journal of the Association for Information Science and Technology,2006,57(8):1060-1072.
[4] Doran D,Gokhale S S.Web robot detection techniques: overview and limitations[J].Data Mining and Knowledge Discovery,2011,22(1):183-210.
[5] AlNoamany Y A,Weigle M C,Nelson M L.Access patterns for robots and humans in web archives[C].Proceedings of the 13th ACM/IEEE-CS joint conference on Digital libraries.ACM,2013:339-348.
[6] Tan P N,Kumar V.Discovery of Web Robot Sessions Based on their Navigational Patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9-35.
[7] Van De Sompel H,Bollen J.An architecture for the aggregation and analysis of scholarly usage data[C].Digital Libraries,2006.JCDL'06.Proceedings of the 6th ACM/IEEE-CS Joint Conference on.IEEE,2006:298-307.
[8] Huntington P,Nicholas D,Jamali H R.Web robot detection in the scholarly information environment[J].Journal of Information Science,2008,34(5):726-741.
[9] Lamothe A R.The importance of identifying and accommodating e-resource usage data for the presence of outliers.: The negative impacts of inaccurate e-journal usage data[J].Information Technology & Libraries,2014,33(2):31-44.
[10] Stassopoulou A,Dikaiakos M D.Web robot detection: A probabilistic reasoning approach[J].Computer Networks the International Journal of Computer & Telecommunications Networking,2009,53(3):265-278.
[11] Geens N,Huysmans J,Vanthienen J.Evaluation of web robot discovery techniques:a benchmarking study[C].Industrial Conference on Data Mining.Springer Berlin Heidelberg,2006:121-130.
[12] Doran D,Gokhale S S.Detecting Web Robots Using Resource Request Patterns[C].International Conference on Machine Learning and Applications.IEEE Computer Society,2012:7-12.
[13] Duskin O,& Feitelson D G.Distinguishing humans from robots in web search logs: preliminary results using query rates and intervals[C].the Workshop on Web Search Click Data.ACM,2009:15-19.
[14] Dempsey L.Discovery happens elsewhere[EB/OL].[2016-12-03].http://orweblog.oclc.org/ discovery-happens-elsewhere/.
[15] VandeVelde K,Diggory M.SpiderDetector.java [EB/OL].[2016-12-03].https://github.com/DSpace/DSpace/blob/50b8cfd77
e2640c3ae07a4e8d3e2482cbaa8df6b/ dspace-api/src/main/java/org/dspace/statistics/util/SpiderDetector.java.
[16] D Space Community Advisory Team & Luyten B.DCAT Meeting October 2014[EB/OL].[2016-12-03].https://wiki.duraspace.org/display/cmtygp/DCAT+Meeting+October+2014.
[17] University of Southampton and EPrints.org.Registry of open access repositories[EB/OL].[2016-12-03].http://roar.eprints.org.
[18] Field A.IRStats2 technical documentation-eprints documentation[EB/OL].[2016-12-03].http://wiki.eprints.org/w/IRStats_
2_Technical_Documentation.
[19] Fran?觭ois S.IRStats2—The EPrints Bazaar[EB/OL].[2016-12-03].http://bazaar.eprints.org/365/.
[20] Digital Commons.Institutional repositories published with Digital Commons[EB/OL].[2016-12-03].http://digitalcommons.bepress.com/subscriber_gallery/.
[21] Amshey S,Connolly A,Bankier J G.personal communication[EB/OL].[2016-12-03].http://www.progectcounter.org.
[22] Carvalho J.Statistics AddOn DSpace DuraSpace[EB/OL].[2016-12-03].https://wiki.duraspace.org/display/DSPACE/Statist
icsAddOn.
[23] Dantas A,Miranda A.Stats Addon Version 4 for DSpace1.8.2 [S].Braga:University of Minho and KEEP SOLUTIONS,2012.
[24] Dantas A,Miranda A.Stats Addon Version 4 for DSpace1.5.1[S].Braga:University of Minho and KEEP SOLUTIONS,2008.
[25] IRUS-UK.IRUS-UK[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/ .
[26] Needham P,Stone G.IRUS-UK: Making scholarly statistics count in UK repositories[J].Insights,2012,25(3):262-266.
[27] MacIntyre R.IRUS-UK:making scholarly statistics count in UK repositories[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/
news/IRUS-UKatAltMetricConf2014.pdf .
[28] IRUS-UK.IRUS-UK position statement on the treatment of robots and unusual usage[EB/OL].[2016-12-03].www.irus.mimas.ac.uk/news/IRUS-UK_position_statement_robots_and_ unusual_usage_v1_0_Nov_2013.pdf .
[29] Diggory M,Luyten B.SOLR statistics[EB/OL].[2016-12-03].https://wiki.duraspace.org/ display/DSDOC5x/SOLR+Statistics.
[30] Joint N,F(xiàn)ield A,Gregson M.Please change the way IRstats works[EB/OL].[2016-12-03].www.eprints.org/tech.php/15695.html.
[31] 百度學(xué)術(shù)搜索[EB/OL].[2016-12-03].http: / /baike.baidu.com/view/5844732.htm?fromtitle=百度學(xué)術(shù) &type=syn.
[32] Conyers A.Building on sand:Using statistical measures to assess the impact of electronic services[J].Performance Measurement and Metrics,2006,7(1):37-44.
[33] 劉軍,金淑娜.Kaas知識即服務(wù):面向讀者需求的分層知識服務(wù)模型及實踐[J].情報科學(xué),2014(3):55-60.
[34] 劉巍,祝忠明,張旺強,等.基于機構(gòu)知識庫的知識分析及可視化功能實現(xiàn)[J].圖書與情報,2016(3):125-131.
[35] Baker G,Read E J.Vendor-supplied usage data for electronic resources:A survey of academic libraries[J].Learned Publishing,2008,21(1):48-57.
[36] 陳大慶,葉蘭,楊巍,等.電子資源使用統(tǒng)計平臺USSER的設(shè)計與實現(xiàn)[J].圖書情報工作,2015,59(1):106-112.
作者簡介:胡文靜(1983-),女,蘭州大學(xué)圖書館館員,研究方向:信息資源管理。