學(xué)術(shù)隱蔽網(wǎng)絡(luò)數(shù)據(jù)庫(kù)查找探析

2010-09-17 03:34:50張海游

大學(xué)圖書(shū)情報(bào)學(xué)刊 2010年1期

張海游

（天津商業(yè)大學(xué)，300134）

1 隱蔽網(wǎng)絡(luò)，學(xué)術(shù)隱蔽網(wǎng)絡(luò)及數(shù)據(jù)庫(kù)

隨著萬(wàn)維網(wǎng)在上個(gè)世紀(jì)90年代的突起，網(wǎng)絡(luò)資源得到飛速增長(zhǎng)，但有搜索引擎和網(wǎng)絡(luò)目錄能搜索到的信息只占整個(gè)互聯(lián)網(wǎng)信息資源的很小部分，大約只占網(wǎng)絡(luò)信息資源的16%，其余84%的資源對(duì)于這些搜索工具是不可見(jiàn)的，成為隱蔽網(wǎng)絡(luò)“Invisible Web”。美國(guó)知名圖書(shū)館員和信息專(zhuān)家Sherman和Price將隱蔽網(wǎng)絡(luò)定義為：在萬(wàn)維網(wǎng)上可獲得的資源，但由于技術(shù)限制，或是由于特定選擇而不能或未被納入通用搜索引擎網(wǎng)頁(yè)索引中的文本網(wǎng)頁(yè)、文件或其他高質(zhì)量的權(quán)威信息資源，有時(shí)也被稱(chēng)為“深層網(wǎng)絡(luò)”、“看不見(jiàn)的網(wǎng)絡(luò)”等。[1]

在過(guò)去的十年中，隱蔽網(wǎng)絡(luò)的存在極大地激發(fā)了檢索人員、圖書(shū)館員和信息專(zhuān)業(yè)人士的探索精神，很多研究者將隱蔽網(wǎng)絡(luò)比喻為“理想的黃金國(guó)”，其內(nèi)容之豐富遠(yuǎn)在一般搜索引擎之上。它能夠提供相關(guān)科學(xué)過(guò)程的學(xué)術(shù)信息資源，包括：文獻(xiàn)如論文、學(xué)位論文、報(bào)告、圖書(shū)等；數(shù)據(jù)如調(diào)查數(shù)據(jù)；純網(wǎng)絡(luò)內(nèi)容如開(kāi)放存取Americal Memory（memory.loc.gov/ammem/index.html）；Babel fish（babelfish.yahoo.com）（提供多種語(yǔ)言翻譯的網(wǎng)站）；Find Articles（findarticles.com）（提供論文檢索下載服務(wù)）；Library of Congress Catalog （catalog.loc.gov）和Universal Currency Converter（www.xe.com/uc）（提供最新貨幣兌換數(shù)據(jù)）。

關(guān)于隱蔽網(wǎng)絡(luò)的規(guī)模學(xué)界多引用Berman于2001年發(fā) 表的論文 “The Deep Web：Surfacing Hidden Value”。在這篇文章中Berman對(duì)主要隱蔽網(wǎng)絡(luò)進(jìn)行重疊分析，認(rèn)為大約有10萬(wàn)個(gè)隱蔽網(wǎng)絡(luò)數(shù)據(jù)庫(kù)，但要去掉只包括原始數(shù)據(jù)的數(shù)據(jù)庫(kù)，學(xué)術(shù)內(nèi)容的比例就縮小到4%，因?yàn)殡[蔽網(wǎng)絡(luò)的主要部分是原始數(shù)據(jù)（rawdata），大多為圖片，如地球衛(wèi)星圖片，這些數(shù)據(jù)的存儲(chǔ)空間遠(yuǎn)遠(yuǎn)大于文本數(shù)據(jù)庫(kù)。[2]德國(guó)杜塞爾多夫大學(xué)的Dirk Lewandowski給學(xué)術(shù)隱蔽網(wǎng)絡(luò)（Academic Ivisble Web）下的定義是：包含所有數(shù)據(jù)庫(kù)和相關(guān)學(xué)術(shù)收藏但不被普通搜索引擎所檢索的那部分資源。[3]

一般搜索引擎爬行器可以查找和標(biāo)引數(shù)據(jù)庫(kù)的地址，最大的技術(shù)障礙來(lái)自于數(shù)據(jù)庫(kù)及數(shù)據(jù)庫(kù)的網(wǎng)站。數(shù)據(jù)庫(kù)里的信息是學(xué)術(shù)隱蔽網(wǎng)絡(luò)的核心，但大多數(shù)據(jù)庫(kù)中的信息資源由于通常要通過(guò)人機(jī)交互才能查詢(xún)，如數(shù)據(jù)庫(kù)入口處設(shè)置的賬號(hào)、密碼等提問(wèn)，是機(jī)械化搜索引擎難以跨越的障礙，所以引擎不能直接查找數(shù)據(jù)庫(kù)里具體的內(nèi)容。此外，基于數(shù)據(jù)庫(kù)的站點(diǎn)也會(huì)使搜索引擎爬行器在動(dòng)態(tài)網(wǎng)站中受阻。世界上銷(xiāo)售量最大的書(shū)店亞馬遜電子書(shū)店（amazon.com）就是一個(gè)基于數(shù)據(jù)庫(kù)的網(wǎng)站，在該網(wǎng)站中，大部分有關(guān)書(shū)、作者、評(píng)論等的信息都儲(chǔ)存在數(shù)據(jù)庫(kù)中，只有當(dāng)用戶(hù)查詢(xún)時(shí)才會(huì)在網(wǎng)頁(yè)上顯示出來(lái)。因此想要檢索某數(shù)據(jù)庫(kù)，就必須使用數(shù)據(jù)庫(kù)本身所提供的強(qiáng)大的搜索和檢索工具。這種方法的優(yōu)點(diǎn)在于可以使用專(zhuān)門(mén)用在數(shù)據(jù)庫(kù)中檢索最佳結(jié)果的檢索工具，而其不足則在于必須首先找到這個(gè)數(shù)據(jù)庫(kù)。[4]

因此，如何找到相關(guān)隱蔽網(wǎng)絡(luò)數(shù)據(jù)庫(kù)，是檢索學(xué)術(shù)隱蔽網(wǎng)絡(luò)的關(guān)鍵，如果圖書(shū)館能有針對(duì)性地將某一學(xué)科的相關(guān)隱蔽網(wǎng)站盡可能地收入囊中并對(duì)其進(jìn)行二次加工，不僅能有效擴(kuò)大館藏，而且能夠提升圖書(shū)館的特色。查找的手段分為直接查找和間接查找。直接查找包括自動(dòng)利用專(zhuān)業(yè)搜索引擎發(fā)現(xiàn)隱形網(wǎng)頁(yè)資源和構(gòu)建面向隱形Web資源的網(wǎng)絡(luò)爬行器等；間接查找，即使用某些查找工具，如通用搜索引擎，網(wǎng)絡(luò)目錄，隱蔽網(wǎng)絡(luò)專(zhuān)門(mén)工具，及學(xué)術(shù)搜索引擎等進(jìn)行輔助查找。[5]本文將重點(diǎn)探討間接查找，為具體操作提供查找框架和方法以改善用戶(hù)個(gè)人搜索策略。

2 隱蔽網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的查找手段

2.1 使用學(xué)術(shù)搜索引擎（academic and scholar search engines）

文章[3]介紹了四種免費(fèi)綜合性學(xué)術(shù)搜索引擎：Google Scholar、Sirus、Base和 Vascoda。Google學(xué)術(shù)搜索（http：//scholar.google.com）和 Scirus科學(xué)搜索引擎（http：//www.scirus.com）均由商業(yè)機(jī)構(gòu)創(chuàng)辦，資源來(lái)源于學(xué)術(shù)著作出版社提供的知識(shí)庫(kù)以及開(kāi)放存取的內(nèi)容；Base（Bielefeld Academic Search Engine）和 Vascode（http：//www.vascoda.de）是圖書(shū)館和信息機(jī)構(gòu)開(kāi)放其收藏的非贏利性學(xué)術(shù)計(jì)劃，主要是學(xué)術(shù)參考數(shù)據(jù)庫(kù)、圖書(shū)館目錄及免費(fèi)的優(yōu)質(zhì)文件。以上4種系統(tǒng)的共同點(diǎn)是都關(guān)注隱蔽網(wǎng)絡(luò)學(xué)術(shù)信息，但目錄學(xué)術(shù)搜索引擎還處于起步階段，存在一些問(wèn)題，如標(biāo)引和檢索詞未受控，易造成漏檢；學(xué)術(shù)資源在不同的數(shù)據(jù)庫(kù)中重復(fù)存儲(chǔ)；一些搜索引擎只提供按相關(guān)性排序檢索結(jié)果，引文作為相關(guān)性的重要指標(biāo)，但由于引文存在滯后性和動(dòng)機(jī)不同，會(huì)導(dǎo)致內(nèi)容不相關(guān)資源獲得較高的相關(guān)排序，掩蓋真正相關(guān)資源；免費(fèi)學(xué)術(shù)搜索引擎一般沒(méi)有嚴(yán)格的質(zhì)量控制機(jī)制，檢索結(jié)果中可能會(huì)存在很多低質(zhì)量資源。[6]因此用戶(hù)在使用時(shí)應(yīng)小心分辨，特別是學(xué)術(shù)分辨和學(xué)術(shù)能力相對(duì)較弱的用戶(hù)不要盲目相信某一固定的檢索來(lái)源，應(yīng)綜合利用多種檢索工具，養(yǎng)成良好的學(xué)術(shù)檢索習(xí)慣。

2.2 使用隱蔽網(wǎng)絡(luò)專(zhuān)門(mén)目錄（deep web directories）

相對(duì)其他搜索工具，隱蔽網(wǎng)絡(luò)目錄最大的優(yōu)點(diǎn)是經(jīng)過(guò)人工挑選，學(xué)術(shù)資源質(zhì)量較高，得到學(xué)術(shù)研究團(tuán)體比較廣泛的認(rèn)可。我國(guó)很多高校圖書(shū)館網(wǎng)頁(yè)上都列出了相關(guān)隱蔽網(wǎng)絡(luò)專(zhuān)門(mén)目錄供師生查閱使用，如蘭州大學(xué)圖書(shū)館就在最新免費(fèi)數(shù)據(jù)庫(kù)資源一欄中推薦使用專(zhuān)門(mén)目錄查詢(xún)深網(wǎng)資源。以下列出的是幾個(gè)比較知名的目錄：

Complete Planet www.completeplanet.com

Direct Search www.freepint.com/gary/direct.htm Informine http://informine.ucr.edu/Geniusfind http://geniusfind.com

Resource DiscoveryNetwork www.rdn.ac.uk/

Search EngineColossuswww.searchenginecolossus.com/

Search Engine Guide www.search engineguide.com/searchines

Complete Planet是現(xiàn)今為止最大的網(wǎng)絡(luò)目錄之一，是Bright Planet公司擁有的網(wǎng)絡(luò)站點(diǎn)，包括7萬(wàn)個(gè)可以檢索的數(shù)據(jù)庫(kù)及專(zhuān)用搜索引擎，以前只作商用，現(xiàn)在對(duì)公眾開(kāi)放。Price是喬治華盛頓大學(xué)圖書(shū)館的館員，同時(shí)也是隱蔽網(wǎng)絡(luò)研究和Direct Search網(wǎng)站的開(kāi)創(chuàng)者，Direct Search包括專(zhuān)題目錄集合和新增加到目錄里新的數(shù)據(jù)庫(kù)的通告，被認(rèn)為是最具權(quán)威的用于檢索隱蔽網(wǎng)絡(luò)的網(wǎng)站。Informine是由加州大學(xué)、底特律大學(xué)等多個(gè)高校參與建設(shè)的數(shù)據(jù)庫(kù)，主要服務(wù)于高校師生和研究人員。http://lii.org/是由公共資助，加州圖書(shū)組織建設(shè)的網(wǎng)站，服務(wù)于加州、美國(guó)和世界，每周四會(huì)發(fā)布免費(fèi)的時(shí)事資訊，提供一些由館員經(jīng)過(guò)仔細(xì)挑選的高質(zhì)量網(wǎng)站。

以上很多指南都提供網(wǎng)內(nèi)檢索服務(wù)，用戶(hù)可以查詢(xún)相關(guān)數(shù)據(jù)庫(kù) 但由于專(zhuān)門(mén)目錄和下面將要提到的通用網(wǎng)絡(luò)目錄在查詢(xún)時(shí)都存在不完全或忽略良好匹配的問(wèn)題，筆者建議暫不使用該查詢(xún)功能，而是瀏覽其相關(guān)主題分類(lèi)目錄，然后點(diǎn)擊該目錄，一級(jí)一級(jí)地向下尋找并記錄下有用的相關(guān)數(shù)據(jù)庫(kù)。雖然隱蔽網(wǎng)絡(luò)目錄可以檢索很小部分的數(shù)據(jù)庫(kù)，也許以后網(wǎng)絡(luò)目錄的覆蓋面會(huì)提高，但現(xiàn)在我們還必須使用Google等一般搜索引擎尋找數(shù)據(jù)庫(kù)的范圍。

表1 數(shù)據(jù)庫(kù)經(jīng)常使用的名稱(chēng)

2.3 使用主要搜索引擎

使用通用搜索引擎查找數(shù)據(jù)庫(kù)，通常是在搜索欄中輸入主題詞，在主題詞后面加上類(lèi)似于“searchable database”或者“interactive tool”等詞語(yǔ)。Google等搜索引擎能夠檢索到有以上查詢(xún)形式的數(shù)據(jù)庫(kù)，然后再利用數(shù)據(jù)庫(kù)自帶的查詢(xún)系統(tǒng)檢索該數(shù)據(jù)庫(kù)的內(nèi)容。很多學(xué)者都建議采用這種基本方法發(fā)掘隱蔽網(wǎng)絡(luò)。在檢索某一主題時(shí)首先要考慮該主題所屬的更寬泛的分類(lèi)，即上一級(jí)的分類(lèi)，這樣可以避免由于題目過(guò)于狹窄或者必須人機(jī)交互找不到合適的數(shù)據(jù)庫(kù)，并有助于擴(kuò)大查詢(xún)范圍。譬如，The Battle ofGettysburg（匹斯堡戰(zhàn)役），應(yīng)該屬于the Americal Vivil War（美國(guó)內(nèi)戰(zhàn)）的范疇。

輸入關(guān)鍵詞“civil war”+“database”或者與database類(lèi)似的詞，可以找到關(guān)于美國(guó)內(nèi)戰(zhàn)的隱蔽網(wǎng)絡(luò)數(shù)據(jù)庫(kù)，然后再用數(shù)據(jù)庫(kù)自帶的檢索工具查詢(xún)有關(guān)Gettysburg戰(zhàn)役的記錄，文章或者圖片等。

這種方法被稱(chēng)為“錯(cuò)層檢索”（split-leval searching），即檢索人員首先使用Google檢索，將結(jié)果限制在專(zhuān)門(mén)的數(shù)據(jù)庫(kù)和引擎上，然后再利用這些工具查找某一特定的題目。[7]這個(gè)過(guò)程猶如使用OPAC檢索某百科全書(shū)，確定其在書(shū)架上的位置后，找到它，再利用書(shū)里的內(nèi)容目錄和索引尋找僅使用OPAC不能查到的具體的信息。在具體的操作中，應(yīng)該考慮以下幾個(gè)問(wèn)題：

（1）通常我們檢索隱蔽網(wǎng)絡(luò)時(shí)需要在關(guān)鍵詞后面加上“database”，但有些數(shù)據(jù)庫(kù)的創(chuàng)建人使用的可能是其他詞語(yǔ)，[8]見(jiàn)表1。文章[8]指出一般關(guān)于歷史的隱蔽網(wǎng)絡(luò)數(shù)據(jù)庫(kù)傾向于使用“digital archive”或者“online collection”，商業(yè)數(shù)據(jù)庫(kù)一般使用“inventory”，藝術(shù)類(lèi)的數(shù)據(jù)庫(kù)經(jīng)常以“online gallery”命名?？茖W(xué)界喜歡用“information system”，而“directory”多出現(xiàn)在表示交易和地理位置列表的數(shù)據(jù)庫(kù)中。一般搜索引擎像“Google”或者“AltaVista”允許用戶(hù)在單次查詢(xún)使用多個(gè)近義詞，具體方法是使用大寫(xiě)“OR”運(yùn)算符號(hào)和括號(hào)，如：

+ “civil war”（database 0R “search engine”0R“online collection”O(jiān)R“digital archiye”）

（2）簡(jiǎn)單的輸入 +“civilwar”+database，會(huì)出現(xiàn)關(guān)于這個(gè)主題數(shù)目龐雜的數(shù)據(jù)庫(kù)，如果用戶(hù)需要的只是一些文獻(xiàn)、日記、回憶錄等原始資料時(shí)，需要對(duì)檢索詞進(jìn)行限制，如：

+“Civil war”+database（“primary sources”0R diarieS0R documents 0R memoirs）

或者使用通配符*進(jìn)行限定，也可以找到相關(guān)度高的數(shù)據(jù)庫(kù)：

如“primary*database”該檢索可以找到primary source database，primary material database， primary document database等所有關(guān)于原始內(nèi)容的數(shù)據(jù)庫(kù)。

（3）有些情況下，在檢索框中輸入“search form”能更好的限制檢索結(jié)果。一般來(lái)說(shuō)，數(shù)據(jù)庫(kù)會(huì)有一種查詢(xún)形式，輸入以下檢索式可以將檢索集中到具有查詢(xún)形式的數(shù)據(jù)庫(kù)：

+transportatiOn+database+“search form”

其次，將主題詞和經(jīng)常出現(xiàn)在檢索頁(yè)面里的像“submitquery”，“quicksearch”或者“advanced search”等短語(yǔ)組合，可以有效過(guò)濾掉僅僅含有“database”這個(gè)詞但并不是真正的數(shù)據(jù)庫(kù)。與上述相似的另一個(gè)方法也可以檢索到比較理想的結(jié)果，如：

+transportation+database inurl：search

注意inurl：和search之間不空格，該檢索表達(dá)式可以找到正文中含有 “transportation”和“database”，以及在在網(wǎng)址中出現(xiàn)“search”的相關(guān)站點(diǎn)（許多數(shù)據(jù)庫(kù)創(chuàng)始人會(huì)在網(wǎng)站檢索頁(yè)的地址中使用“search”這個(gè)詞）。

（4）檢索隱蔽網(wǎng)絡(luò)數(shù)據(jù)庫(kù)還應(yīng)該考慮過(guò)濾商業(yè)數(shù)據(jù)庫(kù)。在Google檢索框中輸入“database”會(huì)出現(xiàn)大量的受權(quán)限訪問(wèn)的，只對(duì)本館或付費(fèi)用戶(hù)開(kāi)放的電子資源。

舉例來(lái)說(shuō)，查找社會(huì)學(xué)數(shù)據(jù)庫(kù)時(shí)，我們可以通過(guò)調(diào)整檢索表達(dá)式過(guò)濾收費(fèi)數(shù)據(jù)庫(kù)：

+database+sociology-ebscohost-proquestinfotrac-“SOCiOlogicai abstracts”-subscriptiOn-fee

2.4 使用網(wǎng)絡(luò)目錄的主題分類(lèi)

2.4.1使用雅虎等網(wǎng)絡(luò)目錄

綜合性的主題分類(lèi)樹(shù)體系的網(wǎng)絡(luò)資源指南受到用戶(hù)的歡迎。其主要特點(diǎn)是根據(jù)網(wǎng)絡(luò)信息的主題內(nèi)容進(jìn)行分類(lèi)，并以等級(jí)目錄的形式組織和表現(xiàn)。通過(guò)網(wǎng)絡(luò)目錄，像著名的雅虎目錄，計(jì)算機(jī)驅(qū)動(dòng)的新型目錄和OCLC Worldcat全球目錄等都可以幫助檢索人員尋找到免費(fèi)的在線數(shù)據(jù)庫(kù)。在Google檢索框中輸入主題詞檢索的數(shù)據(jù)庫(kù)往往只是提到“數(shù)據(jù)庫(kù)”，并非真正的數(shù)據(jù)庫(kù)，而許多的通用網(wǎng)絡(luò)目錄會(huì)直接將帶有“database”標(biāo)題的網(wǎng)站與實(shí)際的數(shù)據(jù)庫(kù)鏈接，可以大大提高檢索的準(zhǔn)確度。Yahoo是迄今為止使用最廣泛的網(wǎng)絡(luò)目錄之一，其發(fā)達(dá)的分類(lèi)目錄是檢索隱蔽網(wǎng)絡(luò)的門(mén)戶(hù)。

雖然大多數(shù)通用目錄都具備查詢(xún)功能，但是網(wǎng)站目錄僅僅由鏈接和注解組成，使用網(wǎng)站目錄的檢索功能是檢索構(gòu)成這些鏈接和注解的詞，而不是他們所指向的網(wǎng)絡(luò)文件全文，因此，檢索結(jié)果可能會(huì)不完全或忽略了潛在的良好的匹配。[7]還有，由于初次使用我們可能并不清楚所查詢(xún)的數(shù)據(jù)庫(kù)對(duì)應(yīng)哪一主題分類(lèi)，檢索往往會(huì)受限。因此，在使用上述方法時(shí)，筆者認(rèn)為要遵循以下幾個(gè)步驟：

首先在Google或者Yahoo的主檢索頁(yè)進(jìn)行正常的主題詞+database檢索，找到一個(gè)數(shù)據(jù)庫(kù)，在雅虎目錄中檢索該數(shù)據(jù)庫(kù)的標(biāo)題，檢查該數(shù)據(jù)庫(kù)的所屬分類(lèi)，看它是否包含“database”或者類(lèi)似的詞，如果有，點(diǎn)擊該類(lèi)別查看其他專(zhuān)門(mén)數(shù)據(jù)庫(kù)。

譬如，利用Yahoo進(jìn)行關(guān)鍵詞查詢(xún)生物學(xué)數(shù)據(jù)庫(kù)可以找到以下優(yōu)質(zhì)數(shù)據(jù)庫(kù)：

Integrated TaxonomiCInformatiOn System

然后在雅虎目錄輸入該數(shù)據(jù)庫(kù)的名稱(chēng)（在yahoo.com主頁(yè)檢索框上方點(diǎn)擊more，在more的下拉菜單中找到directory，進(jìn)入雅虎目錄），在查詢(xún)結(jié)果頁(yè)面顯示的類(lèi)別中找到包含有“taxonomic databases”標(biāo)題的那類(lèi)，點(diǎn)擊該分類(lèi)就可以找到其他的同類(lèi)數(shù)據(jù)庫(kù)。利用雅虎等網(wǎng)絡(luò)目錄既可以受益于其包羅萬(wàn)象的豐富內(nèi)容，又能通過(guò)其分類(lèi)將檢索細(xì)化。但Yahoo和大多數(shù)的網(wǎng)絡(luò)目錄（如open directoryprojec）只能夠標(biāo)引關(guān)于某一主題的部分?jǐn)?shù)據(jù)庫(kù)或相關(guān)工具，并且擅長(zhǎng)的領(lǐng)域不同，譬如Yahoo目錄在自然領(lǐng)域和 “peoplefinders”、“image searchengines”和“searchable archive”等方面表現(xiàn)優(yōu)異，可以找到很多相關(guān)的專(zhuān)業(yè)資源。讀者可以嘗試在目錄中輸入常用的數(shù)據(jù)庫(kù)或工具檢索，檢查結(jié)果看其是否能夠提供包含多個(gè)數(shù)據(jù)庫(kù)的分類(lèi)鏈接。鑒于此，用戶(hù)在使用時(shí)要盡量查詢(xún)多個(gè)門(mén)戶(hù)以保證獲得全面的檢索結(jié)果。

2.4.2利用新型搜索引擎

由于通用網(wǎng)絡(luò)目錄只會(huì)給部分?jǐn)?shù)據(jù)庫(kù)加上小標(biāo)題，檢索人員應(yīng)當(dāng)多嘗試?yán)眯碌乃阉饕?，如Gigablast（www.gablast.com）和 ViviSimo（www.vivisimo.com）。它們可以自動(dòng)給多個(gè)主題領(lǐng)域內(nèi)的數(shù)據(jù)庫(kù)生成小標(biāo)題，用戶(hù)可以先使用主題詞檢索，然后網(wǎng)站的相關(guān)工具會(huì)對(duì)檢索結(jié)果進(jìn)行分類(lèi)，最終展現(xiàn)給用戶(hù)的是某一題目下定制的多個(gè)小標(biāo)題列表。隱蔽網(wǎng)絡(luò)檢索人員可以利用該功能篩掉僅僅提到“database”或者“search engine”的偽數(shù)據(jù)庫(kù)。如在Gigablast檢索：

database+“baseball cards”

在頁(yè)面左上方系統(tǒng)自動(dòng)生成的主題樹(shù)結(jié)構(gòu)中查找含有“database”的小標(biāo)題，點(diǎn)擊標(biāo)題確認(rèn)只含有“database”單詞的網(wǎng)頁(yè)已被過(guò)濾，則這個(gè)標(biāo)題下的站點(diǎn)就很有可能是真正可以檢索的數(shù)據(jù)庫(kù)，這種標(biāo)題生成機(jī)制會(huì)使檢索更加精確?；蛘咴赩iVisimo中檢索Movic database，我們可以看到在頁(yè)面左側(cè)的主題樹(shù)結(jié)構(gòu)里排列著各式各樣的電影數(shù)據(jù)庫(kù)分類(lèi)，這種結(jié)構(gòu)可以方便隱蔽網(wǎng)絡(luò)檢索人員快速地從中篩選出合適的主題數(shù)據(jù)庫(kù)。

2.4.3使用OCLCWorldcat

除網(wǎng)絡(luò)目錄外，OCLCWorldcat（全球目錄）也充當(dāng)著隱蔽網(wǎng)絡(luò)目錄的作用，原因是現(xiàn)在很多圖書(shū)館都開(kāi)始對(duì)網(wǎng)站進(jìn)行編目，其高級(jí)檢索界面允許檢索者將檢索范圍擴(kuò)展到互聯(lián)網(wǎng)，通過(guò)使用“database”或者類(lèi)似的詞語(yǔ)作為標(biāo)題，檢索人員可以將檢索集中在已被其他圖書(shū)館挑選出來(lái)的隱蔽網(wǎng)絡(luò)資源。

2.5 評(píng)價(jià)查找結(jié)果

完成檢索數(shù)據(jù)庫(kù)的工作后，要重新審視已找到的數(shù)據(jù)庫(kù)，確定它是否能提供獨(dú)一無(wú)二的高質(zhì)量的內(nèi)容，是否可以通過(guò)Google查到。如果它能提供高質(zhì)量的資源而且不能被Google檢索到，那就很有可能找到了寶藏。值得注意的是有些專(zhuān)門(mén)數(shù)據(jù)庫(kù)會(huì)全部或部分被Google索引，有的則對(duì)搜索引擎完全不可見(jiàn)。因此讀者可以先在某數(shù)據(jù)庫(kù)里檢索，然后再用Google檢索看能否直接找到上述查找內(nèi)容來(lái)確定Google是否標(biāo)引了該數(shù)據(jù)庫(kù)的內(nèi)容。

另外，將找到的隱蔽網(wǎng)絡(luò)資源和圖書(shū)館購(gòu)買(mǎi)的商業(yè)數(shù)據(jù)庫(kù)進(jìn)行比較，特別是那些能夠彌補(bǔ)館藏資源建設(shè)薄弱或者缺乏的資源。即便有的數(shù)據(jù)庫(kù)的內(nèi)容同館藏部分資源重復(fù)，在做取舍的時(shí)候也要衡量這些專(zhuān)門(mén)的數(shù)據(jù)庫(kù)是否提供更先進(jìn)的限制檢索的方法或者提供比其他資源更快捷的檢索服務(wù)等。

3 結(jié)論

對(duì)隱蔽網(wǎng)絡(luò)資源進(jìn)行收集、評(píng)價(jià)與管理是當(dāng)今圖書(shū)館館藏建設(shè)的重要業(yè)務(wù)之一，既能滿(mǎn)足用戶(hù)對(duì)信息的需求，又能提升圖書(shū)館的服務(wù)，同時(shí)也是凸顯館員專(zhuān)業(yè)水平的絕佳機(jī)會(huì)。因此，很多學(xué)者都建議教師在文獻(xiàn)檢索課上介紹隱蔽網(wǎng)絡(luò)，實(shí)驗(yàn)證明它能夠極大的激發(fā)學(xué)生的求知欲和對(duì)文獻(xiàn)檢索的興趣，每個(gè)館員都應(yīng)該了解并在工作中利用隱蔽網(wǎng)絡(luò)服務(wù)于讀者。[9]本文描述的深網(wǎng)查詢(xún)方法和策略可能并不全面，對(duì)深網(wǎng)的研究是一個(gè)漫長(zhǎng)漸進(jìn)的過(guò)程。同時(shí)我們應(yīng)該認(rèn)識(shí)到，Internet上的信息資源正以無(wú)法估量的速度增長(zhǎng)，而搜索引擎更新的速度遠(yuǎn)遠(yuǎn)跟不上資源的增長(zhǎng)速度，隱蔽網(wǎng)絡(luò)問(wèn)題可能永遠(yuǎn)得不到解決。但無(wú)論如何我們應(yīng)該像Price在書(shū)中所倡議的那樣“大膽地進(jìn)入搜索引擎未曾進(jìn)入的領(lǐng)域?！硎苤挥性谑澜绲貐^(qū)遠(yuǎn)征地早期探索者才能感受到的快樂(lè)和滿(mǎn)足。”[10]

[1][4][10]Gary Price，Chris sherman.馬費(fèi)成等譯.看不見(jiàn)的網(wǎng)站-Internet專(zhuān)業(yè)信息檢索指南[M].沈陽(yáng)：遼寧科學(xué)技術(shù)出版社，2003.47-48，51.

[2]Michael K.Berman0The Deep Web：SurfaeingHidden Value0 2009-06-04.

[3]Dirk Lewandowski，Philipp Mayr.ExplOrlngthe AcademiCInvisible Web.LibraryHi Tech.http：//www.emeraldinsight.com/0737-8831.btm.2009-05-20.

[5]劉雅晴.隱蔽網(wǎng)絡(luò)及其資源檢索策略研究[J].情報(bào)科學(xué)，2006，(5)：714-715.

[6]常唯.綜合性學(xué)術(shù)搜索引擎研究[J].大學(xué)圖書(shū)館學(xué)報(bào)，2007（2）：75-76.

[7]R.Kay.Deep Web[J].Computerworld，2005，39（51）：28.

[8]Brett Spencer.HarnesSlng the Deep Web：a practical plan for locatlng free specialty databaseOn the web.Reference Services RevieW.http：//www.emeraldinsight.com/0090-7324.htm.2009-05-28.

[9]Jane Devine，F(xiàn)rancine Egger-sider.Beyond 600gle：the lnvisble Web in the AcademiC Library[J].The Journal OfAcademiCLibrarianship，2004，（5），265-269.