對互聯(lián)網(wǎng)搜索引擎的初步認識

2009-07-02 08:36:00陳春陽

新媒體研究 2009年10期

陳春陽

中圖分類號：TP3文獻標識碼：A文章編號：1671－7597（2009）0520039－01

有人說，會搜索才叫會上網(wǎng)，搜索引擎在我們?nèi)粘Ｉ钪械牡匚灰咽桥e足輕重?；ヂ?lián)網(wǎng)是一個紛繁浩帙無邊無際的海洋，怎樣才能從這無窮的寶藏中去偽存真，找到自己所想要找的東西，那這就得仰仗搜索引擎了。下面是筆記在多年的工作、學(xué)習(xí)過程中形成的對搜索引擎一些初步認識，不妥之處還望指正。

一、搜索引擎基本工作原理

搜索引擎按其工作方式主要可分為兩種，一種是全文搜索引擎，另一種是目錄索引類搜索引擎。

（一）全文搜索引擎。全文搜索引擎是名副其實的搜索引擎，是通過從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息（以網(wǎng)頁文字為主）而建立的數(shù)據(jù)庫中，檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶，因此他們是真正的搜索引擎。

從搜索結(jié)果來源的角度，全文搜索引擎又可細分為兩種，一種是擁有自己的檢索程序，俗稱“蜘蛛”程序或“機器人”程序，并自建網(wǎng)頁數(shù)據(jù)庫，搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用，如百度、谷歌等；另一種則是租用其他引擎的數(shù)據(jù)庫，并按自定的格式排列搜索結(jié)果，如騰訊。

（二）QQ的搜索引擎。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索，即每隔一段時間，搜索引擎主動派出“蜘蛛”程序，對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索，一旦發(fā)現(xiàn)新的網(wǎng)站，它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索，即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址，它在一定時間內(nèi)定期向你的網(wǎng)站派出“蜘蛛”程序，掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫，以備用戶查詢。由于近年來搜索引擎索引規(guī)則發(fā)生了很大變化，主動提交網(wǎng)址并不保證你的網(wǎng)站能進入搜索引擎數(shù)據(jù)庫，因此目前最好的辦法是多獲得一些外部鏈接，讓搜索引擎有更多機會找到你并自動將你的網(wǎng)站收錄。

當用戶以關(guān)鍵詞查找信息時，搜索引擎會在數(shù)據(jù)庫中進行搜尋，如果找到與用戶要求內(nèi)容相符的網(wǎng)站，便采用特殊的算法通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度，出現(xiàn)的位置、頻次、鏈接質(zhì)量等計算出各網(wǎng)頁的相關(guān)度及排名等級，然后根據(jù)關(guān)聯(lián)度高低，按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。

（三）目錄索引。與全文搜索引擎相比，目錄索引有許多不同之處。

首先，全文搜索引擎屬于自動網(wǎng)站檢索，而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后，目錄編輯人員會親自瀏覽你的網(wǎng)站，然后根據(jù)一套自定的評判標準甚至編輯人員的主觀印象，決定是否接納你的網(wǎng)站。

其次，全文搜索引擎收錄網(wǎng)站時，只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則，一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多，有時即使登錄多次也不一定成功。此外，在登錄全文搜索引擎時，我們一般不用考慮網(wǎng)站的分類問題，而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄。

最后，全文搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的，所以用戶的角度看，我們擁有更多的自主權(quán)；而目錄索引則要求必須手工另外填寫網(wǎng)站信息，而且還有各種各樣的限制。更有甚者，如果工作人員認為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適，他可以隨時對其進行調(diào)整，當然事先是不會和你商量的。

目錄索引，顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中，因此用戶在查詢信息時，可選擇關(guān)鍵詞搜索，也可按分類目錄逐層查找。如以關(guān)鍵詞搜索，返回的結(jié)果跟全文搜索引擎一樣，也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站，只不過其中人為因素要多一些。如果按分層目錄查找，某一目錄中網(wǎng)站的排名則是由標題字母的先后順序決定（也有例外）。

目前，全文搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索，如谷歌就借用Open Directory目錄提供分類查詢。而像雅虎這些老牌目錄索引則通過與谷歌等搜索引擎合作擴大搜索范圍。在默認搜索模式下，一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站，如國內(nèi)搜狐、新浪、網(wǎng)

易等；而另外一些則默認的是網(wǎng)頁搜索，如雅虎。

二、搜索引擎的常用使用技巧

如果會搜索才叫會上網(wǎng)，那么只會搜索也只是停留在上網(wǎng)的初級階段，要快速、準確地找到自己想要的信息，還需要掌握一定的技巧。

1．使用邏輯詞輔助查找。比較大的搜索引擎都支持使用邏輯詞進行更復(fù)雜的搜索界定，常用有：AND（和）、OR（或）、NOT（否，有些是ANDNOT）及NEAR（兩個單詞的靠近程度），恰當應(yīng)用它們可以使結(jié)果非常精確。

2．使用雙引號進行精確查找。如果查找的是一個詞組或多個漢字，最好的辦法就是將它們用雙引號括起來，實現(xiàn)精確搜索，這樣得到的結(jié)果最少、最精確。例如在搜索引擎的查詢框中輸入"searchengine"，這會比輸入searchengine得到更少、更好的結(jié)果。如果按上述方法查不到任何結(jié)果，可以去掉雙引號試試。

3．使用加減號限定查找。很多搜索引擎都支持在搜索詞前冠以加號（+）限定搜索結(jié)果中必須包含的詞匯，用減號（-）限定搜索結(jié)果不能包含的詞匯。

4．有針對性地選擇搜索引擎。用不同的搜索引擎進行查詢得到的結(jié)果常常有很大的差異，這是因為它們的設(shè)計目的和發(fā)展走向存在著許多的不同，比如：Dejanews是專用于USENET的搜索引擎，而Liszt則是針對郵遞列表、IRC等的搜索引擎。

5．根據(jù)要求選擇查詢方法。如果需要快速找到一些相關(guān)性比較大的信息，可以使用目錄式搜索引擎的查找功能，如使用雅虎。如果想得到某一方面比較系統(tǒng)的資源信息，可以使用目錄一級一級地進行查找。

6．使用多元搜索引擎。多元搜索引擎是一種只需輸入一次關(guān)鍵詞就可以對多個搜索引擎進行查詢的搜索代理網(wǎng)站，如全能搜索（http：//s.k369.com/）就可以同時對多個搜索引擎進行查詢。

7．使用更特定的詞匯。比如，不用“服裝”，而用“西服”；不用“flower”而用“rose”。但要盡可能刪去一些同義詞或近義詞。

上面所述技巧只是一些常用、通用的技巧，每個搜索引擎都有各自的特點，也有各自的搜索技巧。掌握它們，就需要我們在日常的應(yīng)用中不斷的積累和總結(jié)。

三、搜索引擎技術(shù)發(fā)展趨勢

1．個性化。搜索引擎?zhèn)€性化的核心是通過跟蹤分析用戶的搜索行為，充分地利用這些信息來提高用戶的搜索效率。這種搜索行為分析技術(shù)是一種正在發(fā)展中的很有前途的搜索引擎人機界面技術(shù)。

通過搜索行為分析技術(shù)提高搜索效率的途徑主要有兩種：“群體行為分析”（比如“熱門關(guān)鍵詞”就是這種分析的運用結(jié)果）和“個性化搜索”。后者通過積累用戶的搜索個性化數(shù)據(jù)，將使用戶的搜索更加精確。

2．智能化。傳統(tǒng)的搜索引擎使用方法是被動搜索，將來也可利用智能代理技術(shù)進行主動信息檢索。研究智能檢索系統(tǒng)已為形勢所迫而成為眾所關(guān)注的焦點。其中通過對用戶的查詢計劃、意圖、興趣方向進行推理、預(yù)測并為用戶提供有效的答案是這種系統(tǒng)的支柱技術(shù)。它使用自動獲得的知識進行信息搜集過濾，并自動地將用戶感興趣的信息通過電子郵件或其它方式，提交給用戶。

自然語言搜索能力也是智能化的一個體現(xiàn)，是目前相對易于開發(fā)的技術(shù)，這會給搜索引擎增加競爭的砝碼。

另外，由于漢語里同義詞很多的特性（比如電腦和計算機就是一個同義詞），網(wǎng)頁檢索時要注意這個問題。因此，建立一個同義詞詞庫并應(yīng)用在關(guān)鍵字搜索中很必要。這也是搜索引擎智能化的一點小小的體現(xiàn)吧。