郭志強 楊松寧 吳光宇
(1、東北林業(yè)大學信息與計算機工程學院,黑龍江 哈爾濱 150040 2、東北林業(yè)大學外國語學院,黑龍江 哈爾濱 150040 3、東北林業(yè)大學交通學院車輛工程,黑龍江 哈爾濱 150040)
搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復這過程,并把爬過的所有網(wǎng)頁收集回來。建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序對收集回來的網(wǎng)頁進行分析,提取相關網(wǎng)頁信息根據(jù)一定的相關度算法進行大量復雜計算,得到每1個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每1個關鍵詞的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。在索引數(shù)據(jù)庫中搜索排序當用戶輸入關鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁。最后由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。
搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。
全文搜索引擎的代表是網(wǎng)絡爬蟲,網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。爬蟲設計是否合理將直接影響它訪問Web的效率,影響搜索數(shù)據(jù)庫的質量,另外在設計爬蟲時還必須考慮它對網(wǎng)絡和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度較慢的目標站點,可能導致該站點出現(xiàn)阻塞。Robot應遵守一些協(xié)議,以便被訪問站點的管理員能夠確定訪問內(nèi)容,Index是一個龐大的數(shù)據(jù)庫,爬蟲提取的網(wǎng)頁將被放入到Index中建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標題或前幾段內(nèi)容,還有的能處理HTML文件中的META標記或特殊標記。
目錄搜索引擎的數(shù)據(jù)庫是依靠專職人員建立的,這些人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據(jù)站點的內(nèi)容和性質將其歸為一個預先分好的類別,把站點URL和描述放在這個類別中,當用戶查詢某個關鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當目錄的編輯人員認可該網(wǎng)站及描述后,就會將之添加到合適的類別中。目錄的結構為樹形結構,首頁提供了最基本的入口,用戶可以逐級地向下訪問,直至找到自己的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關鍵詞。由于目錄式搜索引擎只在保存了對站點的描述中搜索,因此站點本身的變化不會反映到搜索結果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類目錄在網(wǎng)絡營銷中的應用主要有下列特點:
通常只能收錄網(wǎng)站首頁(或者若干頻道),而不能將大量網(wǎng)頁都提交給分類目錄;網(wǎng)站一旦被收錄將在一定時期內(nèi)保持穩(wěn)定;無法通過"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類目錄中的排名;在高質量的分類目錄登錄,對于提高網(wǎng)站在搜索引擎檢索結果中的排名有一定價值;緊靠分類目錄通常與其他網(wǎng)站推廣手段共同使用。
我們可將元搜索引擎看成具有雙層客戶機/服務器結構的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請求,元搜索引擎再根據(jù)該請求向多個搜索引擎發(fā)出實際檢索請求,搜索引擎執(zhí)行元搜索引擎檢索請求后將檢索結果以應答形式傳送給元搜索引擎,元搜索引擎將從多個搜索引擎獲得的檢索結果經(jīng)過整理再以應答形式傳送給實際用戶。當然,某些元搜索引擎具有略微不同的機制。元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結果進行相關處理,以整體統(tǒng)一的格式反饋給用戶。它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫。多數(shù)元搜索引擎在處理其它的搜索引擎返回結果時,只提取出每個搜索引擎的結果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實現(xiàn)起比較簡單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問少數(shù)幾個搜索引擎,并且通常不支持這些搜索引擎的高級搜索功能,在處理邏輯查詢時也常常會出現(xiàn)錯誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點,但它的信息準確這一優(yōu)點使其在一定的領域和時間內(nèi)仍會被使用,機器人搜索引擎是當前各種搜索引擎的主流,但隨著網(wǎng)絡信息量的增加,單一搜索引擎已經(jīng)難已滿足要求,結合目錄式搜索引擎,機器人搜索引擎的優(yōu)勢,以元搜索引擎為核心的多層代理搜索引擎是搜索引擎的發(fā)展方向。
搜索引擎技術功能強大,提供的服務也全面,它們的目標不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點。目前的搜索引擎主要有幾個特點:多樣化和個性化的服務。強大的查詢功能。目錄和基于Robot的搜索引擎相互結合。目前搜索引擎是網(wǎng)絡上被使用頻率最高的服務項目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結果豐富的搜索引擎技術正在被信息更集中的局域網(wǎng)取代,因為搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長的視頻、音頻等多媒體信息的檢索,仍然無法實現(xiàn)。搜索引擎越來越不能滿足用戶的各種信息需求,如收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無法打開查詢的結果。網(wǎng)絡信息時刻變動,實時搜索幾乎不可能。網(wǎng)絡信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問網(wǎng)絡資源。目前網(wǎng)絡帶寬不足,網(wǎng)絡速度慢,遍歷如此龐雜的網(wǎng)絡時間花費非常龐大,這就是不能實時搜索的原因。
[1]張興華.搜索引擎技術及研究[J].現(xiàn)代情報,2004,(4).
[2]唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢[J].情報雜志,2001,(5).
[3]陽小華.分布式WWW信息收集技術[J].計算機工程與應用,2000,(5).
[4]劉建國.搜索引擎概述.北京大學計算機與科學技術,1999,(10):200.
[5]李曉明,劉建國.搜索引擎技術及趨勢.大學圖書館學報.2000,(16).