許瑞
摘 要:作為大眾連接互聯(lián)網(wǎng)的主要入口,搜索引擎根據(jù)搜索引擎使用者提交的請求有針對性地為其提供準(zhǔn)確、高效以及可靠的檢索結(jié)果。然而由于互聯(lián)網(wǎng)資源的巨大性以及搜索引擎技術(shù)的復(fù)雜性,目前搜索引擎的檢索結(jié)果面臨準(zhǔn)確性、可靠性和時(shí)效性等挑戰(zhàn)。本文將對當(dāng)前的搜索引擎以及搜索引擎技術(shù)進(jìn)行討論,并對他們的發(fā)展趨勢進(jìn)行分析,同時(shí)對搜索引擎所面臨的問題進(jìn)行剖析并給出相應(yīng)的解決方法。
關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)爬蟲;檢索
中圖分類號:TP311.52 文獻(xiàn)標(biāo)識碼:A
1.搜索引擎介紹
搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上采集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將檢索的相關(guān)信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網(wǎng)上的一門檢索技術(shù),它旨在提高人們獲取搜集信息的速度,為人們提供更好的網(wǎng)絡(luò)使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。
全文搜索引擎是當(dāng)前應(yīng)用最為普遍的主流搜索引擎,國內(nèi)外知名的有baidu,Google,Bing等。全文搜索引擎的工作原理是分詞程序?qū)⑴老x程序從互聯(lián)網(wǎng)上抓取的文章中的內(nèi)容預(yù)處理后進(jìn)行分詞,然后計(jì)算機(jī)索引程序掃描分好的詞,對每一個(gè)詞建立倒排索引,并將該詞在文章中出現(xiàn)的位置以及次數(shù)記錄在數(shù)據(jù)庫中,當(dāng)用戶檢索程序在用戶提交檢索請求時(shí)根據(jù)數(shù)據(jù)庫中事先建立的索引進(jìn)行檢索,并將檢索結(jié)果反饋給用戶。全文搜索引擎數(shù)據(jù)庫的容量極大,檢索的范圍很廣,易用性較強(qiáng),然而由于知識來源較為廣泛,導(dǎo)致重復(fù)的內(nèi)容過多且繁雜,更新不夠迅速。
元搜索引擎就是通過一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的搜索引擎來實(shí)現(xiàn)檢索操作,是對分布于網(wǎng)絡(luò)中的多種檢索工具的全局控制機(jī)制。目前國內(nèi)外有諸如360綜合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的優(yōu)勢有效地?cái)U(kuò)大了搜索引擎的檢索廣度和提高了檢索結(jié)果的準(zhǔn)確率。元搜索引擎是基于多個(gè)搜索引擎上的二次整合,它沒有數(shù)據(jù)庫,因此相同的檢索請求會導(dǎo)致重復(fù)檢索。
垂直搜索引擎是針對某一個(gè)行業(yè)進(jìn)行搜索的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再返回給用戶。垂直搜索引擎是在特定的搜索領(lǐng)域來滿足特定的搜索需求如火車票搜索、視頻搜索等,其檢索范圍小而且是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的搜索,檢索結(jié)果準(zhǔn)確度高,檢索時(shí)間短,所需耗費(fèi)的成本低。
目錄搜索引擎是以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。它有別于其他的各類搜索引擎。
2.搜索引擎所用主要技術(shù)
搜索引擎工作流程主要有數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、結(jié)果展示等階段。在各工作階段分別使用了網(wǎng)絡(luò)爬蟲、中文分詞、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術(shù)。
網(wǎng)絡(luò)爬蟲也被稱為蜘蛛或者網(wǎng)絡(luò)機(jī)器人,它是搜索引擎抓取系統(tǒng)的重要組成部分。網(wǎng)絡(luò)爬蟲根據(jù)相應(yīng)的規(guī)則,以某些站點(diǎn)作為起始站點(diǎn)通過各頁面上的超鏈接遍歷整個(gè)互聯(lián)網(wǎng),利用URL引用根據(jù)廣度優(yōu)先遍歷策略從一個(gè)html文檔爬行到另一個(gè)html文檔來抓取信息。
中文分詞是中文搜索引擎中一個(gè)相當(dāng)關(guān)鍵的技術(shù),在創(chuàng)建索引之前需要將中文內(nèi)容合理的進(jìn)行分詞。中文分詞是文本挖掘的基礎(chǔ),對于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動識別語句含義的效果。
大數(shù)據(jù)處理技術(shù)是通過運(yùn)用大數(shù)據(jù)處理計(jì)算框架,對數(shù)據(jù)進(jìn)行分布式計(jì)算。由于互聯(lián)網(wǎng)數(shù)據(jù)量相當(dāng)龐大,需要利用大數(shù)據(jù)處理技術(shù)來提高數(shù)據(jù)處理的效率。在搜索引擎中,大數(shù)據(jù)處理技術(shù)主要用來執(zhí)行對網(wǎng)頁重要度進(jìn)行打分等數(shù)據(jù)計(jì)算。
數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法,尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。數(shù)據(jù)挖掘一般和計(jì)算機(jī)科學(xué)相關(guān),并通過機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)等方法來實(shí)現(xiàn)知識挖掘。在搜索引擎中主要是進(jìn)行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。
3.搜索引擎以及搜索引擎技術(shù)發(fā)展趨勢
3.1 搜索引擎的發(fā)展趨勢
隨著移動業(yè)務(wù)、科技的發(fā)展和人們生活方式的改變,在未來搜索引擎將會發(fā)生明顯的變化。
3.1.1 知識圖譜搜索
知識圖譜是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。當(dāng)用戶發(fā)起一個(gè)搜索請求后,除了顯示用戶搜索的結(jié)果,其他與之相關(guān)的重要信息也將以發(fā)散圖表的形式呈現(xiàn)出來。這一功能將在滿足用戶信息檢索的同時(shí),可以更好的理解用戶所需要的內(nèi)容。
3.1.2 個(gè)性化搜索
搜索引擎技術(shù)的通用性決定了它的普適性,從而忽略了搜索用戶個(gè)體之間的差異。個(gè)性化的搜索技術(shù)可以根據(jù)不同背景、不同目的和不同時(shí)期的查詢請求為不同用戶提供有針對性的個(gè)性化的搜索服務(wù)。個(gè)性化搜索通過采集以及分析不同的用戶數(shù)據(jù)信息來學(xué)習(xí)不同用戶的行為和愛好,從而實(shí)現(xiàn)對不同用戶進(jìn)行差異化信息檢索的目的。
3.1.3 多媒體搜索
當(dāng)前搜索引擎主要是基于文字進(jìn)行搜索的,而圖片、音頻和視頻等多媒體搜索比純文本搜索要復(fù)雜得多,目前主流技術(shù)是通過對他們的描述文字進(jìn)行解析來搜索,所以本質(zhì)上來說還是基于文字的搜索,然而多媒體的描述文字經(jīng)常與多媒體資料不匹配的問題導(dǎo)致多媒體搜索結(jié)果具有高度的不確定性,搜索結(jié)果極易受描述文字的干擾。未來的多媒體搜索技術(shù)將會通過對多媒體資料內(nèi)容進(jìn)行深度解析來彌補(bǔ)這一缺點(diǎn)。
3.1.4 跨語言搜索
語言已經(jīng)成為限制不同語言的人們在互聯(lián)網(wǎng)上進(jìn)行文化交流和科技交流最大的障礙,因此跨語言搜索必將成為未來搜索引擎必備的一個(gè)功能。目前跨語言搜索共有機(jī)器翻譯、雙語詞典查詢和雙語預(yù)料挖掘等三種方法。通過跨語言搜索能讓更多的人能夠共享異域文化與先進(jìn)的科學(xué)技術(shù)。
3.2 搜索引擎技術(shù)的發(fā)展趨勢
3.2.1 信息抓取的數(shù)量和速度
互聯(lián)網(wǎng)是一個(gè)實(shí)時(shí)變化的拓?fù)湫畔⒕W(wǎng)絡(luò),每時(shí)每刻都會有大量的網(wǎng)頁被創(chuàng)建、更新。搜索引擎為了向用戶展現(xiàn)最新的互聯(lián)網(wǎng)信息,需要頻繁的去抓取互聯(lián)網(wǎng)上最近更新的網(wǎng)頁內(nèi)容。在搜索引擎的抓取策略中,搜索引擎會頻繁的優(yōu)先抓取高權(quán)重的網(wǎng)絡(luò)站點(diǎn),而對于低權(quán)重的網(wǎng)絡(luò)站點(diǎn),通常以一個(gè)相對較低的頻率去抓取,這將導(dǎo)致不能及時(shí)的抓取低權(quán)重站點(diǎn)的數(shù)據(jù)信息,從而影響檢索結(jié)果的準(zhǔn)確性,搜索引擎需要兼顧低權(quán)重站點(diǎn)。
3.2.2 海量數(shù)據(jù)存儲
互聯(lián)網(wǎng)每天都會新產(chǎn)生大量的數(shù)據(jù),如何存儲從互聯(lián)網(wǎng)上挖掘出來的海量數(shù)據(jù)將會給搜索引擎的服務(wù)端帶來極大的挑戰(zhàn)?,F(xiàn)有的分布式存儲技術(shù)在一定程度上解決了當(dāng)前的數(shù)據(jù)存儲問題,然而在未來數(shù)據(jù)量的增長速度將遠(yuǎn)超現(xiàn)在,而且未來數(shù)據(jù)的類型也將越來越多樣化,如何有效的組織和存儲海量的、多樣化的數(shù)據(jù)將會是未來搜索引擎的一個(gè)發(fā)展熱點(diǎn)。
3.2.3 判斷用戶意圖及智能化發(fā)展
在搜索過程中,用戶所提交的搜索關(guān)鍵詞也許并不一定能準(zhǔn)確表達(dá)他想要搜索的內(nèi)容,搜索引擎通過利用人工智能技術(shù)合理的分析判斷用戶的真正意圖可以實(shí)現(xiàn)更加專業(yè)、更加準(zhǔn)確有效的信息檢索,從而使用戶使用搜索引擎更加方便,進(jìn)而可以極大地提高用戶的滿意度。
4.搜索引擎技術(shù)當(dāng)前問題及解決方法
4.1 搜索引擎技術(shù)當(dāng)前面臨的問題
網(wǎng)頁時(shí)效性:互聯(lián)網(wǎng)上的用戶眾多,數(shù)據(jù)信息來源極廣,互聯(lián)網(wǎng)上的網(wǎng)頁是呈實(shí)時(shí)動態(tài)變化的,網(wǎng)頁的更新、刪除等變動極為頻繁,有時(shí)候會出現(xiàn)新更新的網(wǎng)頁在爬蟲程序還來不及抓取的時(shí)候卻已經(jīng)被刪除的情況,這將大大影響搜索結(jié)果的準(zhǔn)確性。
大數(shù)據(jù)存儲問題:爬蟲抓取的數(shù)據(jù)在經(jīng)過預(yù)處理后數(shù)據(jù)量依然相當(dāng)龐大,這給大數(shù)據(jù)存儲技術(shù)帶來相當(dāng)大的挑戰(zhàn)。當(dāng)前大部分搜索引擎都是利用結(jié)構(gòu)化的數(shù)據(jù)庫來存儲數(shù)據(jù),結(jié)構(gòu)化的數(shù)據(jù)庫存儲的數(shù)據(jù)具有高共享、低冗余等特點(diǎn),然而由于結(jié)構(gòu)化的數(shù)據(jù)庫難以并發(fā)查詢所以存在查詢效率受限的問題。
檢索結(jié)果可靠性:目前由于數(shù)據(jù)挖掘技術(shù)以及計(jì)算機(jī)硬件的限制使得數(shù)據(jù)處理準(zhǔn)確度未能達(dá)到理想程度,而且由于一些個(gè)人或公司利用搜索引擎現(xiàn)有的漏洞通過作弊手段來干擾檢索結(jié)果導(dǎo)致檢索結(jié)果的可靠性可能會有損失。
4.2 解決方法
對于網(wǎng)頁時(shí)效性問題可以將權(quán)重高的網(wǎng)絡(luò)站點(diǎn)和權(quán)重低的網(wǎng)絡(luò)站點(diǎn)分開處理,對高權(quán)重和低權(quán)重的站點(diǎn)內(nèi)容分別以合適的高頻率進(jìn)行抓取,并將抓取的結(jié)果置于緩存中,索引程序?qū)彺嬷械臄?shù)據(jù)進(jìn)行處理,這樣可以使得高權(quán)重與低權(quán)重站點(diǎn)抓取并行處理,數(shù)據(jù)抓取與索引建立并行執(zhí)行。通過優(yōu)化數(shù)據(jù)的存儲結(jié)構(gòu),采用數(shù)據(jù)塊的模式借助于散列表連接的存儲模式可在一定程度上解決大數(shù)據(jù)存儲問題。通過加強(qiáng)反作弊技術(shù),將先進(jìn)的數(shù)據(jù)挖掘技術(shù)與神經(jīng)網(wǎng)絡(luò)加速器硬件相結(jié)合可大幅度提高檢索結(jié)果的可靠性。
參考文獻(xiàn)
[1] Mohammed A. Alam and Doug Downey. Analyzing the content emphasis of web search engines.Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval.SIGIR '14, Pages 1083-1086, 2014, ACM.
[2] Chavdar Botev, Sihem Amer-Yahia, Jayavel Shanmugasundaram. A TeXQuery-based XML full-text search engine. Proceedings of the 2004 ACM SIGMOD international conference on Management of data. SIGMOD '04, June 2004, ACM.
[3] A. Gulli, A. Signorini.Building an open source meta-search engine. Special interest tracks and posters of the 14th international conference on World Wide Web. WWW '05, May 2005, ACM.
[4]吳小蘭,汪琪.元搜索引擎研究綜述[J].圖書情報(bào)工作,2009(9):46-49.
[5]王文鈞,李巍.垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J].情報(bào)科學(xué),2010(3):477-480.
[6]秦長江,侯漢清.知識圖譜——信息管理與知識管理的新領(lǐng)域[J]. 大學(xué)圖書館學(xué)報(bào),2009(1):30-37+96.
[7]文振威,秦曉.個(gè)性化搜索引擎的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2009(2):342-344+394.