搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景

2017-03-04 09:04:39許瑞

中國新技術(shù)新產(chǎn)品 2017年4期

許瑞

摘要：作為大眾連接互聯(lián)網(wǎng)的主要入口，搜索引擎根據(jù)搜索引擎使用者提交的請求有針對性地為其提供準(zhǔn)確、高效以及可靠的檢索結(jié)果。然而由于互聯(lián)網(wǎng)資源的巨大性以及搜索引擎技術(shù)的復(fù)雜性，目前搜索引擎的檢索結(jié)果面臨準(zhǔn)確性、可靠性和時(shí)效性等挑戰(zhàn)。本文將對當(dāng)前的搜索引擎以及搜索引擎技術(shù)進(jìn)行討論，并對他們的發(fā)展趨勢進(jìn)行分析，同時(shí)對搜索引擎所面臨的問題進(jìn)行剖析并給出相應(yīng)的解決方法。

關(guān)鍵詞：搜索引擎；網(wǎng)絡(luò)爬蟲；檢索

中圖分類號：TP311.52 文獻(xiàn)標(biāo)識碼：A

1.搜索引擎介紹

搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上采集信息，在對信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將檢索的相關(guān)信息展示給用戶的系統(tǒng)。搜索引擎是工作于互聯(lián)網(wǎng)上的一門檢索技術(shù)，它旨在提高人們獲取搜集信息的速度，為人們提供更好的網(wǎng)絡(luò)使用環(huán)境。從功能和原理上搜索引擎大致被分為全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎等四大類。

全文搜索引擎是當(dāng)前應(yīng)用最為普遍的主流搜索引擎，國內(nèi)外知名的有baidu，Google，Bing等。全文搜索引擎的工作原理是分詞程序?qū)⑴老x程序從互聯(lián)網(wǎng)上抓取的文章中的內(nèi)容預(yù)處理后進(jìn)行分詞，然后計(jì)算機(jī)索引程序掃描分好的詞，對每一個(gè)詞建立倒排索引，并將該詞在文章中出現(xiàn)的位置以及次數(shù)記錄在數(shù)據(jù)庫中，當(dāng)用戶檢索程序在用戶提交檢索請求時(shí)根據(jù)數(shù)據(jù)庫中事先建立的索引進(jìn)行檢索，并將檢索結(jié)果反饋給用戶。全文搜索引擎數(shù)據(jù)庫的容量極大，檢索的范圍很廣，易用性較強(qiáng)，然而由于知識來源較為廣泛，導(dǎo)致重復(fù)的內(nèi)容過多且繁雜，更新不夠迅速。

元搜索引擎就是通過一個(gè)統(tǒng)一的用戶界面幫助用戶在多個(gè)搜索引擎中選擇和利用合適的搜索引擎來實(shí)現(xiàn)檢索操作，是對分布于網(wǎng)絡(luò)中的多種檢索工具的全局控制機(jī)制。目前國內(nèi)外有諸如360綜合搜索、InfoSpace等。元搜索引擎可以充分集中各搜索引擎的優(yōu)勢有效地?cái)U(kuò)大了搜索引擎的檢索廣度和提高了檢索結(jié)果的準(zhǔn)確率。元搜索引擎是基于多個(gè)搜索引擎上的二次整合，它沒有數(shù)據(jù)庫，因此相同的檢索請求會導(dǎo)致重復(fù)檢索。

垂直搜索引擎是針對某一個(gè)行業(yè)進(jìn)行搜索的專業(yè)搜索引擎，是搜索引擎的細(xì)分和延伸，是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合，定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再返回給用戶。垂直搜索引擎是在特定的搜索領(lǐng)域來滿足特定的搜索需求如火車票搜索、視頻搜索等，其檢索范圍小而且是基于結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的搜索，檢索結(jié)果準(zhǔn)確度高，檢索時(shí)間短，所需耗費(fèi)的成本低。

目錄搜索引擎是以人工方式或半自動方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。它有別于其他的各類搜索引擎。

2.搜索引擎所用主要技術(shù)

搜索引擎工作流程主要有數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)處理、結(jié)果展示等階段。在各工作階段分別使用了網(wǎng)絡(luò)爬蟲、中文分詞、大數(shù)據(jù)處理、數(shù)據(jù)挖掘等技術(shù)。

網(wǎng)絡(luò)爬蟲也被稱為蜘蛛或者網(wǎng)絡(luò)機(jī)器人，它是搜索引擎抓取系統(tǒng)的重要組成部分。網(wǎng)絡(luò)爬蟲根據(jù)相應(yīng)的規(guī)則，以某些站點(diǎn)作為起始站點(diǎn)通過各頁面上的超鏈接遍歷整個(gè)互聯(lián)網(wǎng)，利用URL引用根據(jù)廣度優(yōu)先遍歷策略從一個(gè)html文檔爬行到另一個(gè)html文檔來抓取信息。

中文分詞是中文搜索引擎中一個(gè)相當(dāng)關(guān)鍵的技術(shù)，在創(chuàng)建索引之前需要將中文內(nèi)容合理的進(jìn)行分詞。中文分詞是文本挖掘的基礎(chǔ)，對于輸入的一段中文，成功的進(jìn)行中文分詞，可以達(dá)到電腦自動識別語句含義的效果。

大數(shù)據(jù)處理技術(shù)是通過運(yùn)用大數(shù)據(jù)處理計(jì)算框架，對數(shù)據(jù)進(jìn)行分布式計(jì)算。由于互聯(lián)網(wǎng)數(shù)據(jù)量相當(dāng)龐大，需要利用大數(shù)據(jù)處理技術(shù)來提高數(shù)據(jù)處理的效率。在搜索引擎中，大數(shù)據(jù)處理技術(shù)主要用來執(zhí)行對網(wǎng)頁重要度進(jìn)行打分等數(shù)據(jù)計(jì)算。

數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法，尋找隱藏在數(shù)據(jù)中的信息，是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的過程。數(shù)據(jù)挖掘一般和計(jì)算機(jī)科學(xué)相關(guān)，并通過機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計(jì)學(xué)等方法來實(shí)現(xiàn)知識挖掘。在搜索引擎中主要是進(jìn)行文本挖掘，搜索文本信息需要理解人類的自然語言，文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。

3.搜索引擎以及搜索引擎技術(shù)發(fā)展趨勢

3.1 搜索引擎的發(fā)展趨勢

隨著移動業(yè)務(wù)、科技的發(fā)展和人們生活方式的改變，在未來搜索引擎將會發(fā)生明顯的變化。

3.1.1 知識圖譜搜索

知識圖譜是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形，用可視化技術(shù)描述知識資源及其載體，挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。當(dāng)用戶發(fā)起一個(gè)搜索請求后，除了顯示用戶搜索的結(jié)果，其他與之相關(guān)的重要信息也將以發(fā)散圖表的形式呈現(xiàn)出來。這一功能將在滿足用戶信息檢索的同時(shí)，可以更好的理解用戶所需要的內(nèi)容。

3.1.2 個(gè)性化搜索

搜索引擎技術(shù)的通用性決定了它的普適性，從而忽略了搜索用戶個(gè)體之間的差異。個(gè)性化的搜索技術(shù)可以根據(jù)不同背景、不同目的和不同時(shí)期的查詢請求為不同用戶提供有針對性的個(gè)性化的搜索服務(wù)。個(gè)性化搜索通過采集以及分析不同的用戶數(shù)據(jù)信息來學(xué)習(xí)不同用戶的行為和愛好，從而實(shí)現(xiàn)對不同用戶進(jìn)行差異化信息檢索的目的。

3.1.3 多媒體搜索

當(dāng)前搜索引擎主要是基于文字進(jìn)行搜索的，而圖片、音頻和視頻等多媒體搜索比純文本搜索要復(fù)雜得多，目前主流技術(shù)是通過對他們的描述文字進(jìn)行解析來搜索，所以本質(zhì)上來說還是基于文字的搜索，然而多媒體的描述文字經(jīng)常與多媒體資料不匹配的問題導(dǎo)致多媒體搜索結(jié)果具有高度的不確定性，搜索結(jié)果極易受描述文字的干擾。未來的多媒體搜索技術(shù)將會通過對多媒體資料內(nèi)容進(jìn)行深度解析來彌補(bǔ)這一缺點(diǎn)。

3.1.4 跨語言搜索

語言已經(jīng)成為限制不同語言的人們在互聯(lián)網(wǎng)上進(jìn)行文化交流和科技交流最大的障礙，因此跨語言搜索必將成為未來搜索引擎必備的一個(gè)功能。目前跨語言搜索共有機(jī)器翻譯、雙語詞典查詢和雙語預(yù)料挖掘等三種方法。通過跨語言搜索能讓更多的人能夠共享異域文化與先進(jìn)的科學(xué)技術(shù)。

3.2 搜索引擎技術(shù)的發(fā)展趨勢

3.2.1 信息抓取的數(shù)量和速度

互聯(lián)網(wǎng)是一個(gè)實(shí)時(shí)變化的拓?fù)湫畔⒕W(wǎng)絡(luò)，每時(shí)每刻都會有大量的網(wǎng)頁被創(chuàng)建、更新。搜索引擎為了向用戶展現(xiàn)最新的互聯(lián)網(wǎng)信息，需要頻繁的去抓取互聯(lián)網(wǎng)上最近更新的網(wǎng)頁內(nèi)容。在搜索引擎的抓取策略中，搜索引擎會頻繁的優(yōu)先抓取高權(quán)重的網(wǎng)絡(luò)站點(diǎn)，而對于低權(quán)重的網(wǎng)絡(luò)站點(diǎn)，通常以一個(gè)相對較低的頻率去抓取，這將導(dǎo)致不能及時(shí)的抓取低權(quán)重站點(diǎn)的數(shù)據(jù)信息，從而影響檢索結(jié)果的準(zhǔn)確性，搜索引擎需要兼顧低權(quán)重站點(diǎn)。

3.2.2 海量數(shù)據(jù)存儲

互聯(lián)網(wǎng)每天都會新產(chǎn)生大量的數(shù)據(jù)，如何存儲從互聯(lián)網(wǎng)上挖掘出來的海量數(shù)據(jù)將會給搜索引擎的服務(wù)端帶來極大的挑戰(zhàn)?，F(xiàn)有的分布式存儲技術(shù)在一定程度上解決了當(dāng)前的數(shù)據(jù)存儲問題，然而在未來數(shù)據(jù)量的增長速度將遠(yuǎn)超現(xiàn)在，而且未來數(shù)據(jù)的類型也將越來越多樣化，如何有效的組織和存儲海量的、多樣化的數(shù)據(jù)將會是未來搜索引擎的一個(gè)發(fā)展熱點(diǎn)。

3.2.3 判斷用戶意圖及智能化發(fā)展

在搜索過程中，用戶所提交的搜索關(guān)鍵詞也許并不一定能準(zhǔn)確表達(dá)他想要搜索的內(nèi)容，搜索引擎通過利用人工智能技術(shù)合理的分析判斷用戶的真正意圖可以實(shí)現(xiàn)更加專業(yè)、更加準(zhǔn)確有效的信息檢索，從而使用戶使用搜索引擎更加方便，進(jìn)而可以極大地提高用戶的滿意度。

4.搜索引擎技術(shù)當(dāng)前問題及解決方法

4.1 搜索引擎技術(shù)當(dāng)前面臨的問題

網(wǎng)頁時(shí)效性：互聯(lián)網(wǎng)上的用戶眾多，數(shù)據(jù)信息來源極廣，互聯(lián)網(wǎng)上的網(wǎng)頁是呈實(shí)時(shí)動態(tài)變化的，網(wǎng)頁的更新、刪除等變動極為頻繁，有時(shí)候會出現(xiàn)新更新的網(wǎng)頁在爬蟲程序還來不及抓取的時(shí)候卻已經(jīng)被刪除的情況，這將大大影響搜索結(jié)果的準(zhǔn)確性。

大數(shù)據(jù)存儲問題：爬蟲抓取的數(shù)據(jù)在經(jīng)過預(yù)處理后數(shù)據(jù)量依然相當(dāng)龐大，這給大數(shù)據(jù)存儲技術(shù)帶來相當(dāng)大的挑戰(zhàn)。當(dāng)前大部分搜索引擎都是利用結(jié)構(gòu)化的數(shù)據(jù)庫來存儲數(shù)據(jù)，結(jié)構(gòu)化的數(shù)據(jù)庫存儲的數(shù)據(jù)具有高共享、低冗余等特點(diǎn)，然而由于結(jié)構(gòu)化的數(shù)據(jù)庫難以并發(fā)查詢所以存在查詢效率受限的問題。

檢索結(jié)果可靠性：目前由于數(shù)據(jù)挖掘技術(shù)以及計(jì)算機(jī)硬件的限制使得數(shù)據(jù)處理準(zhǔn)確度未能達(dá)到理想程度，而且由于一些個(gè)人或公司利用搜索引擎現(xiàn)有的漏洞通過作弊手段來干擾檢索結(jié)果導(dǎo)致檢索結(jié)果的可靠性可能會有損失。

4.2 解決方法

對于網(wǎng)頁時(shí)效性問題可以將權(quán)重高的網(wǎng)絡(luò)站點(diǎn)和權(quán)重低的網(wǎng)絡(luò)站點(diǎn)分開處理，對高權(quán)重和低權(quán)重的站點(diǎn)內(nèi)容分別以合適的高頻率進(jìn)行抓取，并將抓取的結(jié)果置于緩存中，索引程序?qū)彺嬷械臄?shù)據(jù)進(jìn)行處理，這樣可以使得高權(quán)重與低權(quán)重站點(diǎn)抓取并行處理，數(shù)據(jù)抓取與索引建立并行執(zhí)行。通過優(yōu)化數(shù)據(jù)的存儲結(jié)構(gòu)，采用數(shù)據(jù)塊的模式借助于散列表連接的存儲模式可在一定程度上解決大數(shù)據(jù)存儲問題。通過加強(qiáng)反作弊技術(shù)，將先進(jìn)的數(shù)據(jù)挖掘技術(shù)與神經(jīng)網(wǎng)絡(luò)加速器硬件相結(jié)合可大幅度提高檢索結(jié)果的可靠性。

參考文獻(xiàn)

[1] Mohammed A. Alam and Doug Downey. Analyzing the content emphasis of web search engines.Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval.SIGIR '14， Pages 1083-1086， 2014， ACM.

[2] Chavdar Botev， Sihem Amer-Yahia， Jayavel Shanmugasundaram. A TeXQuery-based XML full-text search engine. Proceedings of the 2004 ACM SIGMOD international conference on Management of data. SIGMOD '04， June 2004， ACM.

[3] A. Gulli， A. Signorini.Building an open source meta-search engine. Special interest tracks and posters of the 14th international conference on World Wide Web. WWW '05， May 2005， ACM.

[4]吳小蘭，汪琪.元搜索引擎研究綜述[J].圖書情報(bào)工作，2009（9）：46-49.

[5]王文鈞，李巍.垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J].情報(bào)科學(xué)，2010（3）：477-480.

[6]秦長江，侯漢清.知識圖譜——信息管理與知識管理的新領(lǐng)域[J]. 大學(xué)圖書館學(xué)報(bào)，2009（1）：30-37+96.

[7]文振威，秦曉.個(gè)性化搜索引擎的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì)，2009（2）：342-344+394.