搜索引擎的誕生源自互聯(lián)網(wǎng)最根本的用途之一:信息獲取。
在搜索引擎出現(xiàn)之前,互聯(lián)網(wǎng)缺少入口,用戶往往需要自己記住有用的網(wǎng)站和網(wǎng)頁。為了滿足這種需求,最早的“搜索引擎”,即分類目錄瀏覽式的引擎便出現(xiàn)了,Yahoo就是其中的代表。最初只是采用把一些有用的網(wǎng)站通過分類的方式手工組織起來,便于用戶找到有用的信息。能夠手工組織也是基于早年整個(gè)互聯(lián)網(wǎng)的網(wǎng)站數(shù)量也非常少,可以通過人工方式實(shí)現(xiàn)組織。
隨著互聯(lián)網(wǎng)的壯大,網(wǎng)頁網(wǎng)站數(shù)量越來越多,手工組織的方式變?yōu)椴豢尚?,于是由機(jī)器實(shí)現(xiàn)的全文檢索引擎便出現(xiàn)了。用戶可以通過關(guān)鍵字查詢來獲取相關(guān)的網(wǎng)頁。又隨著網(wǎng)頁數(shù)量的不斷增多,任何關(guān)鍵字查詢都會(huì)返回大量的相關(guān)網(wǎng)頁,如果對(duì)網(wǎng)頁進(jìn)行評(píng)分和排序,返回給用戶真正有價(jià)值的網(wǎng)頁便成為重點(diǎn)?;诰W(wǎng)頁之間的鏈接關(guān)系為網(wǎng)頁進(jìn)行評(píng)分,成為很多搜索引擎的網(wǎng)頁排序算法基礎(chǔ),Google的PageRank算法便是其中的代表者。
Google也以此為基礎(chǔ)成為搜索引擎產(chǎn)品中的領(lǐng)先者,為用戶提供了更好的搜索結(jié)果相關(guān)性。現(xiàn)代搜索引擎基本上也由此基本成型,雖然后來的技術(shù)創(chuàng)新和改進(jìn)很多,但主要的思路基本上沒有變。
搜索引擎發(fā)展到今天,基礎(chǔ)架構(gòu)和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。
搜索引擎所涉及和涵蓋的技術(shù)范圍非常廣,涉及到了系統(tǒng)架構(gòu)和算法設(shè)計(jì)等許多方面??梢哉f由于搜索引擎的出現(xiàn),把互聯(lián)網(wǎng)產(chǎn)品的技術(shù)水平提高到了一個(gè)新的高度;搜索引擎無論是在數(shù)據(jù)和系統(tǒng)規(guī)模,還是在算法技術(shù)的研究應(yīng)用深度上,都遠(yuǎn)超之前簡(jiǎn)單的互聯(lián)網(wǎng)產(chǎn)品。
搜索引擎涉及的關(guān)鍵技術(shù)點(diǎn)包含:爬蟲(Crawling)、索引結(jié)構(gòu)(Inverted Index)、檢索模型(VSM & TF- IDF)、搜索排序(Relevance Ranking &Evaluation)、鏈接分析(Link Analysis)、分類(Document& Query Classification)、自然語言處理(NLP:Tokenization, Lemmatization, POS Tagging, NER, etc.)、分布式系統(tǒng)(Distributed Processing&Storage)。
雖然搜索引擎涉及的技術(shù)方方面面,但歸結(jié)起來最關(guān)鍵的幾點(diǎn)在于:
●系統(tǒng):大規(guī)模分布式系統(tǒng),支撐大規(guī)模的數(shù)據(jù)處理容量和在線查詢負(fù)載。
●數(shù)據(jù):數(shù)據(jù)處理和挖掘能力。
●算法:搜索相關(guān)性排序、查詢分析、分類等。
由此可見搜索引擎系統(tǒng)是一個(gè)由許多模塊組成的復(fù)雜系統(tǒng),核心模塊通常包括爬蟲、索引、檢索和排序,除了必需的核心模塊之外,通常還需要一些支持輔助模塊,常見的有鏈接分析、去重、反垃圾、查詢分析等。搜索引擎中各關(guān)鍵功能模塊功能簡(jiǎn)介如下:
(1)爬蟲:從互聯(lián)網(wǎng)爬取原始網(wǎng)頁數(shù)據(jù),存儲(chǔ)于文檔知識(shí)庫服務(wù)器。
(2)文檔知識(shí)庫服務(wù)器:存儲(chǔ)原始網(wǎng)頁數(shù)據(jù),通常是分布式Key-Value數(shù)據(jù)庫,能根據(jù)URL/UID快速獲取網(wǎng)頁內(nèi)容。
(3)索引:讀取原始網(wǎng)頁數(shù)據(jù),解析網(wǎng)頁,抽取有效字段,生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的,分塊/分片的,并會(huì)進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括:字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲(chǔ)于索引服務(wù)器。
(4)索引服務(wù)器:存儲(chǔ)索引數(shù)據(jù),主要是倒排表,通常是分塊、分片存儲(chǔ),并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時(shí),還根據(jù)類別、主題、時(shí)間、網(wǎng)頁質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布,更好地服務(wù)在線查詢。
(5)檢索:讀取倒排表索引,響應(yīng)前端查詢請(qǐng)求,返回相關(guān)文檔列表數(shù)據(jù)。
(6)排序:對(duì)檢索器返回的文檔列表進(jìn)行排序,基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。
(7)鏈接分析:收集各網(wǎng)頁的鏈接數(shù)據(jù)和錨文本(Anchor Text),以此計(jì)算各網(wǎng)頁鏈接評(píng)分,最終會(huì)作為網(wǎng)頁屬性參與返回結(jié)果排序。
(8)網(wǎng)頁去重:提取各網(wǎng)頁的相關(guān)特征屬性,計(jì)算相似網(wǎng)頁組,提供離線索引和在線查詢的去重服務(wù)。
(9)網(wǎng)頁反垃圾:收集各網(wǎng)頁和網(wǎng)站歷史信息,提取垃圾網(wǎng)頁特征,從而對(duì)在線索引中的網(wǎng)頁進(jìn)行判定,去除垃圾網(wǎng)頁。
(10)查詢分析:分析用戶查詢,生成結(jié)構(gòu)化查詢請(qǐng)求,指派到相應(yīng)的類別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。
(11)頁面描述/摘要:為檢索和排序完成的網(wǎng)頁列表提供相應(yīng)的描述和摘要。
(12)前端:接受用戶請(qǐng)求,分發(fā)至相應(yīng)服務(wù)器,返回查詢結(jié)果。
搜索引擎產(chǎn)品其實(shí)包括很多種類,并不限于我們最熟悉的全網(wǎng)搜索引擎。具體包含如下幾種:
●全網(wǎng)搜索:包括市場(chǎng)份額最高的幾大搜索引擎巨頭,如Google、Yahoo、Bing。
●中文搜索:在中文搜索市場(chǎng)中,百度一家獨(dú)大,其他幾家如搜狗、搜搜、有道的市場(chǎng)份額相對(duì)還比較小。全網(wǎng)搜索和中文搜索屬于傳統(tǒng)的搜索引擎,它們經(jīng)過了十幾年的發(fā)展,目前在技術(shù)和產(chǎn)品上都已走向逐漸穩(wěn)定和成熟,通用搜索的市場(chǎng)也基本進(jìn)入飽和,不像早些年一直呈現(xiàn)高增長(zhǎng)率。
●垂直搜索:傳統(tǒng)搜索引擎穩(wěn)定成熟的同時(shí),在各個(gè)垂直領(lǐng)域,也出現(xiàn)了很多和產(chǎn)品結(jié)合得很好的垂直搜索產(chǎn)品,比如淘寶的購物搜索、大眾點(diǎn)評(píng)的美食搜索、去哪兒和酷訊的旅游搜索等,也都在各自領(lǐng)域占據(jù)了相當(dāng)大的市場(chǎng),成為除了通用搜索引擎之外的重要的用戶入口。
●問答搜索:專注于為問句式提供有效的答案,比如Ask.com;其他的如問答社區(qū)像Quora和國(guó)內(nèi)的知乎,應(yīng)該也會(huì)往這方面發(fā)展。
●知識(shí)搜索:典型代表就是WolframAlpha,區(qū)別于提供搜索結(jié)果列表,它會(huì)針對(duì)查詢提供更詳細(xì)的整合信息。
●云搜索平臺(tái):為其他產(chǎn)品和應(yīng)用提供搜索服務(wù)托管平臺(tái)(SaaS或是PaaS),Amazon剛剛推出它的CloudSearch,IndexTank在被Linkedin收購之前也是做這項(xiàng)服務(wù)的。
●其他:比如DuckDuckGo,主打隱私保護(hù),也有部分用戶買賬。
各種搜索產(chǎn)品在各自領(lǐng)域都需要解決特定的技術(shù)和業(yè)務(wù)問題,所以也可以建立相對(duì)通用搜索的優(yōu)勢(shì),來得到自己的市場(chǎng)和用戶。在開源領(lǐng)域,各種開源產(chǎn)品和解決方案也逐漸發(fā)展成熟,通用搜索技術(shù)不再為大公司所專有,中小企業(yè)能夠以較低的成本實(shí)現(xiàn)自己的搜索應(yīng)用。現(xiàn)在搜索引擎產(chǎn)品之間的競(jìng)爭(zhēng)更多的在數(shù)據(jù)、應(yīng)用方式和產(chǎn)品形態(tài)上,在系統(tǒng)架構(gòu)和基本算法上區(qū)分并不大。
搜索引擎在未來發(fā)展上,一是搜索將不僅僅以獨(dú)立產(chǎn)品的形式出現(xiàn),更多的會(huì)作為搜索功能整合到更多的產(chǎn)品和應(yīng)用中。在產(chǎn)品形態(tài)上,基于傳統(tǒng)的搜索引擎,會(huì)演化出像推薦引擎、知識(shí)引擎、決策引擎等形式的產(chǎn)品,更好地滿足和服務(wù)用戶需求。而搜索引擎所涉及和發(fā)展起來的各種技術(shù),會(huì)更廣泛地應(yīng)用到各種其他產(chǎn)品上,比如自然語言處理、推薦和廣告、數(shù)據(jù)挖掘等。
總之,搜索引擎對(duì)互聯(lián)網(wǎng)技術(shù)和產(chǎn)品帶來的影響是巨大的,未來也仍將有很大的發(fā)展和應(yīng)用空間。
搜索引擎的快速發(fā)展就是近15年發(fā)生的,這與互聯(lián)網(wǎng)的發(fā)展趨勢(shì)密切相關(guān)。最近幾年,互聯(lián)網(wǎng)在經(jīng)過了Web2.0的市場(chǎng)培育階段后,迎來了以互聯(lián)網(wǎng)用戶的個(gè)性化和社交化為中心的趨勢(shì)。同時(shí),移動(dòng)設(shè)備的逐漸流行及兩大趨勢(shì)的融合,催生了很多新型應(yīng)用,為了迎接和順應(yīng)這種趨勢(shì),對(duì)搜索引擎來說,也產(chǎn)生了新的挑戰(zhàn)。
(1)社會(huì)化搜索
隨著Facebook的流行,社交網(wǎng)絡(luò)平臺(tái)和應(yīng)用占據(jù)了互聯(lián)網(wǎng)的主流,社交網(wǎng)絡(luò)平臺(tái)強(qiáng)調(diào)用戶之間的聯(lián)系和交互,這對(duì)傳統(tǒng)的搜索技術(shù)提出了新的挑戰(zhàn)。
傳統(tǒng)搜索技術(shù)強(qiáng)調(diào)搜索結(jié)果和用戶需求的相關(guān)性,社會(huì)化搜索除了相關(guān)性外,還額外增加了一個(gè)維度,即搜索結(jié)果的可信賴性。對(duì)某個(gè)搜索結(jié)果,傳統(tǒng)的結(jié)果可能成千上萬,但如果處于用戶社交網(wǎng)絡(luò)內(nèi)其他用戶發(fā)布的信息、點(diǎn)評(píng)或驗(yàn)證過的信息則更容易信賴,這是與用戶的心里密切相關(guān)的。社會(huì)化搜索為用戶提供更準(zhǔn)確、更值得信任的搜索結(jié)果。
國(guó)外的Dogpile等元搜索引擎能夠得到發(fā)展和壯大,主要得益于國(guó)外傳統(tǒng)搜索過多,并且企業(yè)實(shí)現(xiàn)共贏的理念,但在國(guó)人思考的是如何把所有資源都掌握在自己手中,百度、Google、Yahoo是不會(huì)看著自己在未來發(fā)展中落伍,成為跟潮人,現(xiàn)在這幾家都在不斷豐富自己的產(chǎn)品線,并且觸及社會(huì)化搜索,來保證自己在這個(gè)行業(yè)中的地位。
(2)實(shí)時(shí)搜索
隨著微博的個(gè)人媒體平臺(tái)興起,對(duì)搜索引擎的實(shí)時(shí)性要求日益增高,我想這也是搜索引擎未來的一個(gè)發(fā)展方向。
實(shí)時(shí)搜索最突出的特點(diǎn)是時(shí)效性強(qiáng),越來越多的突發(fā)事件首次發(fā)布在微博上,實(shí)時(shí)搜索核心強(qiáng)調(diào)的就是“快”,用戶發(fā)布的信息第一時(shí)間能被搜索引擎搜索到。
不過在國(guó)內(nèi),實(shí)時(shí)搜索由于各方面的原因無法普及使用,比如Google的實(shí)時(shí)搜索是被重置的,百度也沒有明顯的實(shí)時(shí)搜索入口。
(3)移動(dòng)搜索
隨著智能手機(jī)的快速發(fā)展,基于手機(jī)的移動(dòng)設(shè)備搜索日益流行,但移動(dòng)設(shè)備有很大的局限性,比如屏幕太小,可顯示的區(qū)域不多,計(jì)算資源能力有限,打開網(wǎng)頁速度很慢,手機(jī)輸入繁瑣等問題都需要解決。
目前,隨著智能手機(jī)的快速普及,移動(dòng)搜索一定會(huì)更加快速的發(fā)展,所以移動(dòng)搜索的市場(chǎng)占有率會(huì)逐步上升,而對(duì)于沒有移動(dòng)版的網(wǎng)站來說,百度也提供了“百度移動(dòng)開放平臺(tái)”來彌補(bǔ)這個(gè)缺失。
(4)個(gè)性化搜索
個(gè)性化搜索主要面臨兩個(gè)問題:如何建立用戶的個(gè)人興趣模型?在搜索引擎里如何使用這種個(gè)人興趣模型?
個(gè)性化搜索的核心是根據(jù)用戶的網(wǎng)絡(luò)行為,建立一套準(zhǔn)確的個(gè)人興趣模型。而建立這樣一套模型,就要全民收集與用戶相關(guān)的信息,包括用戶搜索歷史、點(diǎn)擊記錄、瀏覽過的網(wǎng)頁、用戶E-mail信息、收藏夾信息、用戶發(fā)布過的信息、博客、微博等內(nèi)容。比較常見的是從這些信息中提取出關(guān)鍵詞及其權(quán)重。
為不同用戶提供個(gè)性化的搜索結(jié)果,是搜索引擎總的發(fā)展趨勢(shì),但現(xiàn)有技術(shù)有很多問題,比如個(gè)人隱私的泄露,而且用戶的興趣會(huì)不斷變化,太依賴歷史信息,可能無法反映用戶的興趣變化。
(5)地理位置感知搜索
目前,很多手機(jī)已經(jīng)有GPS的應(yīng)用了,這是基于地理位置感知的搜索,而且可以通過陀螺儀等設(shè)備感知用戶的朝向,基于這種信息,可以為用戶提供準(zhǔn)確的地理位置服務(wù)以及相關(guān)搜索服務(wù)。目前,此類應(yīng)用已經(jīng)大行其道,比如手機(jī)地圖APP。
(6)跨語言搜索
這方面做得最好的是Google,Google目前已經(jīng)能提供多種語言之間的跨語言搜索,比如搜索“麻省理工”,排在第一位的則是麻省理工學(xué)院的主頁。
如何將中文的用戶查詢翻譯為英文查詢,目前主流的方法有3種:機(jī)器翻譯、雙語詞典查詢和雙語語料挖掘。對(duì)于一個(gè)全球性的搜索引擎來說,具備跨語言搜索功能是必然的發(fā)展趨勢(shì),而其基本的技術(shù)路線一般會(huì)采用查詢翻譯加上網(wǎng)頁的機(jī)器翻譯這兩種技術(shù)手段。
(7)多媒體搜索
目前,搜索引擎的查詢還是基于文字的,即使是圖片和視頻搜索也是基于文本方式。那么未來的多媒體搜索技術(shù)則會(huì)彌補(bǔ)查詢這一缺失。多媒體形式除了文字,主要包括圖片、音頻、視頻。
多媒體搜索比純文本搜索要復(fù)雜許多,一般多媒體搜索包含4個(gè)主要步驟:多媒體特征提取、多媒體數(shù)據(jù)流分割、多媒體數(shù)據(jù)分類和多媒體數(shù)據(jù)搜索引擎。
例如圖片搜索,一般的步驟為:第一步,縮小尺寸;第二步,簡(jiǎn)化色彩;第三步,計(jì)算平均值;第四步,比較像素的灰度;第五步,計(jì)算哈希值(詳情可參見Google圖片搜索的原理一文)。
(8)情境搜索
情境搜索是融合了多項(xiàng)技術(shù)的產(chǎn)品,上面介紹的社會(huì)化搜索、個(gè)性化搜索、地點(diǎn)感知搜索等都是支持情境搜索的,目前Google在大力提倡這一概念。
所謂情境搜索,就是能夠感知人與人所處的環(huán)境,針對(duì)“此時(shí)此地此人”來建立模型,試圖理解用戶查詢的目的,根本目標(biāo)還是要理解人的信息需求。比如某個(gè)用戶在蘋果專賣店附近發(fā)出“蘋果”這個(gè)搜索請(qǐng)求,基于地點(diǎn)感知及用戶的個(gè)性化模型,搜索引擎就有可能認(rèn)為這個(gè)查詢是針對(duì)蘋果公司的產(chǎn)品,而非對(duì)水果的需求。
伴隨應(yīng)用系統(tǒng)(例如OA系統(tǒng))的規(guī)模正在不斷擴(kuò)大,在互聯(lián)網(wǎng)上得到了成熟穩(wěn)定發(fā)展的搜索引擎技術(shù)可以大大提高應(yīng)用系統(tǒng)的辦公使用效率。
搜索引擎在管理信息系統(tǒng)中的部署關(guān)注以下幾點(diǎn)的功能需求:
●通過整合多種數(shù)據(jù)源,提供統(tǒng)一的搜索服務(wù),達(dá)到促進(jìn)廣泛的信息交流和知識(shí)共享的目的,實(shí)現(xiàn)跨系統(tǒng)、平臺(tái)、應(yīng)用、地域之間以及互聯(lián)網(wǎng)信息的整合。
●提供統(tǒng)一、安全的信息檢索接口系統(tǒng),為所有結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)提供標(biāo)準(zhǔn)的數(shù)據(jù)源輸出接口功能。
●處理各種類型的文檔,并實(shí)現(xiàn)全文檢索。
●保證信息檢索的迅速、準(zhǔn)確,提供高并發(fā)率的處理能力。
●系統(tǒng)提供關(guān)鍵的維護(hù)、管理、控制和監(jiān)測(cè)功能,采用統(tǒng)一的方式,通過集中監(jiān)控管理模塊與所有搜索服務(wù)進(jìn)行通訊;同時(shí),提供圖形化的管理界面,使系統(tǒng)管理員能夠?qū)λ心K(或服務(wù))進(jìn)行本地或遠(yuǎn)程管理操作。
●系統(tǒng)支持負(fù)載均衡和高可用性,支持建立分布式的內(nèi)部數(shù)據(jù)索引,并實(shí)現(xiàn)對(duì)搜索服務(wù)器的集群化部署,支持水平靈活擴(kuò)展。
搜索系統(tǒng)將提供高效率的搜索功能,用戶通過在單一搜索界面上的操作,可以在最短時(shí)間內(nèi),完整、準(zhǔn)確、及時(shí)地得到所需信息。建議主要包括以下功能:
(1)提供信息的全文檢索
檢索范圍除各類文件、信息等的要素、關(guān)鍵字以外,提供包括文件正文內(nèi)容和附件內(nèi)容在內(nèi)的全文檢索功能,以滿足用戶對(duì)文件檢索的要求。
(2)支持各類文件格式
支持HTML、PDF、ASCIIText、XML、MSOffice格式(Word、PowerPoint、Excel)、壓縮文件格式(Zip、Gzip、Tar)等格式的檢索。
(3)兼容各類數(shù)據(jù)源系統(tǒng)
可以采集、處理和索引的信息系統(tǒng)包括:網(wǎng)站(HTML、J2EE、ASP、NET、PHP)、文件系統(tǒng)(Windows、Linux、Unix)、數(shù)據(jù)庫(Oracle、SQL Server、DB2、Sybase、MySQL)、公文流轉(zhuǎn)和郵件系統(tǒng)、門戶系統(tǒng)等,以保證增加和更新的文檔能夠及時(shí)地被搜索到,刪除的文檔及時(shí)地從索引平臺(tái)中去除。增量索引支持可調(diào)度模式。增量索引時(shí),應(yīng)不影響搜索。
(4)減少檢索功能對(duì)各系統(tǒng)的影響
搜索系統(tǒng)與各系統(tǒng)采用松耦合的集成方式,選擇在非工作時(shí)間更新數(shù)據(jù)庫索引,從而避免在文件、信息生成時(shí)同步數(shù)據(jù)各系統(tǒng)帶來不利影響。
(5)具備良好的系統(tǒng)擴(kuò)展性與靈活性
通過搜索系統(tǒng)的建立,將對(duì)各類管理信息提供統(tǒng)一的檢索。同時(shí),能夠靈活擴(kuò)展,快速、簡(jiǎn)便地與各類新數(shù)據(jù)源系統(tǒng)進(jìn)行檢索集成。
(6)搜索結(jié)果集的相關(guān)性排序
平臺(tái)支持將檢索結(jié)果按相關(guān)度排序后交付給用戶,以適應(yīng)不同應(yīng)用。
(7)支持搜索結(jié)果的個(gè)性化定制和動(dòng)態(tài)更新
搜索系統(tǒng)可以根據(jù)用戶個(gè)人的需要進(jìn)行個(gè)性化定制搜索。
(8)結(jié)合權(quán)限進(jìn)行采集和搜索
搜索引擎在應(yīng)用平臺(tái)上的技術(shù)架構(gòu)總體上可以劃分為門戶、數(shù)據(jù)同步、語言處理、業(yè)務(wù)處理、系統(tǒng)調(diào)度、搜索服務(wù)、數(shù)據(jù)反饋、統(tǒng)計(jì)分析、運(yùn)營(yíng)維護(hù)、系統(tǒng)管理等十大模塊,各模塊之間在功能上相對(duì)獨(dú)立,業(yè)務(wù)上又相互聯(lián)系相互支撐,共同協(xié)作從而實(shí)現(xiàn)了搜索引擎應(yīng)用平臺(tái)的整體服務(wù)架構(gòu)。基于對(duì)業(yè)務(wù)需求的分析,搜索系統(tǒng)的技術(shù)架構(gòu)如圖1所示。
門戶模塊主要涵蓋了門戶、對(duì)外接口服務(wù)、對(duì)內(nèi)接口服務(wù)、第三方開發(fā)接口、API等功能。
數(shù)據(jù)同步模塊支持OA數(shù)據(jù)、關(guān)系形數(shù)據(jù)、文檔形數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)爬取、論壇數(shù)據(jù)、知識(shí)庫等多種數(shù)據(jù)形式。該模塊是搜索引擎平臺(tái)數(shù)據(jù)獲取模塊,通過數(shù)據(jù)同步將其他業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)作為數(shù)據(jù)源提供給搜索引擎應(yīng)用平臺(tái)。
語言處理模塊:主要功能包括分詞、糾錯(cuò)、轉(zhuǎn)換、擴(kuò)展及詞庫學(xué)習(xí)等。
業(yè)務(wù)處理模塊:主要提供對(duì)搜索請(qǐng)求及業(yè)務(wù)數(shù)據(jù)的處理,包括搜索任務(wù)封裝、結(jié)果過濾、數(shù)據(jù)關(guān)聯(lián)、編審支撐、缺失計(jì)算、數(shù)據(jù)排重等功能。
系統(tǒng)調(diào)度模塊:提供了負(fù)載均衡、分布緩存、任務(wù)分配、數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)備份、任務(wù)監(jiān)控等功能,主要負(fù)責(zé)將用戶的查詢?nèi)蝿?wù)進(jìn)行分析、搜索結(jié)果進(jìn)行緩存,并監(jiān)控管理整個(gè)搜索周期。
搜索引擎模塊:提供數(shù)據(jù)索引的創(chuàng)建和管理、分布式存儲(chǔ)、任務(wù)處理、語義分析、數(shù)據(jù)分類、搜索、排序、監(jiān)控及日志等功能。
數(shù)據(jù)反饋模塊:提供搜索結(jié)果封裝、異常反饋、提示詞接口、搜索接口、開發(fā)接口及接口封裝等功能。通過統(tǒng)一的數(shù)據(jù)模型,將搜索結(jié)果反饋給各接口的服務(wù)的調(diào)用者,使得接口間關(guān)系限于數(shù)據(jù)耦合,降低了邏輯耦合的可能性。
圖1 收索引擎技術(shù)架構(gòu)圖
統(tǒng)計(jì)分析模塊:包括熱詞統(tǒng)計(jì)、趨勢(shì)統(tǒng)計(jì)、訪問量統(tǒng)計(jì)、業(yè)務(wù)統(tǒng)計(jì)、排行榜、性能統(tǒng)計(jì)等。主要提供搜索應(yīng)用平臺(tái)各項(xiàng)數(shù)據(jù)的統(tǒng)計(jì)分析服務(wù)。
運(yùn)營(yíng)維護(hù)模塊:包括詞庫管理、排序管理、數(shù)據(jù)管理、同步管理、過濾管理、抓取管理等。主要提供運(yùn)營(yíng)業(yè)務(wù)系統(tǒng)的管理和配置服務(wù)。
系統(tǒng)管理模塊:包括接口管理、權(quán)限管理、日志管理、安全管理、備份管理等。主要提供系統(tǒng)的基本管理及安全審計(jì)服務(wù)。
綜上所述,搜索引擎技術(shù)在移動(dòng)終端智能化和互聯(lián)網(wǎng)用戶個(gè)性化以及社交化為中心的融合趨勢(shì)下的發(fā)展,催生了很多新型應(yīng)用。搜索引擎技術(shù)的發(fā)展直接推動(dòng)了互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)+應(yīng)用的擴(kuò)展,伴隨著管理信息系統(tǒng)和業(yè)務(wù)應(yīng)用系統(tǒng)的互聯(lián)網(wǎng)化,搜索引擎技術(shù)將廣泛地應(yīng)用于管理信息系統(tǒng)和業(yè)務(wù)應(yīng)用系統(tǒng)中。本文結(jié)合搜索引擎在管理信息系統(tǒng)中的應(yīng)用給大家提供了一個(gè)實(shí)用方案,可供參考。