搜索引擎淺談

2018-05-18 07:43:25

信息通信技術(shù)與政策 2018年4期

1 引言

搜索引擎的誕生源自互聯(lián)網(wǎng)最根本的用途之一：信息獲取。

在搜索引擎出現(xiàn)之前，互聯(lián)網(wǎng)缺少入口，用戶往往需要自己記住有用的網(wǎng)站和網(wǎng)頁。為了滿足這種需求，最早的“搜索引擎”，即分類目錄瀏覽式的引擎便出現(xiàn)了，Yahoo就是其中的代表。最初只是采用把一些有用的網(wǎng)站通過分類的方式手工組織起來，便于用戶找到有用的信息。能夠手工組織也是基于早年整個(gè)互聯(lián)網(wǎng)的網(wǎng)站數(shù)量也非常少，可以通過人工方式實(shí)現(xiàn)組織。

隨著互聯(lián)網(wǎng)的壯大，網(wǎng)頁網(wǎng)站數(shù)量越來越多，手工組織的方式變?yōu)椴豢尚?，于是由機(jī)器實(shí)現(xiàn)的全文檢索引擎便出現(xiàn)了。用戶可以通過關(guān)鍵字查詢來獲取相關(guān)的網(wǎng)頁。又隨著網(wǎng)頁數(shù)量的不斷增多，任何關(guān)鍵字查詢都會(huì)返回大量的相關(guān)網(wǎng)頁，如果對(duì)網(wǎng)頁進(jìn)行評(píng)分和排序，返回給用戶真正有價(jià)值的網(wǎng)頁便成為重點(diǎn)?；诰W(wǎng)頁之間的鏈接關(guān)系為網(wǎng)頁進(jìn)行評(píng)分，成為很多搜索引擎的網(wǎng)頁排序算法基礎(chǔ)，Google的PageRank算法便是其中的代表者。

Google也以此為基礎(chǔ)成為搜索引擎產(chǎn)品中的領(lǐng)先者，為用戶提供了更好的搜索結(jié)果相關(guān)性。現(xiàn)代搜索引擎基本上也由此基本成型，雖然后來的技術(shù)創(chuàng)新和改進(jìn)很多，但主要的思路基本上沒有變。

搜索引擎發(fā)展到今天，基礎(chǔ)架構(gòu)和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。

2 搜索引擎技術(shù)

搜索引擎所涉及和涵蓋的技術(shù)范圍非常廣，涉及到了系統(tǒng)架構(gòu)和算法設(shè)計(jì)等許多方面?？梢哉f由于搜索引擎的出現(xiàn)，把互聯(lián)網(wǎng)產(chǎn)品的技術(shù)水平提高到了一個(gè)新的高度；搜索引擎無論是在數(shù)據(jù)和系統(tǒng)規(guī)模，還是在算法技術(shù)的研究應(yīng)用深度上，都遠(yuǎn)超之前簡(jiǎn)單的互聯(lián)網(wǎng)產(chǎn)品。

搜索引擎涉及的關(guān)鍵技術(shù)點(diǎn)包含：爬蟲（Crawling）、索引結(jié)構(gòu)（Inverted Index）、檢索模型（VSM ＆ TF- IDF）、搜索排序（Relevance Ranking ＆Evaluation）、鏈接分析（Link Analysis）、分類（Document＆ Query Classification）、自然語言處理（NLP：Tokenization, Lemmatization, POS Tagging, NER, etc.）、分布式系統(tǒng)（Distributed Processing＆Storage）。

雖然搜索引擎涉及的技術(shù)方方面面，但歸結(jié)起來最關(guān)鍵的幾點(diǎn)在于：

●系統(tǒng)：大規(guī)模分布式系統(tǒng)，支撐大規(guī)模的數(shù)據(jù)處理容量和在線查詢負(fù)載。

●數(shù)據(jù)：數(shù)據(jù)處理和挖掘能力。

●算法：搜索相關(guān)性排序、查詢分析、分類等。

由此可見搜索引擎系統(tǒng)是一個(gè)由許多模塊組成的復(fù)雜系統(tǒng)，核心模塊通常包括爬蟲、索引、檢索和排序，除了必需的核心模塊之外，通常還需要一些支持輔助模塊，常見的有鏈接分析、去重、反垃圾、查詢分析等。搜索引擎中各關(guān)鍵功能模塊功能簡(jiǎn)介如下：

（1）爬蟲：從互聯(lián)網(wǎng)爬取原始網(wǎng)頁數(shù)據(jù)，存儲(chǔ)于文檔知識(shí)庫服務(wù)器。

（2）文檔知識(shí)庫服務(wù)器：存儲(chǔ)原始網(wǎng)頁數(shù)據(jù)，通常是分布式Key-Value數(shù)據(jù)庫，能根據(jù)URL/UID快速獲取網(wǎng)頁內(nèi)容。

（3）索引：讀取原始網(wǎng)頁數(shù)據(jù)，解析網(wǎng)頁，抽取有效字段，生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的，分塊/分片的，并會(huì)進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括：字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲(chǔ)于索引服務(wù)器。

（4）索引服務(wù)器：存儲(chǔ)索引數(shù)據(jù)，主要是倒排表，通常是分塊、分片存儲(chǔ)，并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時(shí)，還根據(jù)類別、主題、時(shí)間、網(wǎng)頁質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布，更好地服務(wù)在線查詢。

（5）檢索：讀取倒排表索引，響應(yīng)前端查詢請(qǐng)求，返回相關(guān)文檔列表數(shù)據(jù)。

（6）排序：對(duì)檢索器返回的文檔列表進(jìn)行排序，基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。

（7）鏈接分析：收集各網(wǎng)頁的鏈接數(shù)據(jù)和錨文本（Anchor Text），以此計(jì)算各網(wǎng)頁鏈接評(píng)分，最終會(huì)作為網(wǎng)頁屬性參與返回結(jié)果排序。

（8）網(wǎng)頁去重：提取各網(wǎng)頁的相關(guān)特征屬性，計(jì)算相似網(wǎng)頁組，提供離線索引和在線查詢的去重服務(wù)。

（9）網(wǎng)頁反垃圾：收集各網(wǎng)頁和網(wǎng)站歷史信息，提取垃圾網(wǎng)頁特征，從而對(duì)在線索引中的網(wǎng)頁進(jìn)行判定，去除垃圾網(wǎng)頁。

（10）查詢分析：分析用戶查詢，生成結(jié)構(gòu)化查詢請(qǐng)求，指派到相應(yīng)的類別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。

（11）頁面描述/摘要：為檢索和排序完成的網(wǎng)頁列表提供相應(yīng)的描述和摘要。

（12）前端：接受用戶請(qǐng)求，分發(fā)至相應(yīng)服務(wù)器，返回查詢結(jié)果。

3 搜索引擎產(chǎn)品介紹

搜索引擎產(chǎn)品其實(shí)包括很多種類，并不限于我們最熟悉的全網(wǎng)搜索引擎。具體包含如下幾種：

●全網(wǎng)搜索：包括市場(chǎng)份額最高的幾大搜索引擎巨頭，如Google、Yahoo、Bing。

●中文搜索：在中文搜索市場(chǎng)中，百度一家獨(dú)大，其他幾家如搜狗、搜搜、有道的市場(chǎng)份額相對(duì)還比較小。全網(wǎng)搜索和中文搜索屬于傳統(tǒng)的搜索引擎，它們經(jīng)過了十幾年的發(fā)展，目前在技術(shù)和產(chǎn)品上都已走向逐漸穩(wěn)定和成熟，通用搜索的市場(chǎng)也基本進(jìn)入飽和，不像早些年一直呈現(xiàn)高增長(zhǎng)率。

●垂直搜索：傳統(tǒng)搜索引擎穩(wěn)定成熟的同時(shí)，在各個(gè)垂直領(lǐng)域，也出現(xiàn)了很多和產(chǎn)品結(jié)合得很好的垂直搜索產(chǎn)品，比如淘寶的購物搜索、大眾點(diǎn)評(píng)的美食搜索、去哪兒和酷訊的旅游搜索等，也都在各自領(lǐng)域占據(jù)了相當(dāng)大的市場(chǎng)，成為除了通用搜索引擎之外的重要的用戶入口。

●問答搜索：專注于為問句式提供有效的答案，比如Ask.com；其他的如問答社區(qū)像Quora和國(guó)內(nèi)的知乎，應(yīng)該也會(huì)往這方面發(fā)展。

●知識(shí)搜索：典型代表就是WolframAlpha，區(qū)別于提供搜索結(jié)果列表，它會(huì)針對(duì)查詢提供更詳細(xì)的整合信息。

●云搜索平臺(tái)：為其他產(chǎn)品和應(yīng)用提供搜索服務(wù)托管平臺(tái)（SaaS或是PaaS），Amazon剛剛推出它的CloudSearch，IndexTank在被Linkedin收購之前也是做這項(xiàng)服務(wù)的。

●其他：比如DuckDuckGo，主打隱私保護(hù)，也有部分用戶買賬。

各種搜索產(chǎn)品在各自領(lǐng)域都需要解決特定的技術(shù)和業(yè)務(wù)問題，所以也可以建立相對(duì)通用搜索的優(yōu)勢(shì)，來得到自己的市場(chǎng)和用戶。在開源領(lǐng)域，各種開源產(chǎn)品和解決方案也逐漸發(fā)展成熟，通用搜索技術(shù)不再為大公司所專有，中小企業(yè)能夠以較低的成本實(shí)現(xiàn)自己的搜索應(yīng)用。現(xiàn)在搜索引擎產(chǎn)品之間的競(jìng)爭(zhēng)更多的在數(shù)據(jù)、應(yīng)用方式和產(chǎn)品形態(tài)上，在系統(tǒng)架構(gòu)和基本算法上區(qū)分并不大。

搜索引擎在未來發(fā)展上，一是搜索將不僅僅以獨(dú)立產(chǎn)品的形式出現(xiàn)，更多的會(huì)作為搜索功能整合到更多的產(chǎn)品和應(yīng)用中。在產(chǎn)品形態(tài)上，基于傳統(tǒng)的搜索引擎，會(huì)演化出像推薦引擎、知識(shí)引擎、決策引擎等形式的產(chǎn)品，更好地滿足和服務(wù)用戶需求。而搜索引擎所涉及和發(fā)展起來的各種技術(shù)，會(huì)更廣泛地應(yīng)用到各種其他產(chǎn)品上，比如自然語言處理、推薦和廣告、數(shù)據(jù)挖掘等。

總之，搜索引擎對(duì)互聯(lián)網(wǎng)技術(shù)和產(chǎn)品帶來的影響是巨大的，未來也仍將有很大的發(fā)展和應(yīng)用空間。

4 搜索引擎未來發(fā)展的趨勢(shì)

搜索引擎的快速發(fā)展就是近15年發(fā)生的，這與互聯(lián)網(wǎng)的發(fā)展趨勢(shì)密切相關(guān)。最近幾年，互聯(lián)網(wǎng)在經(jīng)過了Web2.0的市場(chǎng)培育階段后，迎來了以互聯(lián)網(wǎng)用戶的個(gè)性化和社交化為中心的趨勢(shì)。同時(shí)，移動(dòng)設(shè)備的逐漸流行及兩大趨勢(shì)的融合，催生了很多新型應(yīng)用，為了迎接和順應(yīng)這種趨勢(shì)，對(duì)搜索引擎來說，也產(chǎn)生了新的挑戰(zhàn)。

（1）社會(huì)化搜索

隨著Facebook的流行，社交網(wǎng)絡(luò)平臺(tái)和應(yīng)用占據(jù)了互聯(lián)網(wǎng)的主流，社交網(wǎng)絡(luò)平臺(tái)強(qiáng)調(diào)用戶之間的聯(lián)系和交互，這對(duì)傳統(tǒng)的搜索技術(shù)提出了新的挑戰(zhàn)。

傳統(tǒng)搜索技術(shù)強(qiáng)調(diào)搜索結(jié)果和用戶需求的相關(guān)性，社會(huì)化搜索除了相關(guān)性外，還額外增加了一個(gè)維度，即搜索結(jié)果的可信賴性。對(duì)某個(gè)搜索結(jié)果，傳統(tǒng)的結(jié)果可能成千上萬，但如果處于用戶社交網(wǎng)絡(luò)內(nèi)其他用戶發(fā)布的信息、點(diǎn)評(píng)或驗(yàn)證過的信息則更容易信賴，這是與用戶的心里密切相關(guān)的。社會(huì)化搜索為用戶提供更準(zhǔn)確、更值得信任的搜索結(jié)果。

國(guó)外的Dogpile等元搜索引擎能夠得到發(fā)展和壯大，主要得益于國(guó)外傳統(tǒng)搜索過多，并且企業(yè)實(shí)現(xiàn)共贏的理念，但在國(guó)人思考的是如何把所有資源都掌握在自己手中，百度、Google、Yahoo是不會(huì)看著自己在未來發(fā)展中落伍，成為跟潮人，現(xiàn)在這幾家都在不斷豐富自己的產(chǎn)品線，并且觸及社會(huì)化搜索，來保證自己在這個(gè)行業(yè)中的地位。

（2）實(shí)時(shí)搜索

隨著微博的個(gè)人媒體平臺(tái)興起，對(duì)搜索引擎的實(shí)時(shí)性要求日益增高，我想這也是搜索引擎未來的一個(gè)發(fā)展方向。

實(shí)時(shí)搜索最突出的特點(diǎn)是時(shí)效性強(qiáng)，越來越多的突發(fā)事件首次發(fā)布在微博上，實(shí)時(shí)搜索核心強(qiáng)調(diào)的就是“快”，用戶發(fā)布的信息第一時(shí)間能被搜索引擎搜索到。

不過在國(guó)內(nèi)，實(shí)時(shí)搜索由于各方面的原因無法普及使用，比如Google的實(shí)時(shí)搜索是被重置的，百度也沒有明顯的實(shí)時(shí)搜索入口。

（3）移動(dòng)搜索

隨著智能手機(jī)的快速發(fā)展，基于手機(jī)的移動(dòng)設(shè)備搜索日益流行，但移動(dòng)設(shè)備有很大的局限性，比如屏幕太小，可顯示的區(qū)域不多，計(jì)算資源能力有限，打開網(wǎng)頁速度很慢，手機(jī)輸入繁瑣等問題都需要解決。

目前，隨著智能手機(jī)的快速普及，移動(dòng)搜索一定會(huì)更加快速的發(fā)展，所以移動(dòng)搜索的市場(chǎng)占有率會(huì)逐步上升，而對(duì)于沒有移動(dòng)版的網(wǎng)站來說，百度也提供了“百度移動(dòng)開放平臺(tái)”來彌補(bǔ)這個(gè)缺失。

（4）個(gè)性化搜索

個(gè)性化搜索主要面臨兩個(gè)問題：如何建立用戶的個(gè)人興趣模型?在搜索引擎里如何使用這種個(gè)人興趣模型?

個(gè)性化搜索的核心是根據(jù)用戶的網(wǎng)絡(luò)行為，建立一套準(zhǔn)確的個(gè)人興趣模型。而建立這樣一套模型，就要全民收集與用戶相關(guān)的信息，包括用戶搜索歷史、點(diǎn)擊記錄、瀏覽過的網(wǎng)頁、用戶E-mail信息、收藏夾信息、用戶發(fā)布過的信息、博客、微博等內(nèi)容。比較常見的是從這些信息中提取出關(guān)鍵詞及其權(quán)重。

為不同用戶提供個(gè)性化的搜索結(jié)果，是搜索引擎總的發(fā)展趨勢(shì)，但現(xiàn)有技術(shù)有很多問題，比如個(gè)人隱私的泄露，而且用戶的興趣會(huì)不斷變化，太依賴歷史信息，可能無法反映用戶的興趣變化。

（5）地理位置感知搜索

目前，很多手機(jī)已經(jīng)有GPS的應(yīng)用了，這是基于地理位置感知的搜索，而且可以通過陀螺儀等設(shè)備感知用戶的朝向，基于這種信息，可以為用戶提供準(zhǔn)確的地理位置服務(wù)以及相關(guān)搜索服務(wù)。目前，此類應(yīng)用已經(jīng)大行其道，比如手機(jī)地圖APP。

（6）跨語言搜索

這方面做得最好的是Google，Google目前已經(jīng)能提供多種語言之間的跨語言搜索，比如搜索“麻省理工”，排在第一位的則是麻省理工學(xué)院的主頁。

如何將中文的用戶查詢翻譯為英文查詢，目前主流的方法有3種：機(jī)器翻譯、雙語詞典查詢和雙語語料挖掘。對(duì)于一個(gè)全球性的搜索引擎來說，具備跨語言搜索功能是必然的發(fā)展趨勢(shì)，而其基本的技術(shù)路線一般會(huì)采用查詢翻譯加上網(wǎng)頁的機(jī)器翻譯這兩種技術(shù)手段。

（7）多媒體搜索

目前，搜索引擎的查詢還是基于文字的，即使是圖片和視頻搜索也是基于文本方式。那么未來的多媒體搜索技術(shù)則會(huì)彌補(bǔ)查詢這一缺失。多媒體形式除了文字，主要包括圖片、音頻、視頻。

多媒體搜索比純文本搜索要復(fù)雜許多，一般多媒體搜索包含4個(gè)主要步驟：多媒體特征提取、多媒體數(shù)據(jù)流分割、多媒體數(shù)據(jù)分類和多媒體數(shù)據(jù)搜索引擎。

例如圖片搜索，一般的步驟為：第一步，縮小尺寸；第二步，簡(jiǎn)化色彩；第三步，計(jì)算平均值；第四步，比較像素的灰度；第五步，計(jì)算哈希值（詳情可參見Google圖片搜索的原理一文）。

（8）情境搜索

情境搜索是融合了多項(xiàng)技術(shù)的產(chǎn)品，上面介紹的社會(huì)化搜索、個(gè)性化搜索、地點(diǎn)感知搜索等都是支持情境搜索的，目前Google在大力提倡這一概念。

所謂情境搜索，就是能夠感知人與人所處的環(huán)境，針對(duì)“此時(shí)此地此人”來建立模型，試圖理解用戶查詢的目的，根本目標(biāo)還是要理解人的信息需求。比如某個(gè)用戶在蘋果專賣店附近發(fā)出“蘋果”這個(gè)搜索請(qǐng)求，基于地點(diǎn)感知及用戶的個(gè)性化模型，搜索引擎就有可能認(rèn)為這個(gè)查詢是針對(duì)蘋果公司的產(chǎn)品，而非對(duì)水果的需求。

5 搜索引擎在應(yīng)用系統(tǒng)中的應(yīng)用現(xiàn)狀

伴隨應(yīng)用系統(tǒng)（例如OA系統(tǒng)）的規(guī)模正在不斷擴(kuò)大，在互聯(lián)網(wǎng)上得到了成熟穩(wěn)定發(fā)展的搜索引擎技術(shù)可以大大提高應(yīng)用系統(tǒng)的辦公使用效率。

5.1 重點(diǎn)關(guān)注的功能需求

搜索引擎在管理信息系統(tǒng)中的部署關(guān)注以下幾點(diǎn)的功能需求：

●通過整合多種數(shù)據(jù)源，提供統(tǒng)一的搜索服務(wù)，達(dá)到促進(jìn)廣泛的信息交流和知識(shí)共享的目的，實(shí)現(xiàn)跨系統(tǒng)、平臺(tái)、應(yīng)用、地域之間以及互聯(lián)網(wǎng)信息的整合。

●提供統(tǒng)一、安全的信息檢索接口系統(tǒng)，為所有結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)提供標(biāo)準(zhǔn)的數(shù)據(jù)源輸出接口功能。

●處理各種類型的文檔，并實(shí)現(xiàn)全文檢索。

●保證信息檢索的迅速、準(zhǔn)確，提供高并發(fā)率的處理能力。

●系統(tǒng)提供關(guān)鍵的維護(hù)、管理、控制和監(jiān)測(cè)功能，采用統(tǒng)一的方式，通過集中監(jiān)控管理模塊與所有搜索服務(wù)進(jìn)行通訊；同時(shí)，提供圖形化的管理界面，使系統(tǒng)管理員能夠?qū)λ心K（或服務(wù)）進(jìn)行本地或遠(yuǎn)程管理操作。

●系統(tǒng)支持負(fù)載均衡和高可用性，支持建立分布式的內(nèi)部數(shù)據(jù)索引，并實(shí)現(xiàn)對(duì)搜索服務(wù)器的集群化部署，支持水平靈活擴(kuò)展。

5.2 建議包含的主要功能

搜索系統(tǒng)將提供高效率的搜索功能，用戶通過在單一搜索界面上的操作，可以在最短時(shí)間內(nèi)，完整、準(zhǔn)確、及時(shí)地得到所需信息。建議主要包括以下功能：

（1）提供信息的全文檢索

檢索范圍除各類文件、信息等的要素、關(guān)鍵字以外，提供包括文件正文內(nèi)容和附件內(nèi)容在內(nèi)的全文檢索功能，以滿足用戶對(duì)文件檢索的要求。

（2）支持各類文件格式

支持HTML、PDF、ASCIIText、XML、MSOffice格式（Word、PowerPoint、Excel）、壓縮文件格式（Zip、Gzip、Tar）等格式的檢索。

（3）兼容各類數(shù)據(jù)源系統(tǒng)

可以采集、處理和索引的信息系統(tǒng)包括：網(wǎng)站（HTML、J2EE、ASP、NET、PHP）、文件系統(tǒng)（Windows、Linux、Unix）、數(shù)據(jù)庫（Oracle、SQL Server、DB2、Sybase、MySQL）、公文流轉(zhuǎn)和郵件系統(tǒng)、門戶系統(tǒng)等，以保證增加和更新的文檔能夠及時(shí)地被搜索到，刪除的文檔及時(shí)地從索引平臺(tái)中去除。增量索引支持可調(diào)度模式。增量索引時(shí)，應(yīng)不影響搜索。

（4）減少檢索功能對(duì)各系統(tǒng)的影響

搜索系統(tǒng)與各系統(tǒng)采用松耦合的集成方式，選擇在非工作時(shí)間更新數(shù)據(jù)庫索引，從而避免在文件、信息生成時(shí)同步數(shù)據(jù)各系統(tǒng)帶來不利影響。

（5）具備良好的系統(tǒng)擴(kuò)展性與靈活性

通過搜索系統(tǒng)的建立，將對(duì)各類管理信息提供統(tǒng)一的檢索。同時(shí)，能夠靈活擴(kuò)展，快速、簡(jiǎn)便地與各類新數(shù)據(jù)源系統(tǒng)進(jìn)行檢索集成。

（6）搜索結(jié)果集的相關(guān)性排序

平臺(tái)支持將檢索結(jié)果按相關(guān)度排序后交付給用戶，以適應(yīng)不同應(yīng)用。

（7）支持搜索結(jié)果的個(gè)性化定制和動(dòng)態(tài)更新

搜索系統(tǒng)可以根據(jù)用戶個(gè)人的需要進(jìn)行個(gè)性化定制搜索。

（8）結(jié)合權(quán)限進(jìn)行采集和搜索

5.3 搜索引擎在應(yīng)用平臺(tái)中的技術(shù)架構(gòu)

搜索引擎在應(yīng)用平臺(tái)上的技術(shù)架構(gòu)總體上可以劃分為門戶、數(shù)據(jù)同步、語言處理、業(yè)務(wù)處理、系統(tǒng)調(diào)度、搜索服務(wù)、數(shù)據(jù)反饋、統(tǒng)計(jì)分析、運(yùn)營(yíng)維護(hù)、系統(tǒng)管理等十大模塊，各模塊之間在功能上相對(duì)獨(dú)立，業(yè)務(wù)上又相互聯(lián)系相互支撐，共同協(xié)作從而實(shí)現(xiàn)了搜索引擎應(yīng)用平臺(tái)的整體服務(wù)架構(gòu)。基于對(duì)業(yè)務(wù)需求的分析，搜索系統(tǒng)的技術(shù)架構(gòu)如圖1所示。

門戶模塊主要涵蓋了門戶、對(duì)外接口服務(wù)、對(duì)內(nèi)接口服務(wù)、第三方開發(fā)接口、API等功能。

數(shù)據(jù)同步模塊支持OA數(shù)據(jù)、關(guān)系形數(shù)據(jù)、文檔形數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)爬取、論壇數(shù)據(jù)、知識(shí)庫等多種數(shù)據(jù)形式。該模塊是搜索引擎平臺(tái)數(shù)據(jù)獲取模塊，通過數(shù)據(jù)同步將其他業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)作為數(shù)據(jù)源提供給搜索引擎應(yīng)用平臺(tái)。

語言處理模塊：主要功能包括分詞、糾錯(cuò)、轉(zhuǎn)換、擴(kuò)展及詞庫學(xué)習(xí)等。

業(yè)務(wù)處理模塊：主要提供對(duì)搜索請(qǐng)求及業(yè)務(wù)數(shù)據(jù)的處理，包括搜索任務(wù)封裝、結(jié)果過濾、數(shù)據(jù)關(guān)聯(lián)、編審支撐、缺失計(jì)算、數(shù)據(jù)排重等功能。

系統(tǒng)調(diào)度模塊：提供了負(fù)載均衡、分布緩存、任務(wù)分配、數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)備份、任務(wù)監(jiān)控等功能，主要負(fù)責(zé)將用戶的查詢?nèi)蝿?wù)進(jìn)行分析、搜索結(jié)果進(jìn)行緩存，并監(jiān)控管理整個(gè)搜索周期。

搜索引擎模塊：提供數(shù)據(jù)索引的創(chuàng)建和管理、分布式存儲(chǔ)、任務(wù)處理、語義分析、數(shù)據(jù)分類、搜索、排序、監(jiān)控及日志等功能。

數(shù)據(jù)反饋模塊：提供搜索結(jié)果封裝、異常反饋、提示詞接口、搜索接口、開發(fā)接口及接口封裝等功能。通過統(tǒng)一的數(shù)據(jù)模型，將搜索結(jié)果反饋給各接口的服務(wù)的調(diào)用者，使得接口間關(guān)系限于數(shù)據(jù)耦合，降低了邏輯耦合的可能性。

圖1 收索引擎技術(shù)架構(gòu)圖

統(tǒng)計(jì)分析模塊：包括熱詞統(tǒng)計(jì)、趨勢(shì)統(tǒng)計(jì)、訪問量統(tǒng)計(jì)、業(yè)務(wù)統(tǒng)計(jì)、排行榜、性能統(tǒng)計(jì)等。主要提供搜索應(yīng)用平臺(tái)各項(xiàng)數(shù)據(jù)的統(tǒng)計(jì)分析服務(wù)。

運(yùn)營(yíng)維護(hù)模塊：包括詞庫管理、排序管理、數(shù)據(jù)管理、同步管理、過濾管理、抓取管理等。主要提供運(yùn)營(yíng)業(yè)務(wù)系統(tǒng)的管理和配置服務(wù)。

系統(tǒng)管理模塊：包括接口管理、權(quán)限管理、日志管理、安全管理、備份管理等。主要提供系統(tǒng)的基本管理及安全審計(jì)服務(wù)。

6 結(jié)束語

綜上所述，搜索引擎技術(shù)在移動(dòng)終端智能化和互聯(lián)網(wǎng)用戶個(gè)性化以及社交化為中心的融合趨勢(shì)下的發(fā)展，催生了很多新型應(yīng)用。搜索引擎技術(shù)的發(fā)展直接推動(dòng)了互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)+應(yīng)用的擴(kuò)展，伴隨著管理信息系統(tǒng)和業(yè)務(wù)應(yīng)用系統(tǒng)的互聯(lián)網(wǎng)化，搜索引擎技術(shù)將廣泛地應(yīng)用于管理信息系統(tǒng)和業(yè)務(wù)應(yīng)用系統(tǒng)中。本文結(jié)合搜索引擎在管理信息系統(tǒng)中的應(yīng)用給大家提供了一個(gè)實(shí)用方案，可供參考。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看