• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      搜索引擎淺談

      2018-05-18 07:43:25
      信息通信技術(shù)與政策 2018年4期
      關(guān)鍵詞:搜索引擎網(wǎng)頁檢索

      1 引言

      搜索引擎的誕生源自互聯(lián)網(wǎng)最根本的用途之一:信息獲取。

      在搜索引擎出現(xiàn)之前,互聯(lián)網(wǎng)缺少入口,用戶往往需要自己記住有用的網(wǎng)站和網(wǎng)頁。為了滿足這種需求,最早的“搜索引擎”,即分類目錄瀏覽式的引擎便出現(xiàn)了,Yahoo就是其中的代表。最初只是采用把一些有用的網(wǎng)站通過分類的方式手工組織起來,便于用戶找到有用的信息。能夠手工組織也是基于早年整個(gè)互聯(lián)網(wǎng)的網(wǎng)站數(shù)量也非常少,可以通過人工方式實(shí)現(xiàn)組織。

      隨著互聯(lián)網(wǎng)的壯大,網(wǎng)頁網(wǎng)站數(shù)量越來越多,手工組織的方式變?yōu)椴豢尚?,于是由機(jī)器實(shí)現(xiàn)的全文檢索引擎便出現(xiàn)了。用戶可以通過關(guān)鍵字查詢來獲取相關(guān)的網(wǎng)頁。又隨著網(wǎng)頁數(shù)量的不斷增多,任何關(guān)鍵字查詢都會(huì)返回大量的相關(guān)網(wǎng)頁,如果對(duì)網(wǎng)頁進(jìn)行評(píng)分和排序,返回給用戶真正有價(jià)值的網(wǎng)頁便成為重點(diǎn)?;诰W(wǎng)頁之間的鏈接關(guān)系為網(wǎng)頁進(jìn)行評(píng)分,成為很多搜索引擎的網(wǎng)頁排序算法基礎(chǔ),Google的PageRank算法便是其中的代表者。

      Google也以此為基礎(chǔ)成為搜索引擎產(chǎn)品中的領(lǐng)先者,為用戶提供了更好的搜索結(jié)果相關(guān)性。現(xiàn)代搜索引擎基本上也由此基本成型,雖然后來的技術(shù)創(chuàng)新和改進(jìn)很多,但主要的思路基本上沒有變。

      搜索引擎發(fā)展到今天,基礎(chǔ)架構(gòu)和算法在技術(shù)上都已經(jīng)基本成型和成熟。搜索引擎已經(jīng)發(fā)展成為根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。

      2 搜索引擎技術(shù)

      搜索引擎所涉及和涵蓋的技術(shù)范圍非常廣,涉及到了系統(tǒng)架構(gòu)和算法設(shè)計(jì)等許多方面??梢哉f由于搜索引擎的出現(xiàn),把互聯(lián)網(wǎng)產(chǎn)品的技術(shù)水平提高到了一個(gè)新的高度;搜索引擎無論是在數(shù)據(jù)和系統(tǒng)規(guī)模,還是在算法技術(shù)的研究應(yīng)用深度上,都遠(yuǎn)超之前簡(jiǎn)單的互聯(lián)網(wǎng)產(chǎn)品。

      搜索引擎涉及的關(guān)鍵技術(shù)點(diǎn)包含:爬蟲(Crawling)、索引結(jié)構(gòu)(Inverted Index)、檢索模型(VSM & TF- IDF)、搜索排序(Relevance Ranking &Evaluation)、鏈接分析(Link Analysis)、分類(Document& Query Classification)、自然語言處理(NLP:Tokenization, Lemmatization, POS Tagging, NER, etc.)、分布式系統(tǒng)(Distributed Processing&Storage)。

      雖然搜索引擎涉及的技術(shù)方方面面,但歸結(jié)起來最關(guān)鍵的幾點(diǎn)在于:

      ●系統(tǒng):大規(guī)模分布式系統(tǒng),支撐大規(guī)模的數(shù)據(jù)處理容量和在線查詢負(fù)載。

      ●數(shù)據(jù):數(shù)據(jù)處理和挖掘能力。

      ●算法:搜索相關(guān)性排序、查詢分析、分類等。

      由此可見搜索引擎系統(tǒng)是一個(gè)由許多模塊組成的復(fù)雜系統(tǒng),核心模塊通常包括爬蟲、索引、檢索和排序,除了必需的核心模塊之外,通常還需要一些支持輔助模塊,常見的有鏈接分析、去重、反垃圾、查詢分析等。搜索引擎中各關(guān)鍵功能模塊功能簡(jiǎn)介如下:

      (1)爬蟲:從互聯(lián)網(wǎng)爬取原始網(wǎng)頁數(shù)據(jù),存儲(chǔ)于文檔知識(shí)庫服務(wù)器。

      (2)文檔知識(shí)庫服務(wù)器:存儲(chǔ)原始網(wǎng)頁數(shù)據(jù),通常是分布式Key-Value數(shù)據(jù)庫,能根據(jù)URL/UID快速獲取網(wǎng)頁內(nèi)容。

      (3)索引:讀取原始網(wǎng)頁數(shù)據(jù),解析網(wǎng)頁,抽取有效字段,生成索引數(shù)據(jù)。索引數(shù)據(jù)的生成方式通常是增量的,分塊/分片的,并會(huì)進(jìn)行索引合并、優(yōu)化和刪除。生成的索引數(shù)據(jù)通常包括:字典數(shù)據(jù)、倒排表、正排表、文檔屬性等。生成的索引存儲(chǔ)于索引服務(wù)器。

      (4)索引服務(wù)器:存儲(chǔ)索引數(shù)據(jù),主要是倒排表,通常是分塊、分片存儲(chǔ),并支持增量更新和刪除。數(shù)據(jù)內(nèi)容量非常大時(shí),還根據(jù)類別、主題、時(shí)間、網(wǎng)頁質(zhì)量劃分?jǐn)?shù)據(jù)分區(qū)和分布,更好地服務(wù)在線查詢。

      (5)檢索:讀取倒排表索引,響應(yīng)前端查詢請(qǐng)求,返回相關(guān)文檔列表數(shù)據(jù)。

      (6)排序:對(duì)檢索器返回的文檔列表進(jìn)行排序,基于文檔和查詢的相關(guān)性、文檔的鏈接權(quán)重等屬性。

      (7)鏈接分析:收集各網(wǎng)頁的鏈接數(shù)據(jù)和錨文本(Anchor Text),以此計(jì)算各網(wǎng)頁鏈接評(píng)分,最終會(huì)作為網(wǎng)頁屬性參與返回結(jié)果排序。

      (8)網(wǎng)頁去重:提取各網(wǎng)頁的相關(guān)特征屬性,計(jì)算相似網(wǎng)頁組,提供離線索引和在線查詢的去重服務(wù)。

      (9)網(wǎng)頁反垃圾:收集各網(wǎng)頁和網(wǎng)站歷史信息,提取垃圾網(wǎng)頁特征,從而對(duì)在線索引中的網(wǎng)頁進(jìn)行判定,去除垃圾網(wǎng)頁。

      (10)查詢分析:分析用戶查詢,生成結(jié)構(gòu)化查詢請(qǐng)求,指派到相應(yīng)的類別、主題數(shù)據(jù)服務(wù)器進(jìn)行查詢。

      (11)頁面描述/摘要:為檢索和排序完成的網(wǎng)頁列表提供相應(yīng)的描述和摘要。

      (12)前端:接受用戶請(qǐng)求,分發(fā)至相應(yīng)服務(wù)器,返回查詢結(jié)果。

      3 搜索引擎產(chǎn)品介紹

      搜索引擎產(chǎn)品其實(shí)包括很多種類,并不限于我們最熟悉的全網(wǎng)搜索引擎。具體包含如下幾種:

      ●全網(wǎng)搜索:包括市場(chǎng)份額最高的幾大搜索引擎巨頭,如Google、Yahoo、Bing。

      ●中文搜索:在中文搜索市場(chǎng)中,百度一家獨(dú)大,其他幾家如搜狗、搜搜、有道的市場(chǎng)份額相對(duì)還比較小。全網(wǎng)搜索和中文搜索屬于傳統(tǒng)的搜索引擎,它們經(jīng)過了十幾年的發(fā)展,目前在技術(shù)和產(chǎn)品上都已走向逐漸穩(wěn)定和成熟,通用搜索的市場(chǎng)也基本進(jìn)入飽和,不像早些年一直呈現(xiàn)高增長(zhǎng)率。

      ●垂直搜索:傳統(tǒng)搜索引擎穩(wěn)定成熟的同時(shí),在各個(gè)垂直領(lǐng)域,也出現(xiàn)了很多和產(chǎn)品結(jié)合得很好的垂直搜索產(chǎn)品,比如淘寶的購物搜索、大眾點(diǎn)評(píng)的美食搜索、去哪兒和酷訊的旅游搜索等,也都在各自領(lǐng)域占據(jù)了相當(dāng)大的市場(chǎng),成為除了通用搜索引擎之外的重要的用戶入口。

      ●問答搜索:專注于為問句式提供有效的答案,比如Ask.com;其他的如問答社區(qū)像Quora和國(guó)內(nèi)的知乎,應(yīng)該也會(huì)往這方面發(fā)展。

      ●知識(shí)搜索:典型代表就是WolframAlpha,區(qū)別于提供搜索結(jié)果列表,它會(huì)針對(duì)查詢提供更詳細(xì)的整合信息。

      ●云搜索平臺(tái):為其他產(chǎn)品和應(yīng)用提供搜索服務(wù)托管平臺(tái)(SaaS或是PaaS),Amazon剛剛推出它的CloudSearch,IndexTank在被Linkedin收購之前也是做這項(xiàng)服務(wù)的。

      ●其他:比如DuckDuckGo,主打隱私保護(hù),也有部分用戶買賬。

      各種搜索產(chǎn)品在各自領(lǐng)域都需要解決特定的技術(shù)和業(yè)務(wù)問題,所以也可以建立相對(duì)通用搜索的優(yōu)勢(shì),來得到自己的市場(chǎng)和用戶。在開源領(lǐng)域,各種開源產(chǎn)品和解決方案也逐漸發(fā)展成熟,通用搜索技術(shù)不再為大公司所專有,中小企業(yè)能夠以較低的成本實(shí)現(xiàn)自己的搜索應(yīng)用。現(xiàn)在搜索引擎產(chǎn)品之間的競(jìng)爭(zhēng)更多的在數(shù)據(jù)、應(yīng)用方式和產(chǎn)品形態(tài)上,在系統(tǒng)架構(gòu)和基本算法上區(qū)分并不大。

      搜索引擎在未來發(fā)展上,一是搜索將不僅僅以獨(dú)立產(chǎn)品的形式出現(xiàn),更多的會(huì)作為搜索功能整合到更多的產(chǎn)品和應(yīng)用中。在產(chǎn)品形態(tài)上,基于傳統(tǒng)的搜索引擎,會(huì)演化出像推薦引擎、知識(shí)引擎、決策引擎等形式的產(chǎn)品,更好地滿足和服務(wù)用戶需求。而搜索引擎所涉及和發(fā)展起來的各種技術(shù),會(huì)更廣泛地應(yīng)用到各種其他產(chǎn)品上,比如自然語言處理、推薦和廣告、數(shù)據(jù)挖掘等。

      總之,搜索引擎對(duì)互聯(lián)網(wǎng)技術(shù)和產(chǎn)品帶來的影響是巨大的,未來也仍將有很大的發(fā)展和應(yīng)用空間。

      4 搜索引擎未來發(fā)展的趨勢(shì)

      搜索引擎的快速發(fā)展就是近15年發(fā)生的,這與互聯(lián)網(wǎng)的發(fā)展趨勢(shì)密切相關(guān)。最近幾年,互聯(lián)網(wǎng)在經(jīng)過了Web2.0的市場(chǎng)培育階段后,迎來了以互聯(lián)網(wǎng)用戶的個(gè)性化和社交化為中心的趨勢(shì)。同時(shí),移動(dòng)設(shè)備的逐漸流行及兩大趨勢(shì)的融合,催生了很多新型應(yīng)用,為了迎接和順應(yīng)這種趨勢(shì),對(duì)搜索引擎來說,也產(chǎn)生了新的挑戰(zhàn)。

      (1)社會(huì)化搜索

      隨著Facebook的流行,社交網(wǎng)絡(luò)平臺(tái)和應(yīng)用占據(jù)了互聯(lián)網(wǎng)的主流,社交網(wǎng)絡(luò)平臺(tái)強(qiáng)調(diào)用戶之間的聯(lián)系和交互,這對(duì)傳統(tǒng)的搜索技術(shù)提出了新的挑戰(zhàn)。

      傳統(tǒng)搜索技術(shù)強(qiáng)調(diào)搜索結(jié)果和用戶需求的相關(guān)性,社會(huì)化搜索除了相關(guān)性外,還額外增加了一個(gè)維度,即搜索結(jié)果的可信賴性。對(duì)某個(gè)搜索結(jié)果,傳統(tǒng)的結(jié)果可能成千上萬,但如果處于用戶社交網(wǎng)絡(luò)內(nèi)其他用戶發(fā)布的信息、點(diǎn)評(píng)或驗(yàn)證過的信息則更容易信賴,這是與用戶的心里密切相關(guān)的。社會(huì)化搜索為用戶提供更準(zhǔn)確、更值得信任的搜索結(jié)果。

      國(guó)外的Dogpile等元搜索引擎能夠得到發(fā)展和壯大,主要得益于國(guó)外傳統(tǒng)搜索過多,并且企業(yè)實(shí)現(xiàn)共贏的理念,但在國(guó)人思考的是如何把所有資源都掌握在自己手中,百度、Google、Yahoo是不會(huì)看著自己在未來發(fā)展中落伍,成為跟潮人,現(xiàn)在這幾家都在不斷豐富自己的產(chǎn)品線,并且觸及社會(huì)化搜索,來保證自己在這個(gè)行業(yè)中的地位。

      (2)實(shí)時(shí)搜索

      隨著微博的個(gè)人媒體平臺(tái)興起,對(duì)搜索引擎的實(shí)時(shí)性要求日益增高,我想這也是搜索引擎未來的一個(gè)發(fā)展方向。

      實(shí)時(shí)搜索最突出的特點(diǎn)是時(shí)效性強(qiáng),越來越多的突發(fā)事件首次發(fā)布在微博上,實(shí)時(shí)搜索核心強(qiáng)調(diào)的就是“快”,用戶發(fā)布的信息第一時(shí)間能被搜索引擎搜索到。

      不過在國(guó)內(nèi),實(shí)時(shí)搜索由于各方面的原因無法普及使用,比如Google的實(shí)時(shí)搜索是被重置的,百度也沒有明顯的實(shí)時(shí)搜索入口。

      (3)移動(dòng)搜索

      隨著智能手機(jī)的快速發(fā)展,基于手機(jī)的移動(dòng)設(shè)備搜索日益流行,但移動(dòng)設(shè)備有很大的局限性,比如屏幕太小,可顯示的區(qū)域不多,計(jì)算資源能力有限,打開網(wǎng)頁速度很慢,手機(jī)輸入繁瑣等問題都需要解決。

      目前,隨著智能手機(jī)的快速普及,移動(dòng)搜索一定會(huì)更加快速的發(fā)展,所以移動(dòng)搜索的市場(chǎng)占有率會(huì)逐步上升,而對(duì)于沒有移動(dòng)版的網(wǎng)站來說,百度也提供了“百度移動(dòng)開放平臺(tái)”來彌補(bǔ)這個(gè)缺失。

      (4)個(gè)性化搜索

      個(gè)性化搜索主要面臨兩個(gè)問題:如何建立用戶的個(gè)人興趣模型?在搜索引擎里如何使用這種個(gè)人興趣模型?

      個(gè)性化搜索的核心是根據(jù)用戶的網(wǎng)絡(luò)行為,建立一套準(zhǔn)確的個(gè)人興趣模型。而建立這樣一套模型,就要全民收集與用戶相關(guān)的信息,包括用戶搜索歷史、點(diǎn)擊記錄、瀏覽過的網(wǎng)頁、用戶E-mail信息、收藏夾信息、用戶發(fā)布過的信息、博客、微博等內(nèi)容。比較常見的是從這些信息中提取出關(guān)鍵詞及其權(quán)重。

      為不同用戶提供個(gè)性化的搜索結(jié)果,是搜索引擎總的發(fā)展趨勢(shì),但現(xiàn)有技術(shù)有很多問題,比如個(gè)人隱私的泄露,而且用戶的興趣會(huì)不斷變化,太依賴歷史信息,可能無法反映用戶的興趣變化。

      (5)地理位置感知搜索

      目前,很多手機(jī)已經(jīng)有GPS的應(yīng)用了,這是基于地理位置感知的搜索,而且可以通過陀螺儀等設(shè)備感知用戶的朝向,基于這種信息,可以為用戶提供準(zhǔn)確的地理位置服務(wù)以及相關(guān)搜索服務(wù)。目前,此類應(yīng)用已經(jīng)大行其道,比如手機(jī)地圖APP。

      (6)跨語言搜索

      這方面做得最好的是Google,Google目前已經(jīng)能提供多種語言之間的跨語言搜索,比如搜索“麻省理工”,排在第一位的則是麻省理工學(xué)院的主頁。

      如何將中文的用戶查詢翻譯為英文查詢,目前主流的方法有3種:機(jī)器翻譯、雙語詞典查詢和雙語語料挖掘。對(duì)于一個(gè)全球性的搜索引擎來說,具備跨語言搜索功能是必然的發(fā)展趨勢(shì),而其基本的技術(shù)路線一般會(huì)采用查詢翻譯加上網(wǎng)頁的機(jī)器翻譯這兩種技術(shù)手段。

      (7)多媒體搜索

      目前,搜索引擎的查詢還是基于文字的,即使是圖片和視頻搜索也是基于文本方式。那么未來的多媒體搜索技術(shù)則會(huì)彌補(bǔ)查詢這一缺失。多媒體形式除了文字,主要包括圖片、音頻、視頻。

      多媒體搜索比純文本搜索要復(fù)雜許多,一般多媒體搜索包含4個(gè)主要步驟:多媒體特征提取、多媒體數(shù)據(jù)流分割、多媒體數(shù)據(jù)分類和多媒體數(shù)據(jù)搜索引擎。

      例如圖片搜索,一般的步驟為:第一步,縮小尺寸;第二步,簡(jiǎn)化色彩;第三步,計(jì)算平均值;第四步,比較像素的灰度;第五步,計(jì)算哈希值(詳情可參見Google圖片搜索的原理一文)。

      (8)情境搜索

      情境搜索是融合了多項(xiàng)技術(shù)的產(chǎn)品,上面介紹的社會(huì)化搜索、個(gè)性化搜索、地點(diǎn)感知搜索等都是支持情境搜索的,目前Google在大力提倡這一概念。

      所謂情境搜索,就是能夠感知人與人所處的環(huán)境,針對(duì)“此時(shí)此地此人”來建立模型,試圖理解用戶查詢的目的,根本目標(biāo)還是要理解人的信息需求。比如某個(gè)用戶在蘋果專賣店附近發(fā)出“蘋果”這個(gè)搜索請(qǐng)求,基于地點(diǎn)感知及用戶的個(gè)性化模型,搜索引擎就有可能認(rèn)為這個(gè)查詢是針對(duì)蘋果公司的產(chǎn)品,而非對(duì)水果的需求。

      5 搜索引擎在應(yīng)用系統(tǒng)中的應(yīng)用現(xiàn)狀

      伴隨應(yīng)用系統(tǒng)(例如OA系統(tǒng))的規(guī)模正在不斷擴(kuò)大,在互聯(lián)網(wǎng)上得到了成熟穩(wěn)定發(fā)展的搜索引擎技術(shù)可以大大提高應(yīng)用系統(tǒng)的辦公使用效率。

      5.1 重點(diǎn)關(guān)注的功能需求

      搜索引擎在管理信息系統(tǒng)中的部署關(guān)注以下幾點(diǎn)的功能需求:

      ●通過整合多種數(shù)據(jù)源,提供統(tǒng)一的搜索服務(wù),達(dá)到促進(jìn)廣泛的信息交流和知識(shí)共享的目的,實(shí)現(xiàn)跨系統(tǒng)、平臺(tái)、應(yīng)用、地域之間以及互聯(lián)網(wǎng)信息的整合。

      ●提供統(tǒng)一、安全的信息檢索接口系統(tǒng),為所有結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)提供標(biāo)準(zhǔn)的數(shù)據(jù)源輸出接口功能。

      ●處理各種類型的文檔,并實(shí)現(xiàn)全文檢索。

      ●保證信息檢索的迅速、準(zhǔn)確,提供高并發(fā)率的處理能力。

      ●系統(tǒng)提供關(guān)鍵的維護(hù)、管理、控制和監(jiān)測(cè)功能,采用統(tǒng)一的方式,通過集中監(jiān)控管理模塊與所有搜索服務(wù)進(jìn)行通訊;同時(shí),提供圖形化的管理界面,使系統(tǒng)管理員能夠?qū)λ心K(或服務(wù))進(jìn)行本地或遠(yuǎn)程管理操作。

      ●系統(tǒng)支持負(fù)載均衡和高可用性,支持建立分布式的內(nèi)部數(shù)據(jù)索引,并實(shí)現(xiàn)對(duì)搜索服務(wù)器的集群化部署,支持水平靈活擴(kuò)展。

      5.2 建議包含的主要功能

      搜索系統(tǒng)將提供高效率的搜索功能,用戶通過在單一搜索界面上的操作,可以在最短時(shí)間內(nèi),完整、準(zhǔn)確、及時(shí)地得到所需信息。建議主要包括以下功能:

      (1)提供信息的全文檢索

      檢索范圍除各類文件、信息等的要素、關(guān)鍵字以外,提供包括文件正文內(nèi)容和附件內(nèi)容在內(nèi)的全文檢索功能,以滿足用戶對(duì)文件檢索的要求。

      (2)支持各類文件格式

      支持HTML、PDF、ASCIIText、XML、MSOffice格式(Word、PowerPoint、Excel)、壓縮文件格式(Zip、Gzip、Tar)等格式的檢索。

      (3)兼容各類數(shù)據(jù)源系統(tǒng)

      可以采集、處理和索引的信息系統(tǒng)包括:網(wǎng)站(HTML、J2EE、ASP、NET、PHP)、文件系統(tǒng)(Windows、Linux、Unix)、數(shù)據(jù)庫(Oracle、SQL Server、DB2、Sybase、MySQL)、公文流轉(zhuǎn)和郵件系統(tǒng)、門戶系統(tǒng)等,以保證增加和更新的文檔能夠及時(shí)地被搜索到,刪除的文檔及時(shí)地從索引平臺(tái)中去除。增量索引支持可調(diào)度模式。增量索引時(shí),應(yīng)不影響搜索。

      (4)減少檢索功能對(duì)各系統(tǒng)的影響

      搜索系統(tǒng)與各系統(tǒng)采用松耦合的集成方式,選擇在非工作時(shí)間更新數(shù)據(jù)庫索引,從而避免在文件、信息生成時(shí)同步數(shù)據(jù)各系統(tǒng)帶來不利影響。

      (5)具備良好的系統(tǒng)擴(kuò)展性與靈活性

      通過搜索系統(tǒng)的建立,將對(duì)各類管理信息提供統(tǒng)一的檢索。同時(shí),能夠靈活擴(kuò)展,快速、簡(jiǎn)便地與各類新數(shù)據(jù)源系統(tǒng)進(jìn)行檢索集成。

      (6)搜索結(jié)果集的相關(guān)性排序

      平臺(tái)支持將檢索結(jié)果按相關(guān)度排序后交付給用戶,以適應(yīng)不同應(yīng)用。

      (7)支持搜索結(jié)果的個(gè)性化定制和動(dòng)態(tài)更新

      搜索系統(tǒng)可以根據(jù)用戶個(gè)人的需要進(jìn)行個(gè)性化定制搜索。

      (8)結(jié)合權(quán)限進(jìn)行采集和搜索

      5.3 搜索引擎在應(yīng)用平臺(tái)中的技術(shù)架構(gòu)

      搜索引擎在應(yīng)用平臺(tái)上的技術(shù)架構(gòu)總體上可以劃分為門戶、數(shù)據(jù)同步、語言處理、業(yè)務(wù)處理、系統(tǒng)調(diào)度、搜索服務(wù)、數(shù)據(jù)反饋、統(tǒng)計(jì)分析、運(yùn)營(yíng)維護(hù)、系統(tǒng)管理等十大模塊,各模塊之間在功能上相對(duì)獨(dú)立,業(yè)務(wù)上又相互聯(lián)系相互支撐,共同協(xié)作從而實(shí)現(xiàn)了搜索引擎應(yīng)用平臺(tái)的整體服務(wù)架構(gòu)。基于對(duì)業(yè)務(wù)需求的分析,搜索系統(tǒng)的技術(shù)架構(gòu)如圖1所示。

      門戶模塊主要涵蓋了門戶、對(duì)外接口服務(wù)、對(duì)內(nèi)接口服務(wù)、第三方開發(fā)接口、API等功能。

      數(shù)據(jù)同步模塊支持OA數(shù)據(jù)、關(guān)系形數(shù)據(jù)、文檔形數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)爬取、論壇數(shù)據(jù)、知識(shí)庫等多種數(shù)據(jù)形式。該模塊是搜索引擎平臺(tái)數(shù)據(jù)獲取模塊,通過數(shù)據(jù)同步將其他業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)作為數(shù)據(jù)源提供給搜索引擎應(yīng)用平臺(tái)。

      語言處理模塊:主要功能包括分詞、糾錯(cuò)、轉(zhuǎn)換、擴(kuò)展及詞庫學(xué)習(xí)等。

      業(yè)務(wù)處理模塊:主要提供對(duì)搜索請(qǐng)求及業(yè)務(wù)數(shù)據(jù)的處理,包括搜索任務(wù)封裝、結(jié)果過濾、數(shù)據(jù)關(guān)聯(lián)、編審支撐、缺失計(jì)算、數(shù)據(jù)排重等功能。

      系統(tǒng)調(diào)度模塊:提供了負(fù)載均衡、分布緩存、任務(wù)分配、數(shù)據(jù)分析、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)備份、任務(wù)監(jiān)控等功能,主要負(fù)責(zé)將用戶的查詢?nèi)蝿?wù)進(jìn)行分析、搜索結(jié)果進(jìn)行緩存,并監(jiān)控管理整個(gè)搜索周期。

      搜索引擎模塊:提供數(shù)據(jù)索引的創(chuàng)建和管理、分布式存儲(chǔ)、任務(wù)處理、語義分析、數(shù)據(jù)分類、搜索、排序、監(jiān)控及日志等功能。

      數(shù)據(jù)反饋模塊:提供搜索結(jié)果封裝、異常反饋、提示詞接口、搜索接口、開發(fā)接口及接口封裝等功能。通過統(tǒng)一的數(shù)據(jù)模型,將搜索結(jié)果反饋給各接口的服務(wù)的調(diào)用者,使得接口間關(guān)系限于數(shù)據(jù)耦合,降低了邏輯耦合的可能性。

      圖1 收索引擎技術(shù)架構(gòu)圖

      統(tǒng)計(jì)分析模塊:包括熱詞統(tǒng)計(jì)、趨勢(shì)統(tǒng)計(jì)、訪問量統(tǒng)計(jì)、業(yè)務(wù)統(tǒng)計(jì)、排行榜、性能統(tǒng)計(jì)等。主要提供搜索應(yīng)用平臺(tái)各項(xiàng)數(shù)據(jù)的統(tǒng)計(jì)分析服務(wù)。

      運(yùn)營(yíng)維護(hù)模塊:包括詞庫管理、排序管理、數(shù)據(jù)管理、同步管理、過濾管理、抓取管理等。主要提供運(yùn)營(yíng)業(yè)務(wù)系統(tǒng)的管理和配置服務(wù)。

      系統(tǒng)管理模塊:包括接口管理、權(quán)限管理、日志管理、安全管理、備份管理等。主要提供系統(tǒng)的基本管理及安全審計(jì)服務(wù)。

      6 結(jié)束語

      綜上所述,搜索引擎技術(shù)在移動(dòng)終端智能化和互聯(lián)網(wǎng)用戶個(gè)性化以及社交化為中心的融合趨勢(shì)下的發(fā)展,催生了很多新型應(yīng)用。搜索引擎技術(shù)的發(fā)展直接推動(dòng)了互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)+應(yīng)用的擴(kuò)展,伴隨著管理信息系統(tǒng)和業(yè)務(wù)應(yīng)用系統(tǒng)的互聯(lián)網(wǎng)化,搜索引擎技術(shù)將廣泛地應(yīng)用于管理信息系統(tǒng)和業(yè)務(wù)應(yīng)用系統(tǒng)中。本文結(jié)合搜索引擎在管理信息系統(tǒng)中的應(yīng)用給大家提供了一個(gè)實(shí)用方案,可供參考。

      猜你喜歡
      搜索引擎網(wǎng)頁檢索
      2019年第4-6期便捷檢索目錄
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      廣告主與搜索引擎的雙向博弈分析
      國(guó)際標(biāo)準(zhǔn)檢索
      曲靖市| 玛纳斯县| 陆良县| 高青县| 柳河县| 牡丹江市| 共和县| 浠水县| 卫辉市| 陈巴尔虎旗| 南安市| 麦盖提县| 旬阳县| 阳信县| 台东市| 柯坪县| 泾阳县| 嫩江县| 南丹县| 顺平县| 长汀县| 凤冈县| 二手房| 凌海市| 密山市| 泗水县| 阳春市| 称多县| 五寨县| 萝北县| 含山县| 濮阳县| 泰和县| 铅山县| 内乡县| 黎川县| 枣庄市| 亳州市| 芒康县| 永州市| 东阿县|