• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      加權(quán)映射匹配方法的站內(nèi)搜索引擎設(shè)計(jì)

      2016-05-09 07:07:32江文龍趙逢禹
      關(guān)鍵詞:發(fā)布者時(shí)間

      江文龍 趙逢禹 陳 章

      加權(quán)映射匹配方法的站內(nèi)搜索引擎設(shè)計(jì)

      江文龍 趙逢禹 陳 章

      (上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院 上海 200093)

      通用搜索引擎與網(wǎng)站提供的站內(nèi)搜索機(jī)制都無(wú)法實(shí)現(xiàn)基于內(nèi)容的企業(yè)網(wǎng)站信息查找。在分析企業(yè)網(wǎng)站信息的類(lèi)型后,針對(duì)該問(wèn)題提出一個(gè)通用站內(nèi)搜索引擎架構(gòu)。給出該引擎的設(shè)計(jì)思想,介紹對(duì)象映射匹配方法、加權(quán)對(duì)象相似度計(jì)算算法、索引構(gòu)建等實(shí)現(xiàn)技術(shù)。實(shí)現(xiàn)基于網(wǎng)頁(yè)內(nèi)容、Word與pdf附件內(nèi)容的查找定位。實(shí)驗(yàn)結(jié)果顯示,該方法具有很高的查準(zhǔn)率和查全率。該引擎可為企業(yè)網(wǎng)站的內(nèi)容搜索與個(gè)性化服務(wù)提供支持。

      站內(nèi)搜索 對(duì)象映射 附件內(nèi)容 對(duì)象相似度

      0 引 言

      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與廣泛應(yīng)用,網(wǎng)站信息的增長(zhǎng)和傳播速度也越來(lái)越快,網(wǎng)站的差異化發(fā)展與特色服務(wù)需求也就更加強(qiáng)烈。事實(shí)上很多網(wǎng)站在特色信息采集方面都相當(dāng)成功,但由于缺少?gòu)?qiáng)有效的站內(nèi)搜索引擎用戶(hù)卻只會(huì)看首頁(yè)或相關(guān)欄目的第一頁(yè)。長(zhǎng)期積累的高價(jià)值信息被沉積在數(shù)據(jù)庫(kù)的底部,信息資源被等同于新聞了。

      目前企業(yè)內(nèi)的站內(nèi)搜索大多為基于數(shù)據(jù)庫(kù)數(shù)據(jù),用戶(hù)可以搜索到符合標(biāo)題、正文等條件的內(nèi)容,但是對(duì)于存在頁(yè)面中附件里的文本內(nèi)容,當(dāng)前站內(nèi)搜索引擎是達(dá)不到的。例如,用戶(hù)若想查找一份企業(yè)網(wǎng)站中以附件的形式存在于頁(yè)面中的文件,要想獲得文件的內(nèi)容,用戶(hù)只能通過(guò)逐個(gè)頁(yè)面查找候選文件。然后下載、打開(kāi)、閱讀查看以確定是否是所需文件,由于這種查找方法效率低,查找過(guò)程會(huì)使用戶(hù)有受挫感。而實(shí)際上,即使像百度、Google等大型通用搜索引擎,它們也主要是針對(duì)于整個(gè)因特網(wǎng)中的靜態(tài)頁(yè)面內(nèi)容,無(wú)法解決查找附件內(nèi)容的問(wèn)題。因此,構(gòu)建一個(gè)滿(mǎn)足用戶(hù)對(duì)于企業(yè)網(wǎng)站內(nèi)部信息完全查找的引擎是十分必要的。

      快速、精確、智能和人性化的站內(nèi)搜索引擎越來(lái)越得到用戶(hù)的青睞。探索和應(yīng)用高效的站內(nèi)搜索技術(shù)將有助于提升網(wǎng)站的價(jià)值, 發(fā)揮網(wǎng)站應(yīng)有的作用[1]。在許多電子商務(wù)網(wǎng)站中,采用了個(gè)性化定制以及消息推送技術(shù),這一技術(shù)也可以應(yīng)用到其他類(lèi)型企業(yè)組織網(wǎng)站中,建立一個(gè)能對(duì)企業(yè)內(nèi)部網(wǎng)站信息深度搜索的站內(nèi)搜索引擎是實(shí)現(xiàn)個(gè)性化及消息推送的基礎(chǔ)。由于企業(yè)網(wǎng)站信息通常會(huì)包括文字、圖片、音頻、視頻、附件文檔等不同形式的信息類(lèi)型,網(wǎng)站的實(shí)現(xiàn)技術(shù)、信息組織各不相同,有些企業(yè)的網(wǎng)站甚至有很多個(gè)下屬網(wǎng)站,因而開(kāi)發(fā)一個(gè)通用的站內(nèi)搜索引擎以滿(mǎn)足用戶(hù)對(duì)站點(diǎn)內(nèi)容的查找是十分困難的。

      本文分析了站內(nèi)信息類(lèi)型、信息組織,給出了對(duì)于網(wǎng)站內(nèi)全部?jī)?nèi)容查找的站內(nèi)搜索引擎架構(gòu)。運(yùn)用Heritrix爬蟲(chóng)程序獲取指定企業(yè)網(wǎng)站資源信息,然后構(gòu)建資源文件源對(duì)象(包括靜態(tài)網(wǎng)頁(yè)、動(dòng)態(tài)網(wǎng)頁(yè)以及附件內(nèi)容),解析資源文件,建立相關(guān)索引。

      然后通過(guò)擴(kuò)展查詢(xún)條件構(gòu)建目標(biāo)對(duì)象,采用加權(quán)的映射匹配方法對(duì)源對(duì)象和目標(biāo)對(duì)象進(jìn)行關(guān)系匹配與相似度計(jì)算,找出所有相似度大于給定閾值的網(wǎng)頁(yè)源對(duì)象,并對(duì)結(jié)果根據(jù)權(quán)重分配進(jìn)行相關(guān)排序呈現(xiàn)給用戶(hù)。

      1 相關(guān)工作

      站內(nèi)搜索通常是指在一個(gè)網(wǎng)站范圍內(nèi),對(duì)網(wǎng)站中內(nèi)容的搜索。這里的網(wǎng)站范圍是一個(gè)邏輯邊界,如果企業(yè)組織有很多子網(wǎng)站,子網(wǎng)站之間是相互獨(dú)立的,但由于同屬于一個(gè)企業(yè)組織,企業(yè)組織內(nèi)部資源信息是可以共享的。該網(wǎng)站的范圍就包括所有的子網(wǎng)站,可把對(duì)各個(gè)子網(wǎng)站的搜索也歸為該企業(yè)組織的站內(nèi)搜索。在形式上站內(nèi)搜索包括兩個(gè)要件:搜索入口和搜索結(jié)果頁(yè)面,但是其后臺(tái)搜索引擎是比較復(fù)雜的。

      為了提高站內(nèi)搜索引擎的精確率,文獻(xiàn)[2]中提出了根據(jù)企業(yè)用戶(hù)具有行業(yè)背景穩(wěn)定的特點(diǎn),提取出一些用戶(hù)背景信息。設(shè)計(jì)出了通過(guò)用戶(hù)的背景信息和查詢(xún)歷史記錄等條件共同來(lái)改善用戶(hù)所要查詢(xún)的結(jié)果。提高與用戶(hù)查詢(xún)條件的匹配度和搜索結(jié)果的準(zhǔn)確度,但是只是針對(duì)于企業(yè)網(wǎng)站的靜態(tài)頁(yè)面進(jìn)行檢索匹配,對(duì)網(wǎng)頁(yè)中的附件內(nèi)容并沒(méi)有涉及。

      文獻(xiàn)[3]中提出了基于語(yǔ)義的搜索引擎的實(shí)現(xiàn)。通過(guò)OWL結(jié)合本體構(gòu)建工具Protégé構(gòu)建特定領(lǐng)域知識(shí)的本體,對(duì)查詢(xún)條件與構(gòu)建的本體進(jìn)行匹配,查找出與匹配的本體相關(guān)度高的內(nèi)容,從而達(dá)到較高精確率和召回率的目的。但此舉耗費(fèi)資源太大,特定領(lǐng)域知識(shí)的本體構(gòu)建需要該領(lǐng)域的專(zhuān)家進(jìn)行采集和建立,可見(jiàn)開(kāi)銷(xiāo)很大,并且本體數(shù)量不多。

      文獻(xiàn)[4]中提出了一個(gè)自動(dòng)查詢(xún)擴(kuò)展方法,通過(guò)擴(kuò)展用戶(hù)請(qǐng)求使其用自然語(yǔ)言來(lái)表示。在知識(shí)本體的形成過(guò)程中用這種方法對(duì)數(shù)據(jù)庫(kù)查詢(xún)進(jìn)行了合適并且相關(guān)的擴(kuò)展。這種方法卻并沒(méi)有針對(duì)于網(wǎng)頁(yè)中其他類(lèi)型文件的處理,如附件文本。不能實(shí)現(xiàn)基于到附件里面的內(nèi)容。

      在企業(yè)的個(gè)性化搜索中,文獻(xiàn)[5]提出了一個(gè)對(duì)海量數(shù)字作品信息的搜索引擎,為用戶(hù)提供對(duì)海量數(shù)字作品信息的快速、準(zhǔn)確的搜索服務(wù)。文獻(xiàn)[6]提出了在電子商務(wù)中通過(guò)對(duì)傳統(tǒng)商品搜索算法的改進(jìn),引入模糊系統(tǒng)和文本匹配算法,使得在顧客搜索商品時(shí),不僅顯示精確匹配的商品而且可以提供與其要求相似的商品供其參考。這些對(duì)于企業(yè)內(nèi)的個(gè)性化搜索有著很重要的參考價(jià)值。

      2 搜索引擎架構(gòu)

      2.1 站內(nèi)信息分類(lèi)

      每個(gè)網(wǎng)站都有不同形式的信息,如靜態(tài)頁(yè)面內(nèi)容、動(dòng)態(tài)頁(yè)面內(nèi)容、圖片、音頻、視頻、可供下載的各種類(lèi)型的文件等。用戶(hù)想要查找的東西可能在加載后的頁(yè)面內(nèi)容中,可能是在圖片、視頻以及各種類(lèi)型附件文件中。因而對(duì)全站點(diǎn)內(nèi)容查找需要根據(jù)不同的信息,構(gòu)建不同的搜索方法,這也是為什么當(dāng)前的站內(nèi)搜索大多僅搜索頁(yè)面內(nèi)容的原因。

      基于網(wǎng)絡(luò)爬蟲(chóng)頁(yè)面抓取技術(shù),站內(nèi)搜索已經(jīng)能夠?qū)崿F(xiàn)對(duì)靜態(tài)頁(yè)面內(nèi)容的搜索;動(dòng)態(tài)頁(yè)面內(nèi)容通過(guò)基于數(shù)據(jù)庫(kù)設(shè)計(jì)的站內(nèi)搜索引擎也能達(dá)到;站內(nèi)搜索的困難在于用戶(hù)對(duì)網(wǎng)頁(yè)附件(word文檔、pdf文檔、圖片、音頻、視頻)中基于內(nèi)容查找的問(wèn)題。這里把研究的重點(diǎn)集中在對(duì)靜態(tài)頁(yè)面,動(dòng)態(tài)頁(yè)面以及附件文檔(word、pdf、excel等文檔)內(nèi)容搜索三個(gè)方面。對(duì)于圖片、音頻、視頻等附件的搜索方法將在后續(xù)的研究中逐步完成。

      2.2 引擎設(shè)計(jì)

      站內(nèi)搜索引擎首先對(duì)企業(yè)網(wǎng)站結(jié)構(gòu)進(jìn)行分析,利用爬蟲(chóng)軟件對(duì)企業(yè)網(wǎng)站資源文件進(jìn)行獲取,包括所有網(wǎng)頁(yè)和附件文檔。然后將獲取的資源文件解析成文本,構(gòu)建源對(duì)象。利用Lucene分詞技術(shù)對(duì)解析后的文本內(nèi)容分詞,根據(jù)標(biāo)題、關(guān)鍵句、主體內(nèi)容等屬性分別建立索引。當(dāng)用戶(hù)查詢(xún)時(shí),通過(guò)擴(kuò)展查詢(xún)條件構(gòu)建目標(biāo)對(duì)象,通過(guò)檢索器查找索引庫(kù)與源對(duì)象進(jìn)行匹配并計(jì)算對(duì)象相似度,基于對(duì)象相似度的結(jié)果對(duì)相似的源對(duì)象進(jìn)行排序呈現(xiàn)給用戶(hù)。

      基于以上思想,本文提出的搜索引擎框架如圖1所示。圖1中主要包括搜索器、索引器、檢索器、用戶(hù)接口四大部分。

      圖1 搜索引擎框架

      搜索器:通過(guò)擴(kuò)展Heritrix對(duì)指定網(wǎng)站進(jìn)行資源獲取,信息搜集。

      索引器:對(duì)靜態(tài)、動(dòng)態(tài)網(wǎng)頁(yè)及附件內(nèi)容等分別用相關(guān)的解析技術(shù)解析,構(gòu)建源對(duì)象,對(duì)解析后的內(nèi)容分詞并建立索引;對(duì)音頻、視頻、圖片等提取特征值,建立索引。

      檢索器:目標(biāo)對(duì)象和源對(duì)象進(jìn)行加權(quán)的相似度匹配,根據(jù)相似度值決定輸出結(jié)果并對(duì)結(jié)果進(jìn)行排序。

      用戶(hù)接口:接納用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供個(gè)性化查詢(xún)項(xiàng)。

      2.3 信息抓取設(shè)計(jì)

      通過(guò)對(duì)Heritrix進(jìn)行擴(kuò)展實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)與附件文檔的抓取。Heritrix 是一個(gè)純由Java 開(kāi)發(fā)的、開(kāi)源的Web 網(wǎng)絡(luò)爬蟲(chóng),用戶(hù)可以使用它從網(wǎng)絡(luò)上抓取想要的資源。Heritrix 最出色之處在于開(kāi)發(fā)者可以在現(xiàn)有的框架基礎(chǔ)上對(duì)各個(gè)組件進(jìn)行擴(kuò)展,實(shí)現(xiàn)自己需要的抓取邏輯[7]。抓取步驟如下:

      1) 編寫(xiě)一個(gè)正則表達(dá)式用來(lái)描述所有想要獲取的鏈接,這里可以描述為包含企業(yè)組織域名下的所有鏈接。

      2) 重寫(xiě)Heritrix中抓取鏈接的schedule()方法,對(duì)待抓取鏈接用上述正則表達(dá)式進(jìn)行匹配,若待抓取鏈接滿(mǎn)足條件則加入待抓取隊(duì)列中,否則跳過(guò)該鏈接。

      通過(guò)Heritrix獲得相關(guān)網(wǎng)頁(yè)及附件文件等資源文件后,再使用Lucene分詞技術(shù)對(duì)資源文件進(jìn)行解析。

      2.4 索引器和檢索器設(shè)計(jì)

      2.4.1 映射匹配思想

      為了實(shí)現(xiàn)在獲得較高的查準(zhǔn)率時(shí)還能有高的查全率,檢索時(shí)采取了一種映射匹配的方法,對(duì)構(gòu)建的源對(duì)象和目標(biāo)對(duì)象進(jìn)行加權(quán)的相似度匹配。通常用戶(hù)想要查找的信息來(lái)自于標(biāo)題或者關(guān)鍵詞的重要性要大于來(lái)自于正文的,因此給不同的元數(shù)據(jù)屬性賦予不同的權(quán)值,標(biāo)題、關(guān)鍵詞信息的權(quán)重大于正文信息的權(quán)重,結(jié)合權(quán)重進(jìn)行對(duì)象的相似度匹配。

      定義1 對(duì)象 對(duì)象是描述網(wǎng)頁(yè)和附件內(nèi)容的,用作映射匹配的結(jié)構(gòu)。對(duì)象={<類(lèi)名>,,[<{屬性名},{屬性值}>]};屬性名=標(biāo)題|關(guān)鍵詞|時(shí)間|發(fā)布者|主體內(nèi)容;屬性值=屬性名提取的值集合。

      圖2 Document結(jié)構(gòu)圖

      把網(wǎng)頁(yè)的Title、附件文檔的文件名作為類(lèi)名;提取網(wǎng)頁(yè)、附件文檔對(duì)應(yīng)的路徑地址作為URI;從網(wǎng)站中提取網(wǎng)頁(yè)和附件文檔的元數(shù)據(jù)屬性,主要有標(biāo)題、關(guān)鍵詞、時(shí)間、發(fā)布者、主體內(nèi)容等作為屬性名集合;根據(jù)屬性名分別提取出對(duì)應(yīng)的屬性值作為屬性值集合;因而利用Lucene構(gòu)建的用以存儲(chǔ)對(duì)象的Document結(jié)構(gòu)如圖2所示。本文中的源對(duì)象和目標(biāo)對(duì)象就是通過(guò)該Document結(jié)構(gòu)構(gòu)建的。

      定義2 映射匹配 映射匹配是指源對(duì)象和根據(jù)搜索參數(shù)構(gòu)建的目標(biāo)對(duì)象之間的映射關(guān)系,即為這兩個(gè)對(duì)象中的各個(gè)元素(類(lèi)名、屬性名或者關(guān)系)建立相應(yīng)的語(yǔ)義關(guān)系。

      給定一個(gè)對(duì)象,用P表示其屬性名集合,P={p1,p2,…,pm},pi∈(1,…,m)是對(duì)象包含的屬性。?pi∈P,都有屬性值vi。則屬性值的集合V={v1,v2,…,vm}。

      定義3 相似度map(P1→P2) 源對(duì)象P1與目標(biāo)對(duì)象P2的相似度是指源對(duì)象和目標(biāo)對(duì)象在多個(gè)屬性上的值存在包含關(guān)系。即P2的值集合V2={v1,v2,…,vm}和P1值集合V1={v1,v2,…,vn}(m≤n)有多個(gè)vm∈vn(m=1,2,…,m;n=1,2,…,n)。根據(jù)兩個(gè)對(duì)象相似度值s0與給定的閾值s進(jìn)行比較,若s0≥s,則判定P1與P2相似,否則判定為不相似。

      算法 加權(quán)的對(duì)象相似度計(jì)算

      輸入:源對(duì)象P1,目標(biāo)對(duì)象P2

      輸出:相似度值s

      while(p2.hasNext())

      //遍歷p2

      {

      key=p2.getItem();

      //獲取p2屬性key

      value=p2.getValue(key);

      //根據(jù)key獲取p2屬性值

      while(p1.hasNext())

      //遍歷p1

      {

      key1=p1.getItem();

      //獲取p1屬性key

      value1=p1.getValue(key1);

      //根據(jù)key1獲取p1屬性值

      if(value1包含value)

      //判斷p2的屬性值是否是p1的子集

      {

      weight=getWeight(key)

      //獲取p1中指定key的權(quán)值

      s=s+1*weight;

      //加權(quán)統(tǒng)計(jì)相似度

      }

      }

      }

      圖3是設(shè)計(jì)出的引擎映射結(jié)構(gòu)。索引模塊根據(jù)源對(duì)象結(jié)構(gòu)建立索引;索引庫(kù)中存儲(chǔ)各類(lèi)索引,具體結(jié)構(gòu)在2.4.3節(jié)有詳細(xì)介紹;檢索模塊構(gòu)建目標(biāo)對(duì)象,匹配模塊采用前文提出的映射匹配方法使目標(biāo)對(duì)象與源對(duì)象進(jìn)行匹配;排列模塊收集搜索結(jié)果,對(duì)結(jié)果排序。

      圖3 引擎映射結(jié)構(gòu)

      2.4.2 信息解析

      在Heritrix獲取到所有的資源文件后,接下來(lái)提取資源文件的元數(shù)據(jù),包括標(biāo)題、關(guān)鍵詞、時(shí)間、發(fā)布者、主體內(nèi)容等。對(duì)于網(wǎng)頁(yè)內(nèi)容,為了減少網(wǎng)頁(yè)噪音,使用HtmlParser和正則表達(dá)式結(jié)合的方式進(jìn)行解析。利用正則表達(dá)式對(duì)網(wǎng)頁(yè)中所有的html標(biāo)簽進(jìn)行了去除。把去除后的網(wǎng)頁(yè)主體內(nèi)容進(jìn)行了保存。既提高了解析效率又精確地提取了網(wǎng)頁(yè)信息。對(duì)于附件內(nèi)容,不同類(lèi)型的附件需要采用不同的解析器進(jìn)行解析。提取附件文件的名稱(chēng)、標(biāo)題、關(guān)鍵詞、內(nèi)容等信息,并保存所屬頁(yè)面的關(guān)系。

      2.4.3 分詞及索引建立

      圖4是索引的架構(gòu),該架構(gòu)將解析好的網(wǎng)頁(yè)文件和所有附件文件根據(jù)分詞詞典進(jìn)行分詞,再利用Lucene建立索引。

      圖4 索引結(jié)構(gòu)

      當(dāng)前Lucene有多個(gè)中文分詞器,如StandardAnalyzer、ChineseAnalyze、CJKAnalyzer、IK_CAnalyzer、MMAnalyzer。由于IK_CAnalyzer的分詞切割得比較完全并且更貼近語(yǔ)義,因而采用IK_CAnalyzer分詞器。此外,建立了一個(gè)分詞詞典。初始詞匯包含該企業(yè)的一些特有詞匯(如企業(yè)組織名稱(chēng)、部門(mén)名稱(chēng)、產(chǎn)品名稱(chēng)等)。并且,掃描解析后的附件文檔,提取出文檔中“關(guān)鍵詞”后的詞匯加入到詞典中。在分詞的時(shí)候先掃描分詞詞典,以詞典中的詞匯為基準(zhǔn)進(jìn)行分詞,其余的用分詞器固有的分詞方法分詞。 這樣,分詞就可以比較好地適用于指定企業(yè)組織內(nèi)部,達(dá)到一個(gè)比較高的準(zhǔn)確率。分詞完畢后再對(duì)所有信息建立索引。至此,索引就建立完畢,接下來(lái)是建立檢索器和查詢(xún)結(jié)果的排序。

      2.5 檢索與排序

      檢索器是根據(jù)用戶(hù)輸入關(guān)鍵詞,在索引器進(jìn)行查找,并且采用算法進(jìn)行對(duì)結(jié)果的最終排序。首先對(duì)用戶(hù)輸入的查詢(xún)條件進(jìn)行擴(kuò)展,構(gòu)造出目標(biāo)對(duì)象,通過(guò)檢索器與源對(duì)象進(jìn)行匹配。根據(jù)前文敘述的加權(quán)相似度計(jì)算方法找出相似度大于給定閾值的所有源對(duì)象,將所有符合條件的結(jié)果放入TopScoreDocColletor收集器中。遍歷結(jié)果集取出結(jié)果,對(duì)含有關(guān)鍵字的部分使用Highlighter類(lèi)進(jìn)行高亮結(jié)果處理,然后再呈現(xiàn)給用戶(hù)。

      3 實(shí)驗(yàn)結(jié)果與分析

      基于上述的理論分析,在實(shí)驗(yàn)環(huán)境為JDK1.7、Tomcat6.0、SqlServer 2008、Myeclipse 10、Win 7操作系統(tǒng),采用Heritrix-1.14.4對(duì)某單位網(wǎng)站進(jìn)行了抓取結(jié)合Lucene-4.7和Struts2建立了站內(nèi)搜索引擎并進(jìn)行相關(guān)實(shí)驗(yàn)。分別對(duì)通用搜索引擎和參考文獻(xiàn)中部分搜索引擎從以下兩方面進(jìn)行實(shí)驗(yàn):1)用戶(hù)輸入該網(wǎng)站內(nèi)頁(yè)面內(nèi)容信息進(jìn)行檢索、測(cè)試;2)用戶(hù)輸入該網(wǎng)站中存在于附件中的內(nèi)容進(jìn)行檢索、測(cè)試。

      1) 和通用搜索引擎的對(duì)比

      實(shí)驗(yàn)過(guò)程中讓用戶(hù)在本搜索引擎與通用搜索引擎中隨機(jī)輸入50組關(guān)鍵字,分別搜索存在于頁(yè)面內(nèi)容中的信息和存在于附件中的信息并對(duì)搜索結(jié)果進(jìn)行對(duì)比。圖5給出了頁(yè)面內(nèi)容查準(zhǔn)率的對(duì)比,圖6給出了查全率的對(duì)比。

      圖5 頁(yè)面內(nèi)容查準(zhǔn)率對(duì)比 圖6 頁(yè)面內(nèi)容查全率對(duì)比

      對(duì)于附件文本內(nèi)容,通用搜索引擎都不能達(dá)到這個(gè)深度,因而沒(méi)有對(duì)應(yīng)結(jié)果。圖7給出了附件內(nèi)容搜索的查準(zhǔn)率對(duì)比。圖8給出了附件內(nèi)容的查全率對(duì)比。

      圖7 附件內(nèi)容查準(zhǔn)率對(duì)比 圖8 附件內(nèi)容查全率對(duì)比

      從圖5-圖8的對(duì)比結(jié)果可以看出,本文設(shè)計(jì)出的站內(nèi)搜索引擎無(wú)論是在對(duì)于頁(yè)面內(nèi)容的搜索還是附件文本內(nèi)容的搜索都有著比通用搜索引擎更高的查全率和查準(zhǔn)率。

      2) 和參考文獻(xiàn)中搜索引擎對(duì)比

      同樣,實(shí)驗(yàn)過(guò)程中讓用戶(hù)在本搜索引擎與部分參考文獻(xiàn)中搜索引擎中隨機(jī)輸入50組關(guān)鍵字,分別搜索存在于頁(yè)面內(nèi)容中的信息和存在于附件中的信息并對(duì)搜索結(jié)果進(jìn)行對(duì)比。這里選取了與文獻(xiàn)[2]和文獻(xiàn)[5]中設(shè)計(jì)的搜索引擎進(jìn)行對(duì)比,如表1所示。

      表1 查全率查準(zhǔn)率對(duì)比表

      表中每個(gè)引擎的第一行為查全率,第二行為查準(zhǔn)率。從表中不難總結(jié)出,本文的搜索引擎在頁(yè)面內(nèi)容的查全率和查準(zhǔn)率上與部分參考文獻(xiàn)中設(shè)計(jì)的搜索引擎基本持平。但是參考文獻(xiàn)中設(shè)計(jì)的搜索引擎都沒(méi)有針對(duì)網(wǎng)站的附件內(nèi)容,因而在附件內(nèi)容的搜索上本文的搜索引擎占有著絕對(duì)的優(yōu)勢(shì)。

      4 結(jié) 語(yǔ)

      目前站內(nèi)搜索和通用搜索引擎不支持對(duì)附件文本的檢索。為解決這一問(wèn)題,本文提出了一個(gè)站內(nèi)搜索引擎,基于Lucene和網(wǎng)絡(luò)爬蟲(chóng)技術(shù),采用了加權(quán)映射匹配的方法很好的解決了在用戶(hù)面臨數(shù)據(jù)量越來(lái)越大時(shí)對(duì)附件文檔內(nèi)容查找難的問(wèn)題,大大提高了搜索的準(zhǔn)確率和召回率。但仍然有一些問(wèn)題沒(méi)有解決,如對(duì)圖片、音頻、視頻等附件的查找涉及到的相關(guān)處理技術(shù)問(wèn)題還沒(méi)有解決,將在下一步的工作中進(jìn)行研究實(shí)現(xiàn)。

      [1] 劉俊熙,龍怡.站內(nèi)搜索是下一個(gè)網(wǎng)絡(luò)信息資源檢索的最佳點(diǎn)——網(wǎng)絡(luò)、行業(yè)和站內(nèi)搜索的技術(shù)分析[J].現(xiàn)代情報(bào),2008(4):135-137.

      [2] 王兆宇,樂(lè)嘉錦.基于Lucene的個(gè)性化站內(nèi)搜索引擎的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(12):188-190,223.

      [3] Sowmya Kamath S,Divya Piravi Perumal.A Semantic Search Engine for Answering Domain Specific User Queries[C]//International conference on Communication and Signal Processing,2013:1097-1101.

      [4] Latiri C,Haddad H,Hamrouni T.Towards an effective automatic query expansion process using an association rule mining approach[J].Journal of Intelligent Information Systems,2012,39(1):209-247.

      [5] 吳潔明,韓云輝,冀單單.基于Lucene的數(shù)字作品搜索引擎的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與科學(xué),2013(5):166-171.

      [6] 陳明晶,姚建榮,唐志豪.電子商務(wù)系統(tǒng)的商品搜索算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2006(3):213-215.

      [7] 張敏,孫敏.基于Heritrix限定爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(4):33-35,80.

      [8] Pirro G,Talia D.An approach to Ontology Mapping based on the Lucene search engine library[C]//Database and Expert Systems Applications,2007.DEXA’07.18th International Workshop on.IEEE,2007:407-411.

      [9] Bireshwar Ganguly,Devashri Raich.Performance Optimization of Focused Web Crawling Using Content Block Segmentation[C]//International Conference on Electronic Systems,Signal Processing and Computing Technologies,2014:365-370.

      [10] Shanmugapriya,K Latha.Measuring Semantic Similarity Using Web Search Engine[C]//International Conference on Advanced Nanomaterials & Emerging Engineering Technologies,2013:639-644.

      SITE SEARCH ENGINE DESIGN WITH WEIGHTED MAPPING METHOD

      Jiang Wenlong Zhao Fengyu Chen Zhang

      (SchoolofOptica1-ElectricalandComputerEngineering,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)

      Neither the general search engine nor the site search mechanism provided by websites is able to achieve the content-based search of corporate websites information. After analysing the types of corporate websites information, we proposed a general site search engine architecture for this problem. Apart from discussing the design ideas of the engine, we also introduced the implementation techniques including the objects mapping and matching method, the algorithm of weighted objects similarity calculation, and the indexes construction, etc. The engine implements the search and positioning based on website contents and the attachment contents of Word and pdf. Experimental results showed that the search engine had high accuracy and recall rate. The engine could also serve the supports to content search and personalised services for corporate websites.

      Site search Objects mapping Attachment content Object similarity

      2014-09-12。江文龍,碩士,主研領(lǐng)域:搜索引擎,互聯(lián)網(wǎng)應(yīng)用。趙逢禹,教授。陳章,講師。

      TP319

      A

      10.3969/j.issn.1000-386x.2016.04.022

      猜你喜歡
      發(fā)布者時(shí)間
      基于LDA主題模型的格調(diào)挖掘
      電腦與電信(2018年5期)2018-07-25 06:13:32
      基于NDN的高效發(fā)布/訂閱系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      廣告發(fā)布者的著作權(quán)審查義務(wù)問(wèn)題研究
      Spatial—Temporal Metaphor of“qian/hou”in Chinese and English
      時(shí)間與空間:新聞采訪中無(wú)聲的語(yǔ)言
      時(shí)間消滅空間?
      新聞界(2016年12期)2016-11-08 21:36:56
      “時(shí)間”面前人人平等
      湯姆?提克威影片的審美特征
      論虛假?gòu)V告發(fā)布者侵權(quán)責(zé)任
      uddiKey及其分配策略研究
      江安县| 周宁县| 连平县| 甘南县| 广元市| 正蓝旗| 乾安县| 双城市| 高淳县| 寿光市| 六枝特区| 凤冈县| 炉霍县| 德庆县| 盘锦市| 吉林省| 兴安盟| 横峰县| 乐清市| 辽宁省| 岚皋县| 新兴县| 游戏| 库车县| 潮安县| 元氏县| 东城区| 盖州市| 安新县| 巴南区| 阿城市| 博乐市| 涪陵区| 佛冈县| 开封市| 巫山县| 吉林省| 大名县| 公安县| 兰溪市| 清远市|