• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于教育信息資源的智能搜索引擎設(shè)計與實現(xiàn)

      2007-07-05 01:40:06傅素英
      智能計算機與應(yīng)用 2007年3期
      關(guān)鍵詞:標引搜索引擎頁面

      宇 盟 傅素英

      摘要:首先對智能搜索引擎做了簡要概述.接著提出了一種新的搜索引擎的設(shè)計思路.并針對獨立搜索引擎的不足。獨立搜索引擎與元搜索引擎結(jié)合起來。提高了搜索引擎的精度和效率。

      關(guān)鍵詞:智能搜索引擎元搜索引擎

      中圖分類號TP311.11文獻標識碼B文章編號:1002-2422(2007)03-0037-03

      1教育搜索引擎組成與原理

      本搜索引擎將傳統(tǒng)專業(yè)搜索引擎和元搜索引擎結(jié)合起來,不僅提高了搜索引擎的覆蓋率,而且采用一種綜合評價算法,優(yōu)化了搜索結(jié)果的排列次序,同時根據(jù)各返回頁面的主題內(nèi)容進行聚類顯示,方便用戶檢索。該搜索引擎主要包括4個模塊:信息采集模塊、信息挖掘模塊、元搜索引擎模塊和結(jié)果排序、聚類模塊。

      1.1信息挖掘模塊

      該模塊對搜索器所采集的信息進行單漢字標引(即全文索引),主題概念標引,摘要自動生成及對網(wǎng)頁重要程度進行評價。單漢字標引法將概念詞拆成單漢字,以單漢字為處理單位,利用漢字索引文件實現(xiàn)自動標引和邏輯檢索。由于這種方法把對“詞”的處理改為對“字”的處理,因此就繞過了漢語分詞的難題。主題概念標引模塊對采集來的信息進行內(nèi)容特征分析,并抽取出能表達該信息主題的關(guān)鍵詞、關(guān)鍵句,為用戶提供主題概念檢索入口。

      1.2元搜索引擎模塊

      該模塊將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索,并將各個檢索結(jié)果與本地檢索相互印證,互相比較,可以進一步提高查全率和查準率。

      1.3結(jié)果合并、排序、聚類顯示模塊

      搜索引擎對檢索結(jié)果的組織性是提高系統(tǒng)運行和性能評價的關(guān)鍵技術(shù)。近年來一直是國際上搜索引擎界的研究熱點。該模塊完成獨立搜索引擎與元搜索引擎返回結(jié)果的合并、排序。并對信息進行主題概念聚類。搜索結(jié)果以聚類樹和權(quán)重順序兩種形式顯示。

      2智能搜索引擎系統(tǒng)中關(guān)鍵技術(shù)的實現(xiàn)

      系統(tǒng)的關(guān)鍵技術(shù)包括資源采集控制、其他獨立搜索引擎的調(diào)用接口及返回結(jié)果的排序算法。

      2.1信息采集控制

      信息采集是從一個初始URL集合開始,順著這些URL中的超鏈接,循環(huán)往復(fù)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。我們這個系統(tǒng)是針對教育資源領(lǐng)域的一個專業(yè)搜索引擎,如果任意選擇初始URL集合,則很可能使Robot(采集程序)偏離教育資源這一領(lǐng)域。我們發(fā)現(xiàn),Google、百度等大型綜合搜索引擎可以為我們指引初始方向:以“教育資源”、“教學(xué)資源”,“教學(xué)課件”等關(guān)鍵詞組進行搜索,就可以得到大量超鏈接。這些超鏈接組織成一個質(zhì)量較高的初始URL集合。

      網(wǎng)站中不是所有的URL鏈接都是與教育、教學(xué)相關(guān)。如果Robot沿著這些無用鏈接去采集信息,不僅降低了采集效率,而且會收集到大量垃圾信息,如廣告超鏈接。因此,對信息采集進行控制。

      信息挖掘模塊首先對采集到頁面進行主題分析,如果頁面主題與教育相關(guān),則通過反饋,允許Robot沿著該頁面的URL繼續(xù)采集信息:否則終止在該頁面的采集活動。

      2.2其他獨立搜索引擎的調(diào)用

      元搜索引擎要通過程序接口調(diào)用其他多個獨立搜索引擎,就必須要獲取到這些獨立搜索引擎的程序接口。要獲得這些程序接口很容易,觀察每個獨立搜索引擎的地址欄的變化就可以總結(jié)出它們的接口。如用http://www.baidu.com/s?lm=0&si=&m=10&ie=gb2312&ct=0&wd=電子商務(wù)%Fl&pn=l&cl=3,就可以得到百度有關(guān)“電子商務(wù)”的搜索結(jié)果,其中“pn=l”表示從第一條返回結(jié)果開始顯示。

      2.3搜索結(jié)果的排序算法

      最終的搜索結(jié)果包括兩部分:本地數(shù)據(jù)的檢索結(jié)果和元搜索引擎模塊獲得的搜索結(jié)果。結(jié)果排序模塊將這兩部分搜索結(jié)果合并到一起,并按每個搜索結(jié)果與用戶提問表達式的符合程度進行排序,最后顯示給用戶。搜索結(jié)果與用戶提問表達式的復(fù)合程度可以通過計算它們之間的相似度來衡量。

      首先,提取提問表達式中的主題概念,把抽取出的主題概念表示成向量形式,代表提問式,如,q=(q1,w1;q2,w2;…qi;…,qn,wn),qi表示從提問式抽出的主題概念,wi表示qi的權(quán)值,這里默認為1;然后,抽取每一個搜索結(jié)果的主題概念,并用這些主題概念形成的向量代表搜索結(jié)果,如di=(c1,w1;c2,w2;…ci,wi:…cn,wn):ci表示從搜索結(jié)果中抽出的主題概念,wi表示ci的權(quán)值,可以用TF-IDF計算得到;最后,用公式1計算搜索結(jié)果向量與提問式向量之間的相似度,輸出模塊最終以相似度的大小排序輸出公式如下:

      猜你喜歡
      標引搜索引擎頁面
      大狗熊在睡覺
      刷新生活的頁面
      檔案主題標引與分類標引的比較分析
      本刊對來稿中關(guān)鍵詞標引的要求
      本刊對來稿中關(guān)鍵詞標引的要求
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      本刊對來稿中關(guān)鍵詞標引的要求
      同一Word文檔 縱橫頁面并存
      汉沽区| 中西区| 灵丘县| 广饶县| 萨迦县| 吉木乃县| 漯河市| 乌审旗| 中宁县| 内丘县| 郓城县| 白水县| 丹东市| 东阿县| 志丹县| 靖江市| 塘沽区| 汉寿县| 水城县| 彭水| 汝州市| 建昌县| 固始县| 泸水县| 苗栗县| 南宫市| 乌拉特后旗| 通山县| 许昌市| 西吉县| 和平区| 元氏县| 秦皇岛市| 沁水县| 故城县| 伊宁市| 鄯善县| 金昌市| 荔波县| 临清市| 廊坊市|