宇 盟 傅素英
摘要:首先對智能搜索引擎做了簡要概述.接著提出了一種新的搜索引擎的設(shè)計思路.并針對獨立搜索引擎的不足。獨立搜索引擎與元搜索引擎結(jié)合起來。提高了搜索引擎的精度和效率。
關(guān)鍵詞:智能搜索引擎元搜索引擎
中圖分類號TP311.11文獻標識碼B文章編號:1002-2422(2007)03-0037-03
1教育搜索引擎組成與原理
本搜索引擎將傳統(tǒng)專業(yè)搜索引擎和元搜索引擎結(jié)合起來,不僅提高了搜索引擎的覆蓋率,而且采用一種綜合評價算法,優(yōu)化了搜索結(jié)果的排列次序,同時根據(jù)各返回頁面的主題內(nèi)容進行聚類顯示,方便用戶檢索。該搜索引擎主要包括4個模塊:信息采集模塊、信息挖掘模塊、元搜索引擎模塊和結(jié)果排序、聚類模塊。
1.1信息挖掘模塊
該模塊對搜索器所采集的信息進行單漢字標引(即全文索引),主題概念標引,摘要自動生成及對網(wǎng)頁重要程度進行評價。單漢字標引法將概念詞拆成單漢字,以單漢字為處理單位,利用漢字索引文件實現(xiàn)自動標引和邏輯檢索。由于這種方法把對“詞”的處理改為對“字”的處理,因此就繞過了漢語分詞的難題。主題概念標引模塊對采集來的信息進行內(nèi)容特征分析,并抽取出能表達該信息主題的關(guān)鍵詞、關(guān)鍵句,為用戶提供主題概念檢索入口。
1.2元搜索引擎模塊
該模塊將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索,并將各個檢索結(jié)果與本地檢索相互印證,互相比較,可以進一步提高查全率和查準率。
1.3結(jié)果合并、排序、聚類顯示模塊
搜索引擎對檢索結(jié)果的組織性是提高系統(tǒng)運行和性能評價的關(guān)鍵技術(shù)。近年來一直是國際上搜索引擎界的研究熱點。該模塊完成獨立搜索引擎與元搜索引擎返回結(jié)果的合并、排序。并對信息進行主題概念聚類。搜索結(jié)果以聚類樹和權(quán)重順序兩種形式顯示。
2智能搜索引擎系統(tǒng)中關(guān)鍵技術(shù)的實現(xiàn)
系統(tǒng)的關(guān)鍵技術(shù)包括資源采集控制、其他獨立搜索引擎的調(diào)用接口及返回結(jié)果的排序算法。
2.1信息采集控制
信息采集是從一個初始URL集合開始,順著這些URL中的超鏈接,循環(huán)往復(fù)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。我們這個系統(tǒng)是針對教育資源領(lǐng)域的一個專業(yè)搜索引擎,如果任意選擇初始URL集合,則很可能使Robot(采集程序)偏離教育資源這一領(lǐng)域。我們發(fā)現(xiàn),Google、百度等大型綜合搜索引擎可以為我們指引初始方向:以“教育資源”、“教學(xué)資源”,“教學(xué)課件”等關(guān)鍵詞組進行搜索,就可以得到大量超鏈接。這些超鏈接組織成一個質(zhì)量較高的初始URL集合。
網(wǎng)站中不是所有的URL鏈接都是與教育、教學(xué)相關(guān)。如果Robot沿著這些無用鏈接去采集信息,不僅降低了采集效率,而且會收集到大量垃圾信息,如廣告超鏈接。因此,對信息采集進行控制。
信息挖掘模塊首先對采集到頁面進行主題分析,如果頁面主題與教育相關(guān),則通過反饋,允許Robot沿著該頁面的URL繼續(xù)采集信息:否則終止在該頁面的采集活動。
2.2其他獨立搜索引擎的調(diào)用
元搜索引擎要通過程序接口調(diào)用其他多個獨立搜索引擎,就必須要獲取到這些獨立搜索引擎的程序接口。要獲得這些程序接口很容易,觀察每個獨立搜索引擎的地址欄的變化就可以總結(jié)出它們的接口。如用http://www.baidu.com/s?lm=0&si=&m=10&ie=gb2312&ct=0&wd=電子商務(wù)%Fl&pn=l&cl=3,就可以得到百度有關(guān)“電子商務(wù)”的搜索結(jié)果,其中“pn=l”表示從第一條返回結(jié)果開始顯示。
2.3搜索結(jié)果的排序算法
最終的搜索結(jié)果包括兩部分:本地數(shù)據(jù)的檢索結(jié)果和元搜索引擎模塊獲得的搜索結(jié)果。結(jié)果排序模塊將這兩部分搜索結(jié)果合并到一起,并按每個搜索結(jié)果與用戶提問表達式的符合程度進行排序,最后顯示給用戶。搜索結(jié)果與用戶提問表達式的復(fù)合程度可以通過計算它們之間的相似度來衡量。
首先,提取提問表達式中的主題概念,把抽取出的主題概念表示成向量形式,代表提問式,如,q=(q1,w1;q2,w2;…qi;…,qn,wn),qi表示從提問式抽出的主題概念,wi表示qi的權(quán)值,這里默認為1;然后,抽取每一個搜索結(jié)果的主題概念,并用這些主題概念形成的向量代表搜索結(jié)果,如di=(c1,w1;c2,w2;…ci,wi:…cn,wn):ci表示從搜索結(jié)果中抽出的主題概念,wi表示ci的權(quán)值,可以用TF-IDF計算得到;最后,用公式1計算搜索結(jié)果向量與提問式向量之間的相似度,輸出模塊最終以相似度的大小排序輸出公式如下: