趙 鑫
(九江學(xué)院機械與材料工程學(xué)院 江西 九江 332005)
隨著計算機網(wǎng)絡(luò)技術(shù)的不斷發(fā)展和完善,傳統(tǒng)語義web搜索引擎已經(jīng)不能滿足現(xiàn)代化信息搜索的需求,并日益突顯出各種問題。例如:詞匯搜索孤島、語義表達差異、搜索匹配過于機械化等,給語義描述及信息搜索造成很大的影響。隨著語義web智能化搜索引擎的研究和開發(fā),智能化的搜索引擎將慢慢取代原有的語義搜索引擎,成為語義web新的搜索引擎技術(shù)[1]。智能化搜索引擎的出現(xiàn),為用戶提供了良好的信息檢索平臺、信息查詢平臺、信息瀏覽平臺、信息描述平臺等,優(yōu)化信息搜索及瀏覽的模式,提高了信息搜索質(zhì)量,對語義web搜索技術(shù)發(fā)展具有重要意義。
Web智能化搜索的挖掘技術(shù)主要分為三個部分,即web智能搜索結(jié)構(gòu)挖掘、web智能搜索內(nèi)容挖掘以及web智能搜索記錄挖掘。(1)web智能搜索結(jié)構(gòu)挖掘。主要是通過網(wǎng)頁中的超級鏈接來獲取智能搜索的結(jié)構(gòu)及其之間的關(guān)系。利用隱藏在網(wǎng)頁頁面中的多個超級鏈接結(jié)構(gòu)模型,并運用這些結(jié)構(gòu)模型進行web頁面的分類,即可找到其相同或者相似的網(wǎng)站地址。在網(wǎng)頁超級鏈接結(jié)構(gòu)中,可以web智能搜索結(jié)構(gòu)挖掘來進行網(wǎng)頁的分類,并結(jié)合所有網(wǎng)站及網(wǎng)頁結(jié)構(gòu),最終形成網(wǎng)站之間或者網(wǎng)頁之間的信息鏈接網(wǎng)。(2)web智能搜索內(nèi)容挖掘。主要是通過web中的文檔內(nèi)容和語義描述來獲取所需的知識信息,即對網(wǎng)頁數(shù)據(jù)信息的挖掘,其中包括信息搜索結(jié)果的挖掘和網(wǎng)頁內(nèi)容的挖掘。(3)web智能搜索記錄挖掘。主要是在計算機用戶網(wǎng)頁訪問記錄中獲取所需的信息知識,即對web訪問數(shù)據(jù)的挖掘。
傳統(tǒng)語義web搜索引擎都是運用型號較大的服務(wù)器來進行運作,并按照計算機用戶的請求來回應(yīng),但是其存在計算機用戶接口單一的缺陷,不能實現(xiàn)定制性、個性化的信息搜索結(jié)果。傳統(tǒng)語義web搜索引擎較為機械化,都是在計算機用戶提出信息搜索要求,服務(wù)器才會回應(yīng)用戶要求,沒有實現(xiàn)自動化信息搜索功能。而給予智能化搜索基礎(chǔ)的Agent技術(shù)卻能夠解決這些問題。Agent主要對計算機網(wǎng)絡(luò)環(huán)境進行靈活性運作方式,以滿足用戶對信息搜索的需求[2]。
(1)具有語義推理作用;(2)實現(xiàn)了問答式的搜索功能;(3)多樣化搜索模式的形成;(4)具有查詢條件靈活性特點。
首先,由計算機網(wǎng)絡(luò)中的爬行機器人將知識信息從網(wǎng)絡(luò)中采集出來,并將其存入語義web全文搜索引擎服務(wù)系統(tǒng)中。然后,按照文檔特殊性提取工具對從網(wǎng)頁收集回來的知識信息數(shù)據(jù)實行特殊性提取動作,被提取出來的知識信息可稱為元數(shù)據(jù)。再者,由語義本體庫應(yīng)用意義推理系統(tǒng)對網(wǎng)絡(luò)元數(shù)據(jù)進行語義上的推理,以加深對信息資源內(nèi)容的了解,并獲得語義擴展之后的特殊性數(shù)據(jù)信息。最后,對特殊性數(shù)據(jù)信息實行語義標(biāo)識,并將其存入語義搜索庫當(dāng)中。
2.3.1 全文搜索方式
全文搜索是語義web智能化搜索最常用的一種方式,主要由計算機網(wǎng)絡(luò)的分詞系統(tǒng)、搜索系統(tǒng)、查找系統(tǒng)及爬行機器人等組合而成。計算機網(wǎng)絡(luò)中的爬行機器人主要作用于網(wǎng)絡(luò)網(wǎng)頁信息采集服務(wù)器;計算機網(wǎng)絡(luò)中的分詞系統(tǒng)、搜索系統(tǒng)主要對采集回來的網(wǎng)頁信息實行分詞、標(biāo)識,并存入搜索引擎資料庫中;查找系統(tǒng)主要是為計算機用戶提供良好的接口,并根據(jù)計算機用戶輸入的搜索條件來查找,通過搜索資料庫來獲取所需的信息,并對搜索結(jié)果實行排序算法,當(dāng)信息結(jié)果排序結(jié)束后,即可反饋給計算機用戶。
2.3.2 語義擴展搜索方式
語義擴展搜索方式的實現(xiàn)可以有效的解決計算機用戶在語義搜索中出現(xiàn)的各種問題。例如:計算機用戶在進行語義搜索時,可能會出現(xiàn)搜索概念較為模糊,無法對搜索關(guān)鍵詞進行語義描述的現(xiàn)象,或者要用很多個詞語來描述才能將這個概念表達清楚。語義web智能化搜索中的語義擴展搜索方式可以解決上述所說的問題,在本體基礎(chǔ)上,自主的為計算機用戶所提出的問詞進行語義擴展,擴展的語義詞匯要比傳統(tǒng)搜索方式的準(zhǔn)確度要高。語義擴展搜索實現(xiàn)方法主要有:其一,利用計算機特有的語言學(xué)理論知識來進行語義擴展搜索。其二,利用本體中的語義推理方式來進行語義擴展搜索[3]。其三,利用本體匹配算法來進行語義擴展搜索。擴展搜索運行方式:其一,利用本體語義推理的方法,使存在元數(shù)據(jù)庫里的知識信息語義得到擴展,提高語義擴展搜索的效果。其二,優(yōu)化計算機用戶搜索條件,即對計算機用戶提出的問詞進行語義擴展和延伸,生成語義較高的搜索查找條件,并按照這個搜索條件進行查找,可以有效的提升語義搜索的準(zhǔn)確率及查全率。
2.3.3 “問答式”搜索方式
按照計算機用戶提出的問題,直接回應(yīng)計算機用戶所提出的問題,并提供相關(guān)的搜索結(jié)果。這種“問答式”的搜索方式,像是系統(tǒng)與人的溝通交流,當(dāng)計算機提出所需問題時,系統(tǒng)馬上進行回應(yīng)。
語義推理系統(tǒng)設(shè)計及實現(xiàn)目的主要體現(xiàn)在兩個方面:其一,運用語義推理系統(tǒng)來提高語義搜索的效率。其二,運用語義推理來實現(xiàn)搜索詞匯的擴展及規(guī)范化,并通過語義推理方法挖掘出其所隱含的知識信息。
語義本體構(gòu)建方式包括骨架法、TOVE法、lDEF-5方法、METH法及METHONTOLOGY法等。如TOVE法構(gòu)建步驟為:(1)本體的激發(fā);(2)非形式化的判斷;(3)規(guī)范化的術(shù)語;(4)形式化定義;(5)形式化制約;(6)本體完備性。
語義分析功能主要是利用計算機用戶提供的搜索詞匯進行語義上的擴展和分析。語義分析功能主要包括兩個部分:其一,在存在同義詞詞表的基礎(chǔ)上,利用搜索詞匯來進行同義詞的匹配。其二,利用語義擴展出同義詞的搜索詞,并與本體信息庫的本體實例和本體類別之間進行關(guān)聯(lián)性的結(jié)合,再于搜索詞匯基礎(chǔ)上進行語義標(biāo)識。最后可以獲得相關(guān)的語義搜索詞組。例如:輸入“環(huán)?!钡乃烟K詞組,并進行同義詞的擴展查詢:環(huán)保的等價詞為環(huán)境保護、Environmental protection、EPD。
語義搜索功能主要是利用語義推理器及自定義的語義推理原則對信息庫存在的知識進行語義推理,同時運用語義搜索查找中的SPARQL語言來進行語義搜索查找運作。
[1]張革伕,徐琪.基于語義Web服務(wù)的分布式服裝搜索引擎系統(tǒng)設(shè)計[J].計算機應(yīng)用,2009,23(06):67-68.
[2]王美霞.智能語義搜索引擎的探究[J].電腦知識與技術(shù),2009,12(12):90-92.
[3]崔新會,何志強.淺析基于語義web的信息檢索優(yōu)化及實現(xiàn)[J].科技致富向?qū)В?011,34(20):78-79.