林炫
摘 要
截止2016年,我國網(wǎng)絡(luò)的普及率已經(jīng)超過了百分之五十,互聯(lián)網(wǎng)上的信息爆炸性的增長,如何在海量的信息中檢索到自己需要的內(nèi)容,已經(jīng)成為互聯(lián)網(wǎng)研究的重要課題,搜索引擎技術(shù)主要擺闊搜索技術(shù)、文檔分類技術(shù)以及信息抽取技術(shù),本文將立足于搜索引擎中的信息抽取技術(shù),深入研究信息抽取技術(shù)的關(guān)鍵要點(diǎn),以供相關(guān)從業(yè)人員借鑒學(xué)習(xí)。
【關(guān)鍵詞】搜索引擎 信息抽取技術(shù) 向量空間模型
搜索引擎主要由信息標(biāo)引、信息管理分類、數(shù)據(jù)動(dòng)態(tài)跟蹤等功能組成,除此之外,搜索引擎還具有幾個(gè)必備的功能,例如站點(diǎn)索引、自然信息庫;信息橋等,為了實(shí)現(xiàn)高速、精準(zhǔn)的搜索,必須加強(qiáng)搜索引擎中信息抽取技術(shù)的研究,本文將立足于搜索引擎的功能組成,深入研究搜索引擎中信息抽取技術(shù)。
1 搜索引擎中信息抽取技術(shù)概述
1.1 搜索引擎的原理
搜索引擎的主要任務(wù)是實(shí)現(xiàn)信息的有序利用和快速定位,因此搜索引擎要具有合理的信息索引機(jī)制,才能增強(qiáng)搜索引擎的高效性,使其在最少的存量、最快的速度進(jìn)行準(zhǔn)確定位。搜索引擎的對(duì)象是互聯(lián)網(wǎng)的信息源,主要包括文本、圖片、應(yīng)用、消息、聲音、影響等媒介。每一種數(shù)據(jù)類型還包括多種子類,為了實(shí)現(xiàn)信息的快速定位,搜索引擎要具有強(qiáng)大的辨識(shí)能力,使其在海量的信息當(dāng)中,找到有用的信息,因此搜索引擎要具有信息標(biāo)識(shí)、信息管理歸類等功能。
1.2 信息抽取技術(shù)
信息抽取是將物聯(lián)網(wǎng)作為信息源的一類信息抽取,目前來說,大部分?jǐn)?shù)據(jù)都是以HTML語言描述的,并且互聯(lián)網(wǎng)的信息呈現(xiàn)爆炸性的增長,想要在如此海量的信息中,找到自己想要的內(nèi)容,是十分困難的。此外,大量的信息都缺乏語義信息,造成大量資源都無法被有效的利用,為了提高網(wǎng)絡(luò)資源的利用率,應(yīng)該極強(qiáng)搜索引擎中信息抽取技術(shù)的研究,建立完善的信息抽取系統(tǒng),從而實(shí)現(xiàn)在Web頁面中識(shí)別和定位待抽取的信息。
2 搜索引擎中信息抽取技術(shù)的關(guān)鍵要點(diǎn)
2.1 抽取規(guī)則生成方法
為了解決主題信息覆蓋率過低的問題,應(yīng)該深入的研究搜索引擎的抽取規(guī)則。目前較為主流的抽取規(guī)則生成方法有兩種,第一類為人工獲取方式,第二類為自動(dòng)學(xué)習(xí)方式。人工獲取方式是依靠人類專家,對(duì)一定量的待處理文檔進(jìn)行歸納,并總結(jié)相關(guān)信息出現(xiàn)的規(guī)律,但效果很有限,主要原因在于人類專家的生成的抽取規(guī)則,受到了個(gè)體知識(shí)水平的限制,這樣系統(tǒng)的可擴(kuò)展性也受到了限制。相比人工獲方式,自動(dòng)學(xué)習(xí)方式的自動(dòng)化程度較高,但也具有一定的人工成分,主要依靠的人工在訓(xùn)練集合中生成自動(dòng)抽取規(guī)則。
2.2 基于包裝器的信息抽取技術(shù)
包裝器是搜索引擎的一個(gè)程序,用于從信息源中抽取相關(guān)內(nèi)容,為了方便處理,包裝器還具有結(jié)構(gòu)化信息的功能,能夠?qū)π畔⑦M(jìn)行特殊處理,相關(guān)工作人員可以輸入特定的指令,從而獲取想要的信息源。包裝器一般由程序員編寫,通常由計(jì)算機(jī)程序代碼組成,具有標(biāo)準(zhǔn)化的特性,能夠在海量的信息源中找到標(biāo)注過的信息,并將這些信息返回給客戶,因此基于包裝器的信息抽取技術(shù)使用起來十分方便。相關(guān)工作人員在使用包裝器時(shí),需要注意一個(gè)問題,針對(duì)不同的網(wǎng)站編寫抽取規(guī)則十分困難,需要大量的人工資源,因此應(yīng)該將包裝器轉(zhuǎn)化為自動(dòng)生成包裝器,使其能夠適應(yīng)網(wǎng)頁結(jié)構(gòu)的變化,在最大程度上提高包裝器的適用性。
2.3 基于隱馬爾可夫模型的信息抽取技術(shù)
隱馬爾可夫模型是建立在隨機(jī)概率原理上的一種信息抽取技術(shù),在信息提取的過程中,隱馬爾可夫模型信息抽取技術(shù)能夠根據(jù)每個(gè)域出現(xiàn)的符號(hào),來對(duì)應(yīng)符號(hào)與各個(gè)域之間的關(guān)系,經(jīng)過復(fù)雜的計(jì)算來推算出信息的位置?;陔[馬爾可夫模型的信息抽取技術(shù)多用于文章頭部信息的抽取,相關(guān)工作人員只要搜索關(guān)鍵詞、標(biāo)題,就能找到自己需要的信息。由于每個(gè)域?qū)?yīng)多個(gè)狀態(tài),因此在搜索時(shí),需要細(xì)化輸出符號(hào),才能更加精確的定位信息,輸出信號(hào)越細(xì)化,信息內(nèi)容越準(zhǔn)確。
2.4 基于視覺分析的信息抽取技術(shù)
基于視覺分析的信息抽取技術(shù),能夠?qū)⒕W(wǎng)頁中視覺樣式相同或者相似的特征的信息進(jìn)行歸類,從而方便信息的抽取。這一方法主要利用了可視化技術(shù),自動(dòng)生成一些可視化的線索,在根據(jù)這些線索進(jìn)行信息提取,但這種方法只能用于簡單對(duì)象的搜索,相關(guān)工作人員在使用時(shí)應(yīng)該注意這個(gè)問題。
3 結(jié)語
綜上所述,信息抽取技術(shù)是搜索引擎最重要的組成部分,直接決定了搜索引擎的性能,因此要加強(qiáng)搜索引擎中的信息抽取技術(shù)的研究,相關(guān)工作人員應(yīng)該在工作中總結(jié)經(jīng)驗(yàn)教訓(xùn),并不斷完善信息抽取技術(shù)。
參考文獻(xiàn)
[1]鄒華軍,張愛強(qiáng),曾育星.基于網(wǎng)絡(luò)編程技術(shù)實(shí)現(xiàn)Internet上多搜索引擎信息的獲取[J].微型機(jī)與應(yīng)用,2013(09):30-32.
[2]孟紅,鐘華.基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[A].中國中文信息學(xué)會(huì)信息檢索與內(nèi)容安全專業(yè)委員會(huì).第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C].中國中文信息學(xué)會(huì)信息檢索與內(nèi)容安全專業(yè)委員會(huì),2010:5.
[3]汪波.搜索引擎與用戶:尋找技術(shù)與大眾信息的平衡點(diǎn)——記Google,Yahoo,Lycos的一次三家談[J].現(xiàn)代情報(bào),2013(03):53-54.