• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談web信息抽取

      2010-08-15 00:49:59
      大眾科技 2010年4期
      關鍵詞:評測結(jié)構(gòu)化網(wǎng)頁

      李 斌

      (中國醫(yī)科大學附屬第一醫(yī)院,遼寧 沈陽110001)

      淺談web信息抽取

      李 斌

      (中國醫(yī)科大學附屬第一醫(yī)院,遼寧 沈陽110001)

      文章闡述了web信息抽取的定義、抽取過程、Web信息抽取方法的分類,并指明了web信息抽取的應用領域和發(fā)展方向。

      web信息抽?。蛔匀徽Z言;包裝器;web查詢;抽取對象

      隨著Internet的迅猛發(fā)展,Web已經(jīng)成為一個巨大的信息源。曾幾何時,人們開始習慣于使用網(wǎng)絡搜索引擎來查找自己所需要的有用信息,但隨著Web信息數(shù)量的快速增長,各網(wǎng)絡搜索引擎所能覆蓋的范圍比例卻逐漸減小,因此如何從Web中抽取出所需要的信息,就成為了互聯(lián)網(wǎng)信息搜索研究領域中一個重要的研究課題。

      (一)什么是web信息抽取

      Web信息抽取是指從Web頁面所包含的無結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式的Web頁面信息抽取的過程[1]。

      (二)Web信息抽取技術涉及的內(nèi)容

      因特網(wǎng)提供了一個巨大的信息源。這種信息源往往是半結(jié)構(gòu)化的,并且中間夾雜著結(jié)構(gòu)化和自由文本。網(wǎng)上的信息還是動態(tài)的,包含超鏈接,都以不同的形式出現(xiàn)。

      1.Web信息抽取的內(nèi)容一般可以分為幾個方面:

      命名實體的抽取、與模板有關的內(nèi)容信息抽取、各個實體之間關系的抽取和預置事件的信息抽取。

      信息抽取的方法主要可以分為以下兩類:一類是基于層次結(jié)構(gòu)的信息抽取歸納方法,另一類是基于概念模型的多記錄信息抽取方法。

      Web信息抽取工作主要包裝器(Wrapper)來完成[1]。包裝器是一種軟件過程,這個過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡中Web頁面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個包裝器一般針對某一種數(shù)據(jù)源中的一類頁面。包裝器運用規(guī)則執(zhí)行程序?qū)嶋H要抽取的數(shù)據(jù)源進行抽取。

      2.抽取過程一般包括以下幾個步驟[2]:

      (1)將Web網(wǎng)頁進行預處理。預處理的目的是將半結(jié)構(gòu)化HTML頁面去掉無用的信息以及對不規(guī)則的HTML標識進行修正,為下一步標記信息做準備。

      (2)用一組信息模式描述所需要抽取的信息。通常可以針對某一領域的信息特征預定義好一系列的信息模式,存放在模式庫中供用戶選用。

      (3)對文本進行合理的詞法、句法及語義分析,通常包括識別特定的名詞短語和動詞短語。

      (4)使用模式匹配方法識別指定的信息模式的各個部分。

      (5)進行上下文分析和推理,確定信息的最終形式。

      (6)將結(jié)果輸出成結(jié)構(gòu)化的描述型式以便由網(wǎng)絡集成系統(tǒng)進行查詢分析。

      (三)Web信息抽取方法的分類

      把所有網(wǎng)頁都歸入半結(jié)構(gòu)化文本是不恰當?shù)?。若能通過識別分隔符或信息點順序等固定的格式信息正確抽取出來,那么該網(wǎng)頁是結(jié)構(gòu)化的。半結(jié)構(gòu)化的網(wǎng)頁則可能包含缺失的屬性,或一個屬性有多個值,或一個屬性有多個變體等例外的情況。若需要用語言學知識才能正確抽取屬性,則該網(wǎng)頁是非結(jié)構(gòu)化的。

      網(wǎng)頁的結(jié)構(gòu)化程度總是取決于用戶想要抽取的屬性是什么。通常機器產(chǎn)生的網(wǎng)頁是非常結(jié)構(gòu)化的,手工編寫的則結(jié)構(gòu)化程度差些,當然有很多例外。

      按照Web信息抽取對象的結(jié)構(gòu)化程度,大體上可以分為三種類型:結(jié)構(gòu)化文本;自由文本;半結(jié)構(gòu)化文本。

      1.根據(jù)Web信息抽取對象劃分,可以分為三種類型:

      (1)從自由格式的文本中抽取出所需要的信息內(nèi)容。自由文本的抽取技術可分為三類:基于自然語言處理(NPL)的方式;基于規(guī)則的方式;基于統(tǒng)計學習的方式。

      (2)從半結(jié)構(gòu)化的文本中,抽取出所需要的信息內(nèi)容。

      2.根據(jù)自動化程度可以分為

      人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取三大類。

      3.根據(jù)現(xiàn)有Web信息抽取系統(tǒng)和模型實現(xiàn)原理的不同,分為以下幾類:

      (1)基于歸納學習的信息抽取[2]。通過對若干個待抽取實例網(wǎng)頁進行結(jié)構(gòu)特征學習,歸納出抽取規(guī)則,然后使用抽取規(guī)則自動分析待抽取信息在網(wǎng)頁中的結(jié)構(gòu)特征并實現(xiàn)信息抽取。采用這種原理的典型的系統(tǒng)有STALKER,SOHTMEALY,WIEN。

      (2)基于HMM(Hidden Markov Model)的信息抽取[3][4]。是最近幾年應用最廣泛的抽取知識表達模型。它是一種隨機的有限狀態(tài)自動機,由于HMM有成熟的學習算法和堅實的統(tǒng)計基礎,所以在信息抽取中是一種成功的模型。

      (3)基于特征模式匹配的信息抽取[2]。通過大量學習實例,歸納學習出待抽取信息的語法結(jié)構(gòu)模式,并根據(jù)這些模式從待抽取網(wǎng)頁中抽取出相匹配的信息,適用于復雜結(jié)構(gòu)信息的抽取。

      (4)基于網(wǎng)頁結(jié)構(gòu)特征分析的信息抽取[2]。將Web文檔轉(zhuǎn)換成反映HTML文件層次結(jié)構(gòu)的解析樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則。采用該類技術的典型系統(tǒng)有LIXTO等。

      (5)基于Ontology的Web信息抽取。本體的構(gòu)建是這類抽取的基礎與核心,如何構(gòu)造出良好的面向應用領域的Ontology對提高信息抽取的精確度有直接的影響。該方法主要是利用對數(shù)據(jù)本身的描述信息實現(xiàn)抽取,對網(wǎng)頁結(jié)構(gòu)依賴較少。由Brigham Yong University信息抽取小組開發(fā)的信息抽取工具中采用了這種方式,另外QUIXOTE也采用了這種方式。

      (6)基于自然語言處理(Natural Language Processing,NLP)。這類信息抽取主要適用于源文檔中包含大量文本的情況(特別針對于合乎文法的文本),在一定程度上借鑒了自然語言處理技術,利用子句結(jié)構(gòu)、短語和子句間的關系建立基于語法和語義的抽取規(guī)則實現(xiàn)信息抽取。目前采用這種原理的典型的系統(tǒng)有RAPIER,SRV,WNISK。

      (7)基于Web查詢的信息抽取。將Web信息抽取轉(zhuǎn)化為使用標準的Web查詢語言對Web文檔的查詢,具有通用性。采用該類技術的典型的系統(tǒng)有:Web-OQL以及自主開發(fā)的原型系統(tǒng)PQAgent。

      查看數(shù)據(jù)流(圖7)發(fā)現(xiàn),在發(fā)動機熄滅前,燃油修正值達到-40%以上;高速時燃油修正值在±5%之間,屬于正常。由于之前已確認進氣流量數(shù)據(jù)正常,因此可以基本判定發(fā)動機在低速時有額外的汽油蒸汽進入汽缸參與燃燒。接著,又對PCV閥進行檢測,也未發(fā)現(xiàn)異常,其關閉和開啟動作均正常。

      (四)國內(nèi)外Web信息抽取技術的研究和應用

      上世紀80年代以來,國內(nèi)外許多大學、公司和研究機構(gòu)對信息抽取技術展開了有計劃的、長期系統(tǒng)的研究與應用工作,取得了一些成果并有許多相關的應用。也使信息抽取研究蓬勃開展起來,這主要有兩個因素對其發(fā)展有重要的影響:一是在線和離線文本數(shù)量的幾何級增加,另一個是“消息理解研討會”(MUC,Message Understanding Conference)從1987年開始到1998年共舉行了七屆會議對該領域的關注和推動。MUC由美國國防高級研究計劃委員會(DARPA,the Defense Advanced Research Projects Agency)資助,其顯著特點并不是會議本身,而在于對信息抽取系統(tǒng)的評測。近些年來,信息抽取技術的研究與應用更為活躍。

      在研究方面,主要側(cè)重于以下幾方面:利用機器學習技術增強系統(tǒng)的可移植能力、探索深層理解技術、篇章分析技術、多語言文本處理能力、WEB信息抽取(Wrapper)以及對時間信息的處理等等。

      在應用方面,信息抽取應用的領域更加廣泛,除自成系統(tǒng)以外,還往往與其他文檔處理技術結(jié)合建立功能強大的信息服務系統(tǒng)。

      至今,已經(jīng)有不少以信息抽取技術產(chǎn)品為主的公司出現(xiàn),比較著名的有Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。

      目前,除了強烈的應用需求外,正在推動信息抽取研究進一步發(fā)展的動力主要來自美國國家標準技術研究所(NIST)組織的自動內(nèi)容抽?。ˋCE, Automatic Content Extraction)評測會議。這項評測從1999年7月開始醞釀,2000年12月正式開始啟動,從2000年到2007年已經(jīng)舉辦過好幾次評測。這項評測旨在開發(fā)自動內(nèi)容抽取技術以支持對三種不同來源(普通文本、由自動語音識別ASR得到的文本、由光學字符識別OCR得到的文本)的語言文本的自動處理,研究的主要內(nèi)容是自動抽取新聞語料中出現(xiàn)的實體、關系、事件等內(nèi)容,即對新聞語料中實體、關系、事件的識別與描述。與MUC相比,目前的ACE評測不針對某個具體的領域或場景,采用基于漏報(標準答案中有而系統(tǒng)輸出中沒有)和誤報(標準答案中沒有而系統(tǒng)輸出中有)為基礎的一套評價體系,還對系統(tǒng)跨文檔處理(Cross-document processing)能力進行評測。這一新的評測會議將把信息抽取技術研究引向新的高度。

      國內(nèi)對中文信息提取系統(tǒng)的研究起步較晚,還集中在命名實體識別方面,遵照MUC規(guī)范的完整的中文信息提取系統(tǒng)目前還處于探索階段。Intel中國研究中心在ACL-2000上演示了他們開發(fā)的一個抽取中文命名實體以及實體間關系的系統(tǒng)。在MUC-6和MUC-7上,增加了中文系統(tǒng)的評測項目,國立臺灣大學(National Taiwan University)和新加坡肯特崗數(shù)字實驗室參加了MUC-7中文命名實體識別任務的評測,測試了中文命名實體(人名、地名、時間、事件等名詞性短語)的識別,取得了與英文命名實體識別系統(tǒng)相近的性能。當然這只是對中文信息提取作了比較初步的工作,并不能真正進行中文信息提取。另外,北京大學計算語言所對中文信息提取也作了比較早的和比較系統(tǒng)的探討,承擔了兩個有關中文信息提取項目的工作,即自然科學基金項目“中文信息提取技術研究”和IBM——北大創(chuàng)新研究院項目“中文信息提取系統(tǒng)的設計與開發(fā)”。其目標是研究中文信息提取中的一些基礎性和關鍵性的問題,為開發(fā)實用的信息提取技術提供理論指導,并具體探討信息提取系統(tǒng)設計的各個環(huán)節(jié)。

      (五)研究的熱點和趨勢

      從目前的研究和應用情況看,信息抽取系統(tǒng)的性能和可移植性仍然是制約web信息抽取技術廣泛應用的兩個主要瓶頸。信息抽取的準確率,對不同語言和不同類別的文本的適應性還有待提高,在自然語言處理中的核心問題仍未完全解決,而且與國外相比,我們在信息抽取系統(tǒng)的研究上仍存在很大的差距。

      因此,以下問題將是今后Web信息抽取技術研究的熱點問題:

      1.如何提高Web信息抽取系統(tǒng)抽取范圍的全面性。

      2.如何簡化學習過程,提高自動化程度。

      3.如何提高系統(tǒng)對新網(wǎng)頁的適應性,增強系統(tǒng)對Web信息抽取的適應性。

      4.如何加強對已有抽取規(guī)則的歸納,提高系統(tǒng)的抽取效率和準確性。

      5.Web上的信息和網(wǎng)頁結(jié)構(gòu)處于不斷的更新和變化中,因此應如何感知Web信息和結(jié)構(gòu)的更新變化。

      6.目前的Web信息抽取工具一般都是通過學習之后可以對結(jié)構(gòu)相似的一類網(wǎng)頁進行抽取,因此應如何判斷結(jié)構(gòu)相似,如何提高系統(tǒng)的性能、可移植性的設計以及適應多語種的能力。

      7.在中文Web信息抽取系統(tǒng)的研究方面,應如何借鑒國外比較成熟的系統(tǒng)構(gòu)建技術,并結(jié)合漢語的特殊性,充分利用一些基礎的漢語研究成果來構(gòu)建高效、精確的中文Web信息抽取系統(tǒng)。

      (六)結(jié)束語

      Web信息抽取是目前最活躍的研究領域之一,特別是經(jīng)過最近十幾年的發(fā)展,Web信息抽取作為一種能幫助人們在海量信息中迅速找到所需信息的技術越來越受到重視。盡管目前該領域研究已經(jīng)取得了一定的進展,但仍然存在一些問題有待解決。相信隨著領域?qū)<覍eb信息抽取領域的研究的逐漸深入,難題逐漸被解決,越來越多的好技術應用到該領域,Web信息抽取技術必將得到更大的發(fā)展和更廣泛的應用。

      [1] 劉遷,焦慧,賈惠波.信息抽取技術的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計算機應用研究,2007,24(7):6-9.

      [2] 柳佳剛,劉高嵩,賀令亞,陳山.基于Web 的信息抽取技術現(xiàn)狀與發(fā)展[J].福建電腦,2007(7):48-49.

      [3] Ping Zhong; Jinlin Chen; Cook T.;“Web Information Extraction Using Generalized Hidden Markov Model”, Hot Topics in Web Systems and Technologies, 2006. HOTWEB'06. 1st IEEE Workshop on 13-14 Nov.2006 Page(s):1-8

      [4] Ping Zhong; Jinlin Chen;“A Generalized Hidden Markov Model Approach for Web Information Extraction”Web Intelligence, 2006. WI 2006. IEEE/WIC/ACM International Conference on18-22 Dec. 2006 Page(s):709-718.

      TP393.02

      A

      1008-1151(2010)04-0048-02

      2010-01-20

      李斌(1980-),男,遼寧西豐人,中國醫(yī)科大學附屬第一醫(yī)院(遼寧沈陽)信息中心助理工程師,研究方向為計算機網(wǎng)絡交換路由技術、數(shù)據(jù)倉庫等。

      猜你喜歡
      評測結(jié)構(gòu)化網(wǎng)頁
      促進知識結(jié)構(gòu)化的主題式復習初探
      次時代主機微軟XSX全方位評測(下)
      次時代主機微軟XSX全方位評測(上)
      結(jié)構(gòu)化面試方法在研究生復試中的應用
      計算機教育(2020年5期)2020-07-24 08:53:00
      攻坡新利器,TOKEN VENTOUS評測
      基于CSS的網(wǎng)頁導航欄的設計
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      Canyon Ultimate CF SLX 8.0 DI2評測
      中國自行車(2017年1期)2017-04-16 02:54:06
      網(wǎng)頁制作在英語教學中的應用
      電子測試(2015年18期)2016-01-14 01:22:58
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      扎兰屯市| 拉孜县| 淳安县| 兴文县| 阿克陶县| 酒泉市| 黄梅县| 深泽县| 丘北县| 西畴县| 界首市| 山丹县| 长岛县| 华安县| 海南省| 葫芦岛市| 铜陵市| 三原县| 凉山| 云梦县| 出国| 得荣县| 绥江县| 涞水县| 海晏县| 襄城县| 米泉市| 都安| 敖汉旗| 磴口县| 信阳市| 九龙坡区| 芮城县| 滨海县| 平谷区| 孝义市| 当涂县| 安溪县| 阿拉尔市| 靖宇县| 台安县|