張興蘭 劉巖
摘要摘要:Web表格信息提取已經(jīng)成為構(gòu)建本體的重要內(nèi)容之一,它能自動(dòng)將本體所需的屬性名和屬性值提取出來(lái),節(jié)省大量人工勞動(dòng)。關(guān)于非規(guī)范化表格信息提取的研究比較少,對(duì)本體構(gòu)建造成大量信息缺失。提供一種基于啟發(fā)式規(guī)則的非規(guī)范化表格信息定位算法,其對(duì)定位非規(guī)范化表格準(zhǔn)確率較高。
關(guān)鍵詞關(guān)鍵詞:本體;非規(guī)范化表格;DOM樹(shù)
DOIDOI:10.11907/rjdk.161193
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)007001004
引言
隨著Internet的迅速發(fā)展,人類進(jìn)入了信息爆炸時(shí)代。目前,各類信息服務(wù)網(wǎng)站提供了大量的信息資源,而在大量網(wǎng)頁(yè)資源中,Web表格極其重要而有規(guī)律,表格(Table)作為一種重要的表現(xiàn)形式已廣泛應(yīng)用于Web網(wǎng)頁(yè)中。
在信息爆炸時(shí)代,人們想要精確獲取所希望的資料猶如大海撈針般困難。在這種背景下,人們希望提高有用信息獲取的效率。信息抽取首先是從文本信息抽取發(fā)展而來(lái)[1]。目前,Web信息獲取主要有兩種方法:通過(guò)搜索引擎查詢或者進(jìn)行Web信息抽取。搜索引擎幫助人們通過(guò)關(guān)鍵詞來(lái)獲取相關(guān)文檔,用戶從獲得的文檔中自己查找有用的信息。因?yàn)檫@些文檔并不考慮用戶的知識(shí)領(lǐng)域,對(duì)用戶來(lái)說(shuō)并不容易定位到自己需要的資源。然而,Web信息提取自動(dòng)從網(wǎng)絡(luò)里分析和發(fā)現(xiàn)有用的信息,過(guò)濾掉不需要的數(shù)據(jù),可充分提取用戶知識(shí)領(lǐng)域的知識(shí)。由于Web頁(yè)面大量使用表格元素,所以對(duì)表格進(jìn)行信息抽取具有重要的現(xiàn)實(shí)意義。
1研究現(xiàn)狀
從上世紀(jì)90年代開(kāi)始,國(guó)外信息抽取技術(shù)發(fā)展比較迅速,涌現(xiàn)出許多相關(guān)的研究項(xiàng)目,并且取得了一定成果。早期相關(guān)研究主要集中于自然語(yǔ)言處理領(lǐng)域,后來(lái)逐漸發(fā)展到計(jì)算機(jī)語(yǔ)言學(xué)、人工智能、語(yǔ)義網(wǎng)絡(luò)、知識(shí)庫(kù)建設(shè)、人類語(yǔ)言技術(shù)等其它領(lǐng)域。這些研究主要圍繞信息的表示、獲取、建模、理解、抽取、檢索等方面展開(kāi)。針對(duì)信息抽取的研究發(fā)展很快,因?yàn)橐婚_(kāi)始這些項(xiàng)目就面向?qū)嶋H應(yīng)用中出現(xiàn)的信息處理問(wèn)題。隨著信息抽取技術(shù)的成熟,許多相關(guān)研究,特別是有關(guān)信息獲取和信息抽取方面的研究,被廣泛應(yīng)用于各種領(lǐng)域。其中應(yīng)用最多的是情報(bào)領(lǐng)域。信息抽取方面的研究在涉及到恐怖活動(dòng)、風(fēng)險(xiǎn)投資、商業(yè)情報(bào)等領(lǐng)域的信息研究分析和咨詢決策中發(fā)揮著重要作用,而表格信息提取在信息提取領(lǐng)域舉足輕重。
國(guó)外關(guān)于Web表格定位的研究中,Hurst[2]歸納了Web表格的兩種特征,即DOM特征(5個(gè))和幾何模型特征(3個(gè)),并利用兩種訓(xùn)練算法,即貝葉斯(Nave Bayes)相分離,可通過(guò)功能設(shè)備層實(shí)現(xiàn)不同的業(yè)務(wù)功能,支持相應(yīng)業(yè)務(wù)處理能力的集群式擴(kuò)展。例如,在功能設(shè)備層實(shí)現(xiàn)多種圖像格式向一種圖像格式的轉(zhuǎn)換,支持多圖像格式歸一化處理的并發(fā)性請(qǐng)求等。由此可見(jiàn),本文設(shè)計(jì)的集群調(diào)度體系具備較靈活的擴(kuò)展性。
參考文獻(xiàn)參考文獻(xiàn):
[1]張峻,曾元祥.動(dòng)態(tài)數(shù)字出版理念的幾個(gè)核心問(wèn)題[J].新媒體研究,2015,1(14):1617.
[2]北大方正電子有限公司,北京大學(xué).一種網(wǎng)絡(luò)文集制作成書(shū)籍的方法[P].CN200610113308.2,