• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DOM樹(shù)的非規(guī)范化表格信息定位技術(shù)

      2016-05-14 15:49:00張興蘭劉巖
      軟件導(dǎo)刊 2016年7期
      關(guān)鍵詞:本體

      張興蘭 劉巖

      摘要摘要:Web表格信息提取已經(jīng)成為構(gòu)建本體的重要內(nèi)容之一,它能自動(dòng)將本體所需的屬性名和屬性值提取出來(lái),節(jié)省大量人工勞動(dòng)。關(guān)于非規(guī)范化表格信息提取的研究比較少,對(duì)本體構(gòu)建造成大量信息缺失。提供一種基于啟發(fā)式規(guī)則的非規(guī)范化表格信息定位算法,其對(duì)定位非規(guī)范化表格準(zhǔn)確率較高。

      關(guān)鍵詞關(guān)鍵詞:本體;非規(guī)范化表格;DOM樹(shù)

      DOIDOI:10.11907/rjdk.161193

      中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2016)007001004

      引言

      隨著Internet的迅速發(fā)展,人類進(jìn)入了信息爆炸時(shí)代。目前,各類信息服務(wù)網(wǎng)站提供了大量的信息資源,而在大量網(wǎng)頁(yè)資源中,Web表格極其重要而有規(guī)律,表格(Table)作為一種重要的表現(xiàn)形式已廣泛應(yīng)用于Web網(wǎng)頁(yè)中。

      在信息爆炸時(shí)代,人們想要精確獲取所希望的資料猶如大海撈針般困難。在這種背景下,人們希望提高有用信息獲取的效率。信息抽取首先是從文本信息抽取發(fā)展而來(lái)[1]。目前,Web信息獲取主要有兩種方法:通過(guò)搜索引擎查詢或者進(jìn)行Web信息抽取。搜索引擎幫助人們通過(guò)關(guān)鍵詞來(lái)獲取相關(guān)文檔,用戶從獲得的文檔中自己查找有用的信息。因?yàn)檫@些文檔并不考慮用戶的知識(shí)領(lǐng)域,對(duì)用戶來(lái)說(shuō)并不容易定位到自己需要的資源。然而,Web信息提取自動(dòng)從網(wǎng)絡(luò)里分析和發(fā)現(xiàn)有用的信息,過(guò)濾掉不需要的數(shù)據(jù),可充分提取用戶知識(shí)領(lǐng)域的知識(shí)。由于Web頁(yè)面大量使用表格元素,所以對(duì)表格進(jìn)行信息抽取具有重要的現(xiàn)實(shí)意義。

      1研究現(xiàn)狀

      從上世紀(jì)90年代開(kāi)始,國(guó)外信息抽取技術(shù)發(fā)展比較迅速,涌現(xiàn)出許多相關(guān)的研究項(xiàng)目,并且取得了一定成果。早期相關(guān)研究主要集中于自然語(yǔ)言處理領(lǐng)域,后來(lái)逐漸發(fā)展到計(jì)算機(jī)語(yǔ)言學(xué)、人工智能、語(yǔ)義網(wǎng)絡(luò)、知識(shí)庫(kù)建設(shè)、人類語(yǔ)言技術(shù)等其它領(lǐng)域。這些研究主要圍繞信息的表示、獲取、建模、理解、抽取、檢索等方面展開(kāi)。針對(duì)信息抽取的研究發(fā)展很快,因?yàn)橐婚_(kāi)始這些項(xiàng)目就面向?qū)嶋H應(yīng)用中出現(xiàn)的信息處理問(wèn)題。隨著信息抽取技術(shù)的成熟,許多相關(guān)研究,特別是有關(guān)信息獲取和信息抽取方面的研究,被廣泛應(yīng)用于各種領(lǐng)域。其中應(yīng)用最多的是情報(bào)領(lǐng)域。信息抽取方面的研究在涉及到恐怖活動(dòng)、風(fēng)險(xiǎn)投資、商業(yè)情報(bào)等領(lǐng)域的信息研究分析和咨詢決策中發(fā)揮著重要作用,而表格信息提取在信息提取領(lǐng)域舉足輕重。

      國(guó)外關(guān)于Web表格定位的研究中,Hurst[2]歸納了Web表格的兩種特征,即DOM特征(5個(gè))和幾何模型特征(3個(gè)),并利用兩種訓(xùn)練算法,即貝葉斯(Nave Bayes)相分離,可通過(guò)功能設(shè)備層實(shí)現(xiàn)不同的業(yè)務(wù)功能,支持相應(yīng)業(yè)務(wù)處理能力的集群式擴(kuò)展。例如,在功能設(shè)備層實(shí)現(xiàn)多種圖像格式向一種圖像格式的轉(zhuǎn)換,支持多圖像格式歸一化處理的并發(fā)性請(qǐng)求等。由此可見(jiàn),本文設(shè)計(jì)的集群調(diào)度體系具備較靈活的擴(kuò)展性。

      參考文獻(xiàn)參考文獻(xiàn):

      [1]張峻,曾元祥.動(dòng)態(tài)數(shù)字出版理念的幾個(gè)核心問(wèn)題[J].新媒體研究,2015,1(14):1617.

      [2]北大方正電子有限公司,北京大學(xué).一種網(wǎng)絡(luò)文集制作成書(shū)籍的方法[P].CN200610113308.2,

      猜你喜歡
      本體
      Abstracts and Key Words
      灰鑄鐵缸體本體抗拉強(qiáng)度提升的研究
      眼睛是“本體”
      對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
      領(lǐng)域本體的查詢擴(kuò)展和檢索研究
      山東冶金(2019年3期)2019-07-10 00:54:02
      本體在產(chǎn)品設(shè)計(jì)知識(shí)管理中的應(yīng)用研究
      《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
      一種基于本體的語(yǔ)義檢索設(shè)計(jì)與實(shí)現(xiàn)
      媒介生存:關(guān)于新聞史研究本體的思考
      專題
      义马市| 苍南县| 革吉县| 新干县| 大石桥市| 巴东县| 鄂伦春自治旗| 萝北县| 长沙县| 安达市| 天气| 成都市| 安西县| 长子县| 紫阳县| 黄骅市| 三台县| 富源县| 九龙坡区| 方城县| 尼木县| 库尔勒市| 桃园市| 江陵县| 万源市| 通渭县| 延长县| 报价| 松滋市| 南城县| 灵武市| 苏尼特左旗| 锦州市| 邯郸县| 白玉县| 湖口县| 沂水县| 北流市| 子长县| 临沧市| 文水县|