• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種新聞網(wǎng)頁關鍵信息的提取算法

      2016-09-29 17:40向菁菁耿光剛李曉東
      計算機應用 2016年8期

      向菁菁 耿光剛 李曉東

      摘要:針對網(wǎng)頁正文提取算法缺乏通用性,以及對新聞網(wǎng)頁的提取缺乏標題、時間、來源信息的問題,提出一種新聞關鍵信息的提取算法newsExtractor。該算法首先通過預處理將網(wǎng)頁轉換成行號和文本的集合,然后根據(jù)字數(shù)最長的一句話出現(xiàn)在新聞正文的概率極高的特點,從正文中間開始向兩端尋找正文的起點和終點提取新聞正文,根據(jù)最長公共子串算法提取標題,構造正則表達式并以行號輔助判斷提取時間,根據(jù)來源的格式特點并輔以行號提取來源;最后構造了數(shù)據(jù)集與國外開源軟件newsPaper進行提取準確率的對比實驗。實驗結果表明,newsExtractor在正文、標題、時間、來源的平均提取準確率上均優(yōu)于newsPaper,具有通用性和魯棒性。

      關鍵詞:網(wǎng)頁信息提??;新聞信息提??;網(wǎng)頁去噪

      中圖分類號:TP391

      文獻標志碼:A

      0引言

      信息抽取[1]的概念最早是由Jim Cowie和Yorick Wilks于1996年提出,他們稱信息抽取就是任何能夠選擇性地將顯式或隱式的文本進行組織和結合的方法,該概念的提出是為了解決互聯(lián)網(wǎng)中信息量大且過于繁雜、無法讓用戶快速獲取需要的信息的問題。在近20年的發(fā)展中,已有諸多學者針對不同的抽取需求提出了不同的信息抽取方法。在網(wǎng)頁信息提取方面,被提及最多的是網(wǎng)頁正文提取算法,但目前網(wǎng)頁正文提取算法尚存在缺點:首先,算法普遍存在缺乏通用性的問題;其次,在某些應用場合(如:新聞溯源)除正文之外還需要新聞的標題、時間和來源信息,但目前尚沒有能夠完全滿足需求的方法。因此,本文主要基于此展開研究。

      1相關研究

      針對不同的信息抽取需求,不同的學者提出的算法也不盡相同。

      比如,識別網(wǎng)頁中的實體(如:人名、地名、事件名、時間等),文獻[2]提出了一種算法用于識別生物期刊摘要中的人體蛋白質名稱;根據(jù)抽取規(guī)則生成方式的不同,又可以分為自動生成[3-4]和半自動生成[5]兩類。

      對于網(wǎng)頁正文的提取算法,國內(nèi)外也已有許多方法,簡單歸類如下:

      1)基于網(wǎng)頁標簽[6-8]。這類方法依賴HTML語言中的閉合標簽對(如:

      )或起分割作用標簽(如:

      )進行提取。但HTML語言本身對使用者來說不具有標準的格式,再加上層疊樣式表(Cascading Style Sheets, CSS)盛行之后,為了顯示的美觀而添加的各類元素使得頁面內(nèi)容變得更為復雜,因此,該方法并不具備魯棒性。

      2)基于模板[5,9-10]。這類方法通過給定的模板將需要的網(wǎng)頁信息輸出,優(yōu)點在于準確率較其他方法高;缺點是如果為每個待提取的網(wǎng)頁都設計模板,計算和時間開銷大,缺乏通用性。

      3)基于文檔對象模型(Document Object Model, DOM)樹結構[11-13]。HTML網(wǎng)頁可以解析成DOM樹的結構,然后根據(jù)DOM樹的結構特性提取正文。文獻[11]中就提出了一種方法:首先確定部分正文內(nèi)容,然后依據(jù)路徑相似度尋找其他正文,最終合并為網(wǎng)頁正文。文獻[12]則在文獻[11]的基礎上進行了改進。

      4)基于布局相似性[14-16]。網(wǎng)頁所屬網(wǎng)站的網(wǎng)頁具有布局相似的特點,在同一個網(wǎng)站多個網(wǎng)頁中頻繁出現(xiàn)的內(nèi)容具有極大概率為噪聲。該方法不具備實時性,在對于某一網(wǎng)頁進行提取時,必須先獲取與其布局類似的其他網(wǎng)頁。

      5)基于視覺熱區(qū)[17]。這種方法主要依據(jù)人們在瀏覽網(wǎng)頁時視覺頻繁停留的區(qū)域去判斷正文的位置進行提取。該方法的理論支撐不足,同時也缺乏大量的視覺數(shù)據(jù)支持

      此外,還有學者使用了不同方法的結合[18]以及融合了機器學習的方法[19]。

      綜上所述,以上提及的方法或過時(例如基于網(wǎng)頁標簽的方法中依賴

      的方法,早期沒有CSS,主要使用

      梁平县| 吉首市| 清水县| 新泰市| 长春市| 花莲市| 南安市| 扬州市| 桃园县| 安徽省| 都匀市| 财经| 乳山市| 宁蒗| 北辰区| 江都市| 甘泉县| 建昌县| 宜黄县| 绍兴市| 通河县| 长海县| 鄂州市| 泗阳县| 肇东市| 睢宁县| 屯门区| 搜索| 自治县| 宜昌市| 北宁市| 迁西县| 南宁市| 涿州市| 兴业县| 金阳县| 德惠市| 交口县| 辰溪县| 兴宁市| 石河子市|