• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)內(nèi)容分析算法的網(wǎng)頁正文提取

      2018-04-18 23:25:16陳婷婷
      關(guān)鍵詞:剪枝正文噪音

      陳婷婷,嚴(yán) 華,2,臧 軍

      (1.四川大學(xué) 電子信息學(xué)院,四川 成都 610000;2.電子信息控制重點(diǎn)實(shí)驗(yàn)室,四川 成都 610000;3.中石化管道儲(chǔ)運(yùn)有限公司 荊門輸油處,湖北 荊門 448000)

      0 引 言

      互聯(lián)網(wǎng)上的網(wǎng)站由于某些商業(yè)原因,網(wǎng)頁中的正文內(nèi)容通常會(huì)被一些廣告、版權(quán)信息、評(píng)論版塊等網(wǎng)頁噪音圍繞,這無疑對(duì)精確抽取正文內(nèi)容帶來難度。另外,隨著互聯(lián)網(wǎng)網(wǎng)頁的爆炸式增長(zhǎng),網(wǎng)頁布局風(fēng)格也是變化萬千,不同類型網(wǎng)站網(wǎng)頁樣式通常大不相同。如何將正文提取方法適用于各種網(wǎng)站的網(wǎng)頁布局,正確過濾網(wǎng)頁噪音,使其具有通用性,仍是我們需要解決的問題。

      1 相關(guān)研究

      目前國(guó)內(nèi)外對(duì)于網(wǎng)頁正文提取的算法主要分為4大類:

      (1)基于模板規(guī)則。這類算法從大量網(wǎng)頁中生成模板,進(jìn)而通過模板匹配來過濾網(wǎng)頁噪音從而生成網(wǎng)頁正文[1-3]。通常,不同的網(wǎng)站擁有不同的網(wǎng)頁布局,同一網(wǎng)站下的網(wǎng)頁擁有相似網(wǎng)頁布局?;谀0逡?guī)則的正文提取方法復(fù)雜度較低,但由于其主要針對(duì)一個(gè)或相似網(wǎng)頁布局的網(wǎng)站,不具有通用性。

      (2)基于視覺分塊。這類算法根據(jù)網(wǎng)頁中的位置視覺信息來確定正文區(qū)域塊,雖然提取效果很好但其依賴于瀏覽器內(nèi)核代碼,耗時(shí)長(zhǎng),算法復(fù)雜度高[4,5]。

      (3)基于啟發(fā)式規(guī)則。這類算法首先將HTML解析成DOM樹或某種特定格式,根據(jù)正文特征如文本長(zhǎng)度、純文本比率、標(biāo)點(diǎn),人為指定若干規(guī)則最終找到正文塊并提取正文內(nèi)容,復(fù)雜度較低,針對(duì)新聞、博客類網(wǎng)站有較好的正文提取效果[6-8]。

      (4)基于機(jī)器學(xué)習(xí)。這類算法使用機(jī)器學(xué)習(xí)算法,如粒子群算法[9,10]、決策樹算法[11],對(duì)網(wǎng)頁正文特征,如文本特征密度、特征標(biāo)簽個(gè)數(shù)、標(biāo)點(diǎn)個(gè)數(shù)或標(biāo)點(diǎn)密度等確定其影響因子權(quán)值,根據(jù)目標(biāo)函數(shù)最大值確定正文內(nèi)容。該類算法適應(yīng)性較高,但其運(yùn)算量較大,算法復(fù)雜度較高。

      Readability內(nèi)容分析算法作為一種啟發(fā)式算法,以其高效過濾網(wǎng)頁噪音,目前已被應(yīng)用到多種瀏覽器的文本瀏覽應(yīng)用中。該算法通過遍歷DOM對(duì)象,結(jié)合標(biāo)簽和屬性值對(duì)節(jié)點(diǎn)進(jìn)行加權(quán)計(jì)分,根據(jù)分?jǐn)?shù)和文本特性重新整合出頁面內(nèi)容。然而,在應(yīng)用到不同風(fēng)格的網(wǎng)頁正文抽取中時(shí),容易遺漏正文內(nèi)部數(shù)據(jù)信息的問題顯得尤為突出。針對(duì)該不足,從正文塊生成和剪枝兩個(gè)方面對(duì)Readability算法進(jìn)行改進(jìn),在確保過濾網(wǎng)頁噪音基礎(chǔ)上有效地保留了正文數(shù)據(jù)信息。

      2 網(wǎng)頁正文提取

      目前互聯(lián)網(wǎng)上的網(wǎng)頁主要分為3種類型,即導(dǎo)航型、主題型、圖片型。導(dǎo)航型網(wǎng)頁主要由各種超鏈接構(gòu)成,例如各大網(wǎng)站的首頁,主要目的是方便用戶選擇感興趣的網(wǎng)頁瀏覽;主題型網(wǎng)頁主要由成段而連續(xù)的純文本構(gòu)成,以此來描述一個(gè)或多個(gè)主題,這些文字一般位于網(wǎng)頁中心,被一些廣告、相關(guān)鏈接塊、版權(quán)說明信息等網(wǎng)頁噪音圍繞;圖片型網(wǎng)頁主要以圖片的形式闡述內(nèi)容,僅含有少量的文字說明。另外,在瀏覽網(wǎng)頁過程中還發(fā)現(xiàn)一種類似于半導(dǎo)航半主題型的網(wǎng)頁,即在導(dǎo)航鏈接下有部分不完整的文字描述鏈接主題。

      本文提出的正文提取方法針對(duì)主題型網(wǎng)頁,通過大量搜集各大網(wǎng)站主題型網(wǎng)頁后,得到了關(guān)于正文特征的幾點(diǎn)規(guī)律,即:

      (1)正文信息緊密地集中分布于網(wǎng)頁中的某一區(qū)域,其通常集中包含在一個(gè)容器標(biāo)簽中或者分散包含在多個(gè)同級(jí)容器標(biāo)簽中。

      (2)網(wǎng)頁中的正文與廣告鏈接這類網(wǎng)頁噪音均為文本內(nèi)容,區(qū)別在于兩者之間的文本特性,即正文內(nèi)容文本長(zhǎng)度較大、純文本比率較高、標(biāo)點(diǎn)符號(hào)較多。

      (3)網(wǎng)頁中還存在部分文本特性與正文相似的網(wǎng)頁噪音,如版權(quán)信息,其純文本比率較高。這類網(wǎng)頁噪音通常與其它廣告鏈接一起分布在正文四周,極少夾雜在正文內(nèi)部。

      3 Readability算法原理

      Readablitity算法主要通過p標(biāo)簽的文本特性以及定義的正則表達(dá)式對(duì)標(biāo)簽進(jìn)行過濾和加權(quán)計(jì)分,從而進(jìn)行內(nèi)容分析。正則表達(dá)式見表1。

      表1 正則表達(dá)匹配

      算法步驟:

      步驟1HTML解析。如圖1所示,將HTML解析成一棵DOM樹,通過遍歷樹節(jié)點(diǎn),操作HTML標(biāo)簽。

      圖1 構(gòu)造DOM樹

      步驟2過濾。遍歷標(biāo)簽節(jié)點(diǎn),提取其class和id屬性進(jìn)行正則匹配。表1中,unlikely_Candidates用于節(jié)點(diǎn)的過濾,表示該節(jié)點(diǎn)內(nèi)容不太可能是正文,僅當(dāng)出現(xiàn)正文抽取結(jié)果為空時(shí),選擇不過濾這些節(jié)點(diǎn)進(jìn)行二次提取操作。

      步驟3確定正文主塊節(jié)點(diǎn)。針對(duì)段落標(biāo)簽

      ,對(duì)其父節(jié)點(diǎn)和祖父節(jié)點(diǎn)進(jìn)行計(jì)分。計(jì)分因子包括

      標(biāo)簽所含文本長(zhǎng)度、包含標(biāo)點(diǎn)個(gè)數(shù)、節(jié)點(diǎn)標(biāo)簽名。若

      標(biāo)簽文本長(zhǎng)度達(dá)標(biāo)(>25),將其父節(jié)點(diǎn)和祖父節(jié)點(diǎn)加入候選節(jié)點(diǎn)列表。最后通過遍歷候選節(jié)點(diǎn),結(jié)合純文本比率選出最高分?jǐn)?shù)的標(biāo)簽節(jié)點(diǎn)作為正文主塊節(jié)點(diǎn)。步驟4正文塊生成。遍歷正文主塊節(jié)點(diǎn)的同輩節(jié)點(diǎn),判斷其是否為正文節(jié)點(diǎn)。首先評(píng)估其節(jié)點(diǎn)分?jǐn)?shù),若節(jié)點(diǎn)分?jǐn)?shù)達(dá)標(biāo)則標(biāo)注為正文節(jié)點(diǎn),否則判斷其是否為

      標(biāo)簽節(jié)點(diǎn),若為

      標(biāo)簽節(jié)點(diǎn)且其文本特性達(dá)標(biāo)則同樣標(biāo)注為正文節(jié)點(diǎn)。最后,創(chuàng)建一容器節(jié)點(diǎn)作為正文塊節(jié)點(diǎn),將篩選得到的正文節(jié)點(diǎn)與正文主塊節(jié)點(diǎn)拼接到正文塊節(jié)點(diǎn)中。

      步驟5剪枝。對(duì)正文塊節(jié)點(diǎn)中的特定標(biāo)簽進(jìn)行清理,遍歷其中的

      、、
        標(biāo)簽節(jié)點(diǎn),依據(jù)節(jié)點(diǎn)權(quán)重、標(biāo)簽個(gè)數(shù)、純文本比率等因素進(jìn)行標(biāo)簽清除,達(dá)到清除塊內(nèi)網(wǎng)頁噪音的效果。其中,positive和negative以節(jié)點(diǎn)的標(biāo)簽屬性進(jìn)行正則匹配產(chǎn)生節(jié)點(diǎn)權(quán)重。

        4 Readability算法的改進(jìn)

        Readability算法在正文塊生成部分僅簡(jiǎn)單地考慮節(jié)點(diǎn)分?jǐn)?shù)和

        標(biāo)簽節(jié)點(diǎn)的文本特性, 易丟失其它可能含有正文信息的文本標(biāo)簽, 如標(biāo)簽、 不含

      標(biāo)簽。 另外,在剪枝環(huán)節(jié)中Readability算法忽略了正文中一些含較多錨文本的結(jié)構(gòu)數(shù)據(jù)(表格、列表信息),導(dǎo)致其被誤刪而造成數(shù)據(jù)缺失。綜上,有必要從正文塊生成和剪枝兩個(gè)方面對(duì)Readability算法進(jìn)行改進(jìn)。

      4.1 正文塊生成

      獲取了正文主塊后,Readability算法在抓取分散包含于多個(gè)標(biāo)簽中的正文信息時(shí),由于對(duì)正文其它節(jié)點(diǎn)的篩選只評(píng)估其節(jié)點(diǎn)分?jǐn)?shù)和節(jié)點(diǎn)為

      標(biāo)簽節(jié)點(diǎn)的文本特性, 忽略了其它可能包含正文信息的非

      標(biāo)簽, 如、 不含

      標(biāo)簽, 導(dǎo)致遺漏了一些正文信息。為避免丟失正文信息,改進(jìn)的算法將同時(shí)評(píng)估非

      標(biāo)簽節(jié)點(diǎn)的文本特性, 取純文本比率和文本長(zhǎng)度作為文本特性參數(shù)。同時(shí),為有效過濾部分文本特性與正文相似的網(wǎng)頁噪音,根據(jù)正文信息在網(wǎng)頁分布上的緊密集中性,在原算法基礎(chǔ)上添加節(jié)點(diǎn)相對(duì)距離作為正文節(jié)點(diǎn)的評(píng)估因子。

      定義1文本節(jié)點(diǎn):若節(jié)點(diǎn)文本長(zhǎng)度大于等于L、純文本比率大于p1,或者節(jié)點(diǎn)文本長(zhǎng)度小于L、純文本比率大于p2,其中p1

      定義2節(jié)點(diǎn)相對(duì)距離:根據(jù)標(biāo)簽出現(xiàn)順序定義節(jié)點(diǎn)索引,設(shè)節(jié)點(diǎn)N1索引為i1,節(jié)點(diǎn)N2索引為i2,則節(jié)點(diǎn)相對(duì)距離RD定義為

      RD=|i1-i2|

      (1)

      設(shè)正文主塊節(jié)點(diǎn)為contentNode,創(chuàng)建一參考節(jié)點(diǎn)為refferNode,并通過當(dāng)前節(jié)點(diǎn)與參考節(jié)點(diǎn)的相對(duì)距離來衡量節(jié)點(diǎn)在分布上與正文的緊密性程度,結(jié)合前面的分析,正文塊生成算法如下:

      算法1:正文塊生成算法

      (1)通過Readability算法獲取contentNode,并將其初始化refferNode,使得refferNode=contentNode。

      (2)以contentNode為起點(diǎn)分別向前、向后依次搜索其同輩節(jié)點(diǎn)。若當(dāng)前節(jié)點(diǎn)node的節(jié)點(diǎn)分?jǐn)?shù)大于閾值Tscore,或其與參考節(jié)點(diǎn)的相對(duì)距離小于等于閾值Tdistance并且為文本節(jié)點(diǎn),則標(biāo)注該節(jié)點(diǎn)為正文節(jié)點(diǎn),并更新參考節(jié)點(diǎn)為該節(jié)點(diǎn),即refferNode=node,繼續(xù)搜索;否則,如果其與參考節(jié)點(diǎn)的相對(duì)距離大于閾值,停止搜索;如果與參考節(jié)點(diǎn)的相對(duì)距離小于等于閾值,但不為文本節(jié)點(diǎn),則繼續(xù)搜索。

      (3)搜索完畢,創(chuàng)建正文塊節(jié)點(diǎn),將正文主塊節(jié)點(diǎn)和篩選得到的正文節(jié)點(diǎn)拼接到其中。

      算法中考慮了所有標(biāo)簽節(jié)點(diǎn)的文本特性,并引入當(dāng)前節(jié)點(diǎn)與參考節(jié)點(diǎn)的相對(duì)距離體現(xiàn)正文節(jié)點(diǎn)與正文節(jié)點(diǎn)分布上的緊密性、與網(wǎng)頁噪音節(jié)點(diǎn)分布上的非緊密性,有效排除了網(wǎng)頁噪音,保證了正文塊的純凈度和完整性。其中,節(jié)點(diǎn)分?jǐn)?shù)閾值Tscore繼承Readability算法的設(shè)置。

      圖2為正文節(jié)點(diǎn)篩選過程,其中每個(gè)圓圈代表每個(gè)節(jié)點(diǎn),節(jié)點(diǎn)中數(shù)字表示節(jié)點(diǎn)索引。點(diǎn)填充圓圈表示正文節(jié)點(diǎn)、斜線填充圓圈表示網(wǎng)頁噪音節(jié)點(diǎn)、空白圓圈表示待篩選節(jié)點(diǎn)。由于最開始只知道正文主塊節(jié)點(diǎn)為正文節(jié)點(diǎn),所以其它節(jié)點(diǎn)均為待篩選節(jié)點(diǎn),如圖2(a)所示。然后以獲取的正文主塊節(jié)點(diǎn)為起點(diǎn),分別向前、向后搜索,參考節(jié)點(diǎn)初始為正文主塊節(jié)點(diǎn)。圖2(b)為向前搜索過程,通過節(jié)點(diǎn)文本特性評(píng)估前一個(gè)節(jié)點(diǎn)為網(wǎng)頁噪音節(jié)點(diǎn),因此繼續(xù)向前搜索,參考節(jié)點(diǎn)不變。假設(shè)設(shè)定閾值Tdistance為2,則圖2(b)中當(dāng)搜索到第(m-3)個(gè)待篩選節(jié)點(diǎn)時(shí),由于該節(jié)點(diǎn)與參考節(jié)點(diǎn)的相對(duì)距離等于3,因此評(píng)估該節(jié)點(diǎn)為網(wǎng)頁噪音,并停止搜索。圖2(c)為向后搜索過程,其后一個(gè)節(jié)點(diǎn)評(píng)估為正文節(jié)點(diǎn),因此將參考節(jié)點(diǎn)指向該節(jié)點(diǎn)繼續(xù)向后搜索。繼而評(píng)估第(m+2)個(gè)節(jié)點(diǎn)為網(wǎng)頁噪音節(jié)點(diǎn),繼續(xù)搜索到第(m+3)個(gè)節(jié)點(diǎn),評(píng)估其為正文節(jié)點(diǎn),再次更新參考節(jié)點(diǎn),并繼續(xù)搜索。

      圖2 正文節(jié)點(diǎn)搜索篩選

      4.2 正文塊剪枝

      在獲得正文塊后,塊內(nèi)可能含有純文本形式的正文信息、錨文本形式的正文信息、網(wǎng)頁噪音。對(duì)于網(wǎng)頁中含錨文本較多的容器節(jié)點(diǎn),如

        節(jié)點(diǎn), 應(yīng)用Readability算法對(duì)正文塊進(jìn)行剪枝時(shí),由于正文內(nèi)部分
      、
        標(biāo)簽的文本特性與網(wǎng)頁噪音相似, 因此會(huì)被誤刪,導(dǎo)致剪枝過度從而使得正文塊信息不完整。改進(jìn)的算法中,通過調(diào)整剪枝范圍來改善該問題。

        通過觀察統(tǒng)計(jì)大量網(wǎng)頁結(jié)構(gòu),發(fā)現(xiàn)不管是正文信息集中分布在一個(gè)容器節(jié)點(diǎn)還是分散位于多個(gè)不同容器節(jié)點(diǎn),其正文塊中的網(wǎng)頁噪音主要分布于正文主塊節(jié)點(diǎn)中,并且通常位于其首尾兩端。基于此,將剪枝范圍從正文塊節(jié)點(diǎn)調(diào)整為正文主塊節(jié)點(diǎn)內(nèi)的子節(jié)點(diǎn),并從首尾兩邊開始逐步剪枝,當(dāng)節(jié)點(diǎn)不符合剪枝條件時(shí),停止該方向的剪枝,盡可能地避免了正文內(nèi)部錨文本較多的容器節(jié)點(diǎn)被當(dāng)做網(wǎng)頁噪音過濾。以節(jié)點(diǎn)權(quán)重、文本特性作為評(píng)估因子進(jìn)行剪枝判斷,正文塊剪枝算法如下:

        算法2:正文塊剪枝算法

        (1)確定剪枝條件為節(jié)點(diǎn)權(quán)重weight小于0或?yàn)榉俏谋竟?jié)點(diǎn)。

        (2)從正文主塊的第一個(gè)子節(jié)點(diǎn)開始,向后依次搜索,若該節(jié)點(diǎn)滿足剪枝條件則刪除該節(jié)點(diǎn)并繼續(xù)搜索,否則停止剪枝。

        (3)同樣地,從正文主塊的最后一個(gè)子節(jié)點(diǎn)開始向前依次搜索,若該節(jié)點(diǎn)滿足剪枝條件則刪除該節(jié)點(diǎn)并繼續(xù)搜索,否則停止剪枝。

        算法中節(jié)點(diǎn)weight值由Readability算法中的negative與positive匹配加權(quán)得到。

        5 實(shí)驗(yàn)結(jié)果及分析

        使用java語言,調(diào)用第三方軟件包JSoup來解析HTML文件并構(gòu)造DOM樹,其在解析過程中有以下優(yōu)點(diǎn):

        (1)能夠修復(fù)不完整標(biāo)簽對(duì)、隱式標(biāo)簽、創(chuàng)建可靠的HTML結(jié)構(gòu),得到一個(gè)干凈的解析結(jié)果。

        (2)提供選擇器語法查找、操作元素,根據(jù)深度建立標(biāo)簽索引。

        (3)防止跨站腳本攻擊,消除不受信任的HTML。

        5.1 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證該算法的有效性,從國(guó)內(nèi)各大博客、新聞、科普、專業(yè)類8個(gè)不同網(wǎng)站各隨機(jī)抽取200張網(wǎng)頁,共計(jì)1600張,作為主題網(wǎng)頁測(cè)試集。對(duì)正文提取結(jié)果的正確性做如下規(guī)定:

        (1)提取結(jié)果與人工觀察實(shí)際網(wǎng)頁所得正文信息一致,則完全正確。

        (2)提取結(jié)果除包含全部正文信息外,含少量非正文信息(不超過正文信息的5%,該信息位于正文內(nèi)容前后),不影響閱讀,則也視為正確。

        (3)提取結(jié)果缺少部分正文信息或包含較多網(wǎng)頁噪音內(nèi)容(超過正文信息5%),視為不正確。

        定義3設(shè)主題網(wǎng)頁測(cè)試集中的網(wǎng)頁數(shù)量為web_sum,正確提取正文信息的網(wǎng)頁數(shù)量為correct_num,則正文提取準(zhǔn)確率P定義為

        P=correct_num/web_sum

        (2)

        其衡量的是在整個(gè)測(cè)試集中正文提取正確的網(wǎng)頁數(shù)量的比例,實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果見表2。實(shí)驗(yàn)中取L=25,p1=0.5,p2=0.7,Tdistance=2。

        表2 實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果

        5.2 結(jié)果分析

        從實(shí)驗(yàn)結(jié)果可以看出,Readability算法總體上有較好的正文提取效果,特別是針對(duì)新聞?lì)惥W(wǎng)站,準(zhǔn)確率達(dá)到95%以上。但在百度百科和網(wǎng)易這兩個(gè)網(wǎng)站上,其正文提取準(zhǔn)確率偏低,與改進(jìn)后的算法在正文提取準(zhǔn)確率上有較大差距。

        分析發(fā)現(xiàn),百度百科網(wǎng)頁中常含有大量錨文本表格或列表,Readability算法會(huì)因?yàn)榧糁^度而缺失部分正文信息。而網(wǎng)易其部分網(wǎng)頁(如汽車專欄),正文由分散的多個(gè)容器節(jié)點(diǎn)拼接構(gòu)成,Readability算法在正文節(jié)點(diǎn)拼接過程中遺漏正文子塊,導(dǎo)致正文提取準(zhǔn)確率偏低。

        改進(jìn)后的Readability算法針對(duì)以上問題,通過正文塊生成和剪枝兩個(gè)方面有效地保證了正文內(nèi)容的準(zhǔn)確提取。其正文提取準(zhǔn)確率達(dá)到95%以上,平均準(zhǔn)確率97.81%,具有較強(qiáng)的通用性。

        6 結(jié)束語

        Readability算法在應(yīng)用到大規(guī)模正文提取時(shí),易丟失正文信息中的部分字段、錨文本、結(jié)構(gòu)數(shù)據(jù)。在搜集大量網(wǎng)頁總結(jié)網(wǎng)頁布局及正文特征規(guī)律基礎(chǔ)上,就正文塊生成和剪枝兩個(gè)方面對(duì)Readability算法進(jìn)行改進(jìn)。

        實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法能在有效過濾網(wǎng)頁噪音基礎(chǔ)上,改善Readability算法丟失部分正文信息的問題,從而提高網(wǎng)頁正文提取的準(zhǔn)確率。

        參考文獻(xiàn):

        [1]YANG Liuqing,LI Xiaodong,GENG Guanggang.Study of web pages content extraction based on layout similarity[J].Application Research of Computers,2015,32(9):2581-2586(in Chinese).[楊柳青,李曉東,耿光剛.基于布局相似性的網(wǎng)頁正文內(nèi)容提取研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(9):2581-2586.]

        [2]Mane TB,Potdar GP.Template extraction from heteroge-neous web pages[J].International Journal of Advanced Computer Research,2012,2(6):197-201.

        [3]Kadam V,Devale PR.A methodology for template extraction from heterogeneous web pages[J].Indian Journal of Computer Science & Engineering,2012,3(3):449-452.

        [4]HU Bo.Research of text extraction algorithm based on visual semantic block[D].Hangzhou:Zhejiang University,2013(in Chinese).[胡波.基于視覺語義塊的網(wǎng)頁正文提取算法研究[D].杭州:浙江大學(xué),2013.]

        [5]XIE Fangli,ZHOU Guomin,WANG Jian.Approach of extracting web page informational content based on node type an- notation[J].Computer Science,2016,43(s2):31-34(in Chinese).[謝方立,周國(guó)民,王健.基于節(jié)點(diǎn)類型標(biāo)注的網(wǎng)頁主題信息抽取方法[J].計(jì)算機(jī)科學(xué),2016,43(s2):31-34.]

        [6]XIONG Zhongyang,LIN Xianqiang,ZHANG Yufang,et al.Content extraction method combining web page structure and text feature[J].Computer Engineering,2013,39(12):200-203(in Chinese).[熊忠陽,藺顯強(qiáng),張玉芳,等.結(jié)合網(wǎng)頁結(jié)構(gòu)與文本特征的正文提取方法[J].計(jì)算機(jī)工程,2013,39(12):200-203.]

        [7]CHEN Yang,CHEN Xingshu,WU Qi.Extraction of content from web pages based on magnitude of reduction of information quantity[J].Computer Engineering and Design,2012,33(7):2555-2560(in Chinese).[陳陽,陳興蜀,吳麒.基于信息量衰減幅度的網(wǎng)頁正文提取[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(7):2555-2560.]

        [8]LONG Long,DENG Wei.Text content extraction algorithm for green network web age[J].Computer Engineering,2013,39(7):252-256(in Chinese).[龍瓏,鄧偉.綠色網(wǎng)絡(luò)網(wǎng)頁正文內(nèi)容提取算法[J].計(jì)算機(jī)工程,2013,39(7):252-256.]

        [9]AN Zengwen,XU Jiefeng.The research on vision-based web page information extraction algorithm[J].Microcomputer & Its Application,2010,29(3):38-41(in Chinese).[安增文,徐杰鋒.基于視覺特征的網(wǎng)頁正文提取方法研究[J].微型機(jī)與應(yīng)用,2010,29(3):38-41.]

        [10]WU Qi,CHEN Xingshu,TAN Jun.Content extraction algorithm of HTML pages based on optimized weight[J].Journal of South China University of Technology(Natural Science Edition),2011,39(4):32-37(in Chinese).[吳麒,陳興蜀,譚駿.基于權(quán)值優(yōu)化的網(wǎng)頁正文內(nèi)容提取算法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39(4):32-37.]

        [11]Kim M,Kim Y,Song W,et al.Main content extraction from web documents using text block context[M]//Database and Expert Systems Applications.Springer Berlin Heidelberg,2013:81-93.

        猜你喜歡
        剪枝正文噪音
        人到晚年宜“剪枝”
        更正聲明
        傳媒論壇(2022年9期)2022-02-17 19:47:54
        更正啟事
        基于YOLOv4-Tiny模型剪枝算法
        噪音,總是有噪音!
        無法逃避的噪音
        噪音的小把戲
        白噪音的三種用法
        Coco薇(2017年9期)2017-09-07 22:09:28
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        一種面向不平衡數(shù)據(jù)分類的組合剪枝方法
        
        

            
            

                延吉市| 湟中县| 黄山市| 洪洞县| 聂拉木县| 翁源县| 安塞县| 巨野县| 醴陵市| 江永县| 鄂托克旗| 贵定县| 星子县| 高清| 松溪县| 富宁县| 三都| 奈曼旗| 鸡东县| 开鲁县| 临沧市| 永胜县| 常州市| 综艺| 砚山县| 辽源市| 电白县| 东海县| 惠州市| 鞍山市| 通州市| 迁安市| 沅江市| 阜宁县| 乐东| 大英县| 唐山市| 黄梅县| 托克托县| 武宁县| 孝义市|