馬曉慧++李泓瑩
摘要:本文提出了一種標(biāo)簽路徑和行塊分布函數(shù)相結(jié)合的信息抽取方法來實(shí)現(xiàn)Web頁面的信息抽取。該方法將Web頁面解析成DOM樹,使用視覺特征和標(biāo)簽過濾的規(guī)則將樹進(jìn)行剪枝,引入標(biāo)簽路徑特征的方法粗略劃分出網(wǎng)頁的正文內(nèi)容和噪音內(nèi)容,最終使用行塊分布函數(shù)的方法進(jìn)行抽取,獲得正文文本。實(shí)驗(yàn)結(jié)果表明,這種抽取方法有效地防止了正文內(nèi)容誤刪及噪音內(nèi)容漏刪的現(xiàn)象,使得提取的正文信息更加準(zhǔn)確,準(zhǔn)確度達(dá)到91%,召回率達(dá)到95%,F(xiàn)值達(dá)到93%。本算法對于包含過多短文本的網(wǎng)頁抽取的準(zhǔn)確度還有待提高。
關(guān)鍵詞: DOM樹; 視覺特征; 標(biāo)簽路徑特征; 行塊分布函數(shù)
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
文章編號:2095-2163(2017)04-0013-05
0引言
Web頁面是目前人們獲取信息的主要方式之一,也是輿情監(jiān)測、數(shù)據(jù)分析和處理的一個(gè)重要來源。常見的Web頁面除了包含有用的正文信息外,還包含了大量的與正文主題無關(guān)的鏈接、圖片、腳本等內(nèi)容。因此,從紛雜的信息中快速準(zhǔn)確地提取所需信息就顯得尤為重要,Web頁面的信息抽取也成為了研究的一個(gè)熱點(diǎn)問題。
劉秉權(quán)[1]等提出了基于DOM樹的方法,根據(jù)HTML標(biāo)簽把網(wǎng)頁解析為一顆樹,在樹上通過DES算法、MDR算法等應(yīng)用算法抽取網(wǎng)頁中有效信息。聶卉[2]等深入研究了一種基于GATE語義標(biāo)注的Web信息自動抽取技術(shù),這種技術(shù)通過領(lǐng)域本體對網(wǎng)頁進(jìn)行語義標(biāo)注準(zhǔn)確定位目標(biāo)項(xiàng),再通過從構(gòu)建好的DOM樹中抽取語義項(xiàng)的特征描述構(gòu)建樣本實(shí)例,最后運(yùn)用歸納算法實(shí)現(xiàn)抽取。陳鑫[3]則重點(diǎn)探討了在經(jīng)過初步過濾后的HTML中,結(jié)合正文區(qū)的密度,以行為自變量,行塊長度為因變量建立線性行塊分布函數(shù),通過分布函數(shù)圖找出閾值,從而得到有效的正文內(nèi)容。朱澤德[4]等建立了一個(gè)融合結(jié)構(gòu)和語言特征的統(tǒng)計(jì)模型,利用高斯平滑運(yùn)算對密度序列進(jìn)行計(jì)算以獲取平滑文本密度,再由最大子序列分割平滑文本密度抽取正文內(nèi)容。張乃洲等[5]用節(jié)點(diǎn)密度熵為度量分割DOM樹,再采用K最近鄰標(biāo)簽傳播的半監(jiān)督法和SVM分類器對頁面進(jìn)行分類,抽取有用類。微軟亞洲研究院[6]最早開展了基于視覺特征的信息抽取技術(shù)研究,可將人對一個(gè)網(wǎng)頁的視覺感受作為依據(jù),區(qū)分出不同主題的主題塊,對所需主題塊進(jìn)行提取。孫璐等人[7]還在此方法基礎(chǔ)上做出了實(shí)用升級改進(jìn),利用VIPS算法將去除無關(guān)信息的DOM樹來拓展執(zhí)行語義分塊,而后根據(jù)位置特征找到基準(zhǔn)塊,以此作為中心,遍歷DOM樹找到所有相似塊并引入抽取處理,提高了抽取效率。此外,還有基于模板的技術(shù)。顧韻華等人[8]在領(lǐng)域本體的引導(dǎo)下建立了雙模板——DIV塊模板和表格模板,可用其分別實(shí)現(xiàn)粗粒度和細(xì)粒度的信息抽取。郭少華等[9]基于模板提出正交過濾算法,過濾掉模板中的噪音信息,改善了生成的模板。隨著研究的深入,后期出現(xiàn)了基于機(jī)器學(xué)習(xí)等多種抽取技術(shù),在上述抽取方式中,以DOM樹方法應(yīng)用最為廣泛。本文即在DOM樹的基礎(chǔ)上提出了一種根據(jù)標(biāo)簽特征、行塊分布函數(shù)以及鏈接密度精確抽取正文的方法。研究設(shè)計(jì)內(nèi)容可做如下論述。
[BT4]1抽取系統(tǒng)實(shí)現(xiàn)框架
本文致力于探討的這種研究方法大致可分為3步。首先將經(jīng)過規(guī)范化的網(wǎng)頁解析成DOM樹,由標(biāo)簽過濾和鏈接密度過濾的方式去除不必要的分枝,使一顆結(jié)構(gòu)復(fù)雜的樹簡潔化。其次,遍歷DOM樹,對樹中的所有標(biāo)簽路徑、文本標(biāo)簽及標(biāo)點(diǎn)個(gè)數(shù)提供數(shù)理運(yùn)算統(tǒng)計(jì),分別計(jì)算所有可到達(dá)文本長度之和與標(biāo)簽路徑的比值和所有可到達(dá)標(biāo)點(diǎn)路徑之和與標(biāo)簽路徑的比值,大致區(qū)分正文和噪音部分。最后,使用行塊分布函數(shù)法對已劃分出的正文和噪音完善推演、并設(shè)計(jì)進(jìn)一步的過濾、抽取,最終能夠高精度地從網(wǎng)頁中抽取得到有效信息。
[BT5]1.1構(gòu)建DOM樹
DOM樹具有結(jié)構(gòu)性強(qiáng),將無序網(wǎng)頁有序化的特點(diǎn),能夠清晰地展示一個(gè)網(wǎng)頁的結(jié)構(gòu)。因此,為了使網(wǎng)頁結(jié)構(gòu)更加直觀,方便正文抽取工作,首先可將網(wǎng)頁轉(zhuǎn)換成DOM樹。設(shè)計(jì)過程可詳述如下。
1.1.1規(guī)范化HTML語法
在將網(wǎng)頁解析成DOM樹前,需使用W3的HTML Validator工具檢驗(yàn)HTML代碼是否合法,對不合法的代碼進(jìn)行修正,獲取規(guī)范的HTML文檔。本文所采用的部分語法規(guī)范準(zhǔn)則如表1所示。
1.1.2解析DOM樹
通過標(biāo)簽屬性對,將獲取的HTML文檔解析為一顆以html為根節(jié)點(diǎn)的DOM樹,現(xiàn)以圖1所示網(wǎng)頁為例,解析后生成的DOM樹結(jié)構(gòu)如圖2所示。
1.2降噪處理
初步構(gòu)建好的DOM樹分支多,其中大量分支放置著無意義內(nèi)容,如腳本信息、鏈接廣告等。這樣的樹若是不拓展設(shè)置降噪環(huán)節(jié),不但會將之后正文抽取的工作復(fù)雜化,還會在一定程度上降低抽取的效率和精確度。本文用視覺特征和標(biāo)簽過濾的方法對網(wǎng)頁做降噪處理,對通常不含正文文本內(nèi)容的標(biāo)簽做剪枝處理,得到一個(gè)簡潔的DOM樹。這里將給出研究分述如下。
1.2.1視覺特征降噪
經(jīng)比對多個(gè)網(wǎng)頁發(fā)現(xiàn),大量的網(wǎng)頁布局基本類似,都由head、foot、right、left、center這5個(gè)區(qū)域中的任意幾個(gè)構(gòu)成,其中97%的網(wǎng)頁均含有head、foot區(qū)域,right、left區(qū)域選擇性擁有。以圖1為例,對應(yīng)的區(qū)域結(jié)構(gòu)則如圖3所示。
[JP2]參閱文獻(xiàn)[10]所示,依據(jù)其中提出的可視布局去除網(wǎng)頁噪音的算法,去除網(wǎng)頁中的head,foot區(qū)域。設(shè)計(jì)得到步驟如下:[JP]
1)顯示已解析的DOM樹,由此獲取網(wǎng)頁實(shí)際大小。
2)由網(wǎng)頁的實(shí)際大小分別得出上、下邊界的閾值,相應(yīng)記為top、lower。
3)將網(wǎng)頁內(nèi)除body標(biāo)簽外的所有元素取得的絕對坐標(biāo)及其實(shí)際大小同由閾值劃分的區(qū)域展開比較。以任一元素Element為例,其所屬區(qū)域左上角的原點(diǎn)絕對坐標(biāo)為(X,Y),且設(shè)定所占區(qū)域大小為(Height,Width)。若Element.Y+Element.Height<=top,則元素Element屬于head。若Element.Y>=lower,則元素Element屬于foot。據(jù)此規(guī)則對DOM樹進(jìn)行遍歷,對區(qū)域進(jìn)行劃分,去除head、foot區(qū)域,實(shí)現(xiàn)初步噪音處理。未去除的元素均暫時(shí)作為正文。endprint
1.2.2標(biāo)簽過濾
在初步獲取的正文文本中,可能包含right、left區(qū)域,這些區(qū)域中的元素都作為正文包含其中,需要通過標(biāo)簽過濾的方式再次去除網(wǎng)頁噪音。這里的標(biāo)簽過濾分為2種,一種是過濾不含正文的標(biāo)簽,另一種是通過鏈接密度過濾正文中難以識別的超鏈接。
[JP2]網(wǎng)頁中的標(biāo)簽大體可分為2類,一類是構(gòu)建網(wǎng)頁框架,顯示正文文本的有用標(biāo)簽,一類是用來修飾網(wǎng)頁使其美觀的無用標(biāo)簽。本文的目的是抽取正文信息,因此需刪去DOM樹上的無用標(biāo)簽,如:script和hidden的標(biāo)簽及其內(nèi)容,文本樣式修飾標(biāo)簽
[BT4]2實(shí)驗(yàn)數(shù)據(jù)比對與分析
[JP2]為驗(yàn)證本抽取方法的有效性,隨機(jī)爬取了新聞、軍事、體育和財(cái)經(jīng)等4種類型的800個(gè)網(wǎng)頁,使用單一的基于視覺特征網(wǎng)頁信息抽取[11]方法、行塊分布函數(shù)分別進(jìn)行抽取,并同本抽取方法展開了研究對比。[JP]
[BT5]2.1實(shí)驗(yàn)數(shù)據(jù)集
本文的數(shù)據(jù)集來源于8個(gè)網(wǎng)站,分別是:今日頭條、環(huán)球網(wǎng)、網(wǎng)易軍事、新浪軍事、搜狐體育、體壇周報(bào)、東方財(cái)富、鳳凰財(cái)經(jīng),從中隨機(jī)抽取800個(gè)網(wǎng)頁,因而得到抽取網(wǎng)頁數(shù)據(jù)的結(jié)果信息則如表2所示。
[BT5]2.2評價(jià)標(biāo)準(zhǔn)
在從Web頁面中抽取有效信息的實(shí)驗(yàn)中,采用準(zhǔn)確率(Precision)、召回率(Recall)和F 值作為實(shí)驗(yàn)結(jié)果的性能評估指標(biāo)。準(zhǔn)確率、召回率、F值的計(jì)算公式可分見公式(4)~(6)。
P=〖SX(〗TP〖〗TP+FP〖SX)〗[JY](4)
R=〖SX(〗TP〖〗TP+FN〖SX)〗[JY](5)
F=〖SX(〗2PR〖〗P+R〖SX)〗[JY](6)
其中,TP為抽取出的所有信息中的有效信息量,F(xiàn)P為抽取出的所有信息中包含的無效信息量,F(xiàn)N為未被抽取出的信息中的有效信息量。
2.3比對結(jié)果及分析
在抽取的這8個(gè)網(wǎng)站中,今日頭條網(wǎng)站中含有噪音內(nèi)容較少,正文以段落長文本為主體,無圖片及鏈接的干擾。環(huán)球網(wǎng)、體壇周報(bào)與新浪軍事網(wǎng)結(jié)構(gòu)類似,噪音內(nèi)容集中在頭部、尾部及右側(cè)區(qū)域,正文中有圖片插入,文字為長文本。網(wǎng)易軍事網(wǎng)站中的網(wǎng)頁正文區(qū)域以圖片為主,文字為輔,文本內(nèi)容較少,多為1~2句話。搜狐體育除以長文本構(gòu)成的正文區(qū)域外,右側(cè)區(qū)域也含有比賽時(shí)間這類短文本正文內(nèi)容。東方財(cái)富與鳳凰財(cái)經(jīng)這2個(gè)財(cái)經(jīng)類網(wǎng)站的正文中有大量短句格式,二者區(qū)別在于,東方財(cái)富中網(wǎng)頁內(nèi)容均由短句、數(shù)字構(gòu)成,而鳳凰財(cái)經(jīng)中網(wǎng)頁內(nèi)容中除短句外也含有長文本,廣告鏈接插在正文中。
將研究選用的800個(gè)網(wǎng)頁分別用視覺特征網(wǎng)頁信息[11]的方法、行塊分布函數(shù)法與本文方法進(jìn)行信息抽取,抽取結(jié)果如表3所示。由表3中的數(shù)據(jù)可以看出,本文方法的抽取效果較為理想,但對于包含過多短文本的網(wǎng)頁抽取的準(zhǔn)確度還有待提高。
3結(jié)束語
[HT5”SS][ST5”BZ][WT5”BZ]
本文提出了一種Dom樹標(biāo)簽路徑剪枝和行塊密度結(jié)合的Web信息抽取方法。將Web頁面解析成DOM文檔,在此基礎(chǔ)上根據(jù)路徑標(biāo)簽比和行塊分布函數(shù)對信息進(jìn)行抽取,獲取精確度頗高的抽取結(jié)果。經(jīng)實(shí)驗(yàn)表明,本文研發(fā)方法的準(zhǔn)確率達(dá)到91%,由此可知方法設(shè)計(jì)效果高效可行,但對于類似財(cái)經(jīng)類這種包含過多短文本的網(wǎng)頁,對其抽取的準(zhǔn)確度還有待后續(xù)的改進(jìn)提高。在今后的研究中,將對本文方法設(shè)計(jì)引入進(jìn)一步優(yōu)化處理,擴(kuò)大抽取方法的適用范圍,提高抽取系統(tǒng)的性能。
參考文獻(xiàn):
劉秉權(quán),王喻紅,葛冬梅,等. 基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[C]//黑龍江省計(jì)算機(jī)學(xué)會2007年學(xué)術(shù)交流年會論文集. 大慶:黑龍江計(jì)算機(jī)學(xué)會,2007:14-17.
[2] 聶卉,黃貴鵬. 基于GATE語義標(biāo)注的Web信息的自動抽取[J]. 圖書情報(bào)工作,2010,54(5):110-114.
[3] 陳鑫. 基于行塊分布函數(shù)的通用網(wǎng)頁正文抽取[EB/OL]. [2016-02-23]. https://www.doc88.com/p-912707793066.html.
[4] 朱澤德,李淼,張健,等. 基于文本密度模型的Web 正文抽取[J]. 模式識別與人工智能,2013,26(7):667-672.
[5] 張乃洲,曹薇,李石君. 一種基于節(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁面挖掘方法[J]. 計(jì)算機(jī)學(xué)報(bào),2015,38(2):349-364.
[6] Cai Deng,Yu Shipeng, Wen Jirong, et al. VIPS: A visionbased page segmentation[R]. Redmond, WA:Microsoft corporation,2003.
[7] 孫璐,陳軍華,廉德勝. 一種基于視覺特征的Deep Web信息抽取方法[J]. 計(jì)算機(jī)與數(shù)字工程,2016,44(6):1107-1111,1126.
[8] 顧韻華,高原,高寶,等. 基于模板和領(lǐng)域本體的Deep Web信息抽取研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2014,35(1):327-332.
[9] 郭少華,郭巖,李海燕,等. 可擴(kuò)展的網(wǎng)頁關(guān)鍵信息抽取研究[J]. 中文信息學(xué)報(bào),2015,29(1):97-103.
[10]荊濤,左萬利. 基于可視布局信息的網(wǎng)頁噪音去除算法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32(S1):84-87,98.
[11]安增文,徐杰鋒. 基于視覺特征的網(wǎng)頁正文提取方法研究[J]. 微型機(jī)與應(yīng)用,2010(3):38-41.[ZK)][FL)]endprint