湯佳杰 曹永忠 顧浩
摘 ?要: 為了簡(jiǎn)化網(wǎng)頁(yè)正文抽取操作與提高網(wǎng)頁(yè)正文抽取的準(zhǔn)確性,提出了一種基于文本標(biāo)點(diǎn)密度連續(xù)和的抽取方法(TPDS)。TPDS基于網(wǎng)頁(yè)中文本標(biāo)點(diǎn)分布的密度并計(jì)算密度的連續(xù)和,選取所有文本塊中連續(xù)和最大的文本塊,將其確定為網(wǎng)頁(yè)最佳文本塊并抽取正文內(nèi)容。從不同的門(mén)戶(hù)網(wǎng)站隨機(jī)選取的網(wǎng)頁(yè)作為測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明,TPDS可有效過(guò)濾網(wǎng)頁(yè)噪聲信息得到正文內(nèi)容。該方法在不同網(wǎng)頁(yè)上具有很好的適用性,抽取性能優(yōu)于CETR、CETD、CEPR和CETD-TPC算法。
關(guān)鍵詞: 正文抽取; 文本密度; 標(biāo)點(diǎn)分布; 標(biāo)簽樹(shù)
中圖分類(lèi)號(hào):TP391 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ? 文章編號(hào):1006-8228(2020)01-69-04
Abstract: In order to simplify the extraction process of web page text and improve the accuracy of web page text extraction, a method based on text punctuation density continuous sum extraction (TPDS) is proposed. TPDS is based on the density of text punctuation distribution in web pages and calculates the continuous sum of density. The continuous and largest text blocks in all text blocks are selected, which are determined as the best text block of the web page and the body content is extracted. The webpage randomly selected from different portals is used as the test data set. The experimental results show that TPDS can effectively filter the webpage noise information to obtain the body content, and the method has good applicability on different webpage, and the extraction performance is better than CETR, CETD , CEPR and CETD-TPC algorithms.
Key words: content extraction; text density; punctuation distribution; tag tree
0 引言
Web技術(shù)快速發(fā)展,Web網(wǎng)頁(yè)成為信息發(fā)布的主要載體。中國(guó)互聯(lián)網(wǎng)絡(luò)中心發(fā)布第43次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]指出,我國(guó)網(wǎng)民規(guī)模達(dá)8.29億,互聯(lián)網(wǎng)普及率達(dá)到59.6%;網(wǎng)站數(shù)量為523萬(wàn)個(gè),網(wǎng)頁(yè)數(shù)量為2816億個(gè)。Web網(wǎng)頁(yè)數(shù)量如此龐大,顯然無(wú)法依靠人工抽取所有網(wǎng)頁(yè)主體信息,而需要通過(guò)計(jì)算機(jī)來(lái)輔助完成網(wǎng)頁(yè)信息抽取。但是Web網(wǎng)頁(yè)中除了主體信息外,還包括大量的噪聲信息[2],如商家廣告、興趣內(nèi)容推薦、網(wǎng)頁(yè)導(dǎo)航欄目等。
大量的網(wǎng)頁(yè)噪聲數(shù)據(jù)會(huì)導(dǎo)致在檢索網(wǎng)頁(yè)主體信息時(shí)的操作變得困難和復(fù)雜,不利于后期的管理與分析。因此在對(duì)網(wǎng)頁(yè)進(jìn)行爬取時(shí),需要對(duì)噪聲信息進(jìn)行過(guò)濾,以保證能夠得到正確的網(wǎng)頁(yè)主體信息。
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,CSS、JavaScript技術(shù)的廣泛應(yīng)用,不同的網(wǎng)頁(yè)結(jié)構(gòu)呈現(xiàn)出多樣化與個(gè)性化特點(diǎn),這使得Web信息抽取工作難上加難。通過(guò)研究發(fā)現(xiàn),Web網(wǎng)頁(yè)結(jié)構(gòu)中的文本布局具有如下的表現(xiàn):
⑴ Web網(wǎng)頁(yè)中正文部分集中在網(wǎng)頁(yè)的三分之一到三分之二處,這段內(nèi)網(wǎng)頁(yè)的某些標(biāo)簽將會(huì)反復(fù)出現(xiàn),且其中文本內(nèi)容較長(zhǎng),文本塊較多,含有的標(biāo)點(diǎn)符號(hào)也相應(yīng)增加;
⑵ Web網(wǎng)頁(yè)中噪聲部分一般處于網(wǎng)頁(yè)的邊緣地區(qū),多為短文本、圖片以及大量的超鏈接,噪聲塊的文本標(biāo)點(diǎn)密度連續(xù)小;
⑶ Web網(wǎng)頁(yè)中正文內(nèi)容多分布在相同類(lèi)型的標(biāo)簽中,其主要內(nèi)容節(jié)點(diǎn)之間是連續(xù)的,連續(xù)內(nèi)容節(jié)點(diǎn)共享同一個(gè)父節(jié)點(diǎn)。
1 相關(guān)工作
Web信息抽取主要是將網(wǎng)頁(yè)中半結(jié)構(gòu)化的文本數(shù)據(jù)抽取出來(lái),轉(zhuǎn)換為結(jié)構(gòu)化信息,使之能夠?yàn)槠渌到y(tǒng)所利用。近年來(lái),隨著人們對(duì)Web網(wǎng)頁(yè)正文信息提取需求的不斷增加,國(guó)內(nèi)外眾多研究人員提出許多解決方案。
基于包裝器的方法是首先由人工制定好抽取規(guī)則,然后使用程序依據(jù)規(guī)則返回規(guī)定格式的數(shù)據(jù)完成信息抽取。手工構(gòu)建包裝器可以解決特定網(wǎng)站的信息抽取問(wèn)題,但是無(wú)法適應(yīng)不同的網(wǎng)頁(yè)結(jié)構(gòu),不同網(wǎng)站都需要依據(jù)其網(wǎng)頁(yè)結(jié)構(gòu)重新構(gòu)造包裝器規(guī)則,費(fèi)時(shí)費(fèi)力。
為了解決人工構(gòu)建的包裝器的不足,人們提出了基于模式匹配的方法。姬鑫等[3]人實(shí)現(xiàn)了基于模板頁(yè)的相同噪音塊清洗方法和基于class 屬性的同類(lèi)噪音塊和特殊噪音塊清洗方法,在此基礎(chǔ)上提出基于起始?jí)K和終止塊的新聞內(nèi)容抽取方法,但未實(shí)現(xiàn)對(duì)分頁(yè)新聞內(nèi)容的抽取。Hassan A.Sleiman等[4]人實(shí)現(xiàn)了模式匹配的抽取算法,該算法不依賴(lài)于提取規(guī)則,無(wú)監(jiān)督地進(jìn)行信息抽取。
李偉男等[5]人基于視覺(jué)的網(wǎng)頁(yè)分割算法VIPS提出了使用模擬退火算法改進(jìn)的二階隱馬爾可夫模型得到最優(yōu)模型參數(shù),結(jié)合改進(jìn)的Viterbi算法獲取最佳狀態(tài)序列的Web信息抽取方法。劉利等[6]人設(shè)計(jì)的WIEHF方法利用DOM樹(shù)計(jì)算出容器標(biāo)簽的PSD、TSD、SD,對(duì)元素進(jìn)行篩選,根據(jù)元素在內(nèi)容里的出現(xiàn)頻率與標(biāo)點(diǎn)符號(hào)找出網(wǎng)頁(yè)正文。
針對(duì)上述問(wèn)題,本文設(shè)計(jì)的TPDS算法利用DOM樹(shù)將網(wǎng)頁(yè)分割成多個(gè)不同的塊區(qū)域,通過(guò)計(jì)算不同塊的文本標(biāo)點(diǎn)分布密度連續(xù)和,選取最大連續(xù)和對(duì)應(yīng)的文本塊為最佳文本塊,實(shí)現(xiàn)了一種簡(jiǎn)單、有效的抽取方式。該方法不需要進(jìn)行訓(xùn)練且無(wú)須人工參與,可以適用于不同的網(wǎng)頁(yè)結(jié)構(gòu),通過(guò)在不同的數(shù)據(jù)集上的測(cè)試,驗(yàn)證了算法具有良好的抽取性能。
2 基于文本標(biāo)點(diǎn)密度連續(xù)和的抽取算法
基于文本標(biāo)點(diǎn)密度連續(xù)和的網(wǎng)頁(yè)正文抽取算法的主要流程如圖1所示。主要分為網(wǎng)頁(yè)預(yù)處理、算法特征值計(jì)算和信息抽取三個(gè)步驟。
2.1 預(yù)處理
在網(wǎng)頁(yè)DOM結(jié)構(gòu)中,網(wǎng)頁(yè)被表示為一組標(biāo)簽并且標(biāo)簽之間具有層次關(guān)系。根據(jù)標(biāo)簽的不同功能,將html標(biāo)簽分為如下四類(lèi)[7]:交互標(biāo)簽、樣式標(biāo)簽、網(wǎng)頁(yè)描述標(biāo)簽、容器標(biāo)簽。
在進(jìn)行網(wǎng)頁(yè)特征計(jì)算之前,需要對(duì)目標(biāo)網(wǎng)頁(yè)的標(biāo)簽進(jìn)行過(guò)濾,在網(wǎng)頁(yè)正文內(nèi)容的抽取過(guò)程中,一般只需要操作容器標(biāo)簽,其他類(lèi)型的標(biāo)簽(如交互標(biāo)簽,樣式標(biāo)簽,網(wǎng)頁(yè)描述標(biāo)簽)將被過(guò)濾掉。
2.2 文本標(biāo)點(diǎn)密度連續(xù)和特征
定義1 DOM塊:DB(v)是以節(jié)點(diǎn)v為根節(jié)點(diǎn)的子樹(shù),其中v為非文本節(jié)點(diǎn),若DB(v)不為空時(shí),則稱(chēng)子樹(shù)DB(v)為DOM塊。
從網(wǎng)頁(yè)中選取兩個(gè)DOM塊,圖2是文本塊,可以發(fā)現(xiàn)在文本塊中,文本標(biāo)點(diǎn)信息更加集中,具有更少的超鏈接文本。而在圖3噪聲塊中,超鏈接文本信息較多,文本標(biāo)點(diǎn)信息之間相對(duì)分散。
其中,[SE]是由算法抽取的Web網(wǎng)頁(yè)結(jié)果構(gòu)成的正文集合,[SM]是由人工從Web網(wǎng)頁(yè)中抽取的正文內(nèi)容集合,[SE∩SM]是算法實(shí)際抽取的正確正文內(nèi)容。精度P是衡量提取的文本與實(shí)際文本相關(guān)程度的指標(biāo),召回率R表示應(yīng)該抽取結(jié)果中被正確抽取的正文內(nèi)容的比例,F(xiàn)值則是衡量抽取性能的一個(gè)綜合指標(biāo)。
根據(jù)這些評(píng)價(jià)指標(biāo)分析不用的抽取算法,并將其與本文提出的算法進(jìn)行比較。表1給出了CETR、CETD、CEPR、CETD-TPC與TPDS算法在不同數(shù)據(jù)集上測(cè)試的結(jié)果。
從表1的對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),TPDS方法在大部分情況下都表現(xiàn)出良好的抽取性能。TPDS在部分網(wǎng)頁(yè)上的抽取結(jié)果相比其他算法有點(diǎn)欠缺,但是綜合考慮抽取結(jié)果的平均情況,都優(yōu)于其他的抽取算法,所以,TPDS算法在不同網(wǎng)頁(yè)中的適用性更強(qiáng),抽取的性能更高。
4 結(jié)束語(yǔ)
本文提出了一種基于文本標(biāo)點(diǎn)密度連續(xù)和的抽取算法,TPDS算法操作簡(jiǎn)單,無(wú)需訓(xùn)練和人工干預(yù),可用于多源、異構(gòu)、海量的網(wǎng)頁(yè)正文內(nèi)容抽取,在不同的數(shù)據(jù)集上的測(cè)試結(jié)果表明。與其他算法相比,抽取性能更高、適用性更強(qiáng)。
然而,基于文本標(biāo)點(diǎn)密度連續(xù)和的抽取算法仍有較大的提升空間。本文中設(shè)計(jì)的算法僅是基于文本標(biāo)點(diǎn)密度,連續(xù)標(biāo)簽與連續(xù)文本塊的特征來(lái)選取最佳文本塊。是否可以與網(wǎng)頁(yè)中其他的特征進(jìn)行融合,進(jìn)一步提高抽取的性能、準(zhǔn)確性以及實(shí)用性,是進(jìn)一步研究的重點(diǎn)。
參考文獻(xiàn)(References):
[1] CNNIC.第43次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R]. 北京:中國(guó)互聯(lián)網(wǎng)中心,2019.
[2] 劉鵬程,胡駿,吳共慶.基于文本塊密度和標(biāo)簽覆蓋率的網(wǎng)頁(yè)正文抽取[J].計(jì)算機(jī)應(yīng)用研究,2018.35(6):1645-1650.
[3] 姬鑫,鐘誠(chéng).基于分塊的新聞網(wǎng)頁(yè)信息抽取算法[J].計(jì)算機(jī)應(yīng)用與軟件,2015.32(4):317-322.
[4] Hassan A.Sleiman,Rafael Corchuelo. TEX: An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based System,2013.39:109-123
[5] 李偉男,李書(shū)琴,景旭,等.基于模擬退火算法和二階HMM的Web信息抽取[J].計(jì)算機(jī)工程與設(shè)計(jì),2014.35(4):1264-1268
[6] 劉利,戴齊,尹紅風(fēng),賈真,胡萬(wàn)亭.基于多特征融合的網(wǎng)頁(yè)正文信息抽取[J].計(jì)算機(jī)應(yīng)用與軟件,2014.31(7):47-49+77
[7] Liu Qingtang,Shao Mingbo,Wu Lingjing,et al.Main Content Exraction from Web Pages Based on Node Characteristics[J].Journal of Computing Science and Engineering,2017.11:39-48
[8] Carey H J,Manic M.HTML web content extraction using paragraph tags[C]//IEEE, International Symposium on Industrial Electronics.IEEE,2016:1099-1105