基于VIPS的職位信息抽取技術(shù)研究

2015-10-09 12:28:30王孟頔邰泳

軟件導(dǎo)刊 2015年9期

王孟頔++邰泳

摘要：隨著網(wǎng)絡(luò)招聘的普及，求職者需要瀏覽和篩選的數(shù)據(jù)越來越多，如何從大量的、非結(jié)構(gòu)化的網(wǎng)絡(luò)信息中快速而準(zhǔn)確地抽取需要的信息非常重要?；赩IPS視覺分割算法，利用網(wǎng)頁所呈現(xiàn)出來的布局結(jié)構(gòu)和視覺特征，對招聘頁面進(jìn)行視覺分割處理，在頁面分割的基礎(chǔ)上，抽取特定塊內(nèi)的文本信息，實現(xiàn)了關(guān)鍵詞查找抽取感興趣的視覺塊內(nèi)信息。實驗結(jié)果表明，基于VIPS的職位信息抽取技術(shù)能夠有效抽取出招聘頁面內(nèi)重要的文本信息，優(yōu)化了信息抽取結(jié)果。

關(guān)鍵詞關(guān)鍵詞：網(wǎng)絡(luò)招聘;信息抽取;視覺分割;VIPS;職位信息

DOIDOI：10.11907/rjdk.151404

中圖分類號：TP301

文獻(xiàn)標(biāo)識碼：A 文章編號文章編號：16727800（2015）009002203

0 引言

網(wǎng)絡(luò)招聘憑借其覆蓋面廣、成本低廉、有針對性和時效性等優(yōu)勢，已經(jīng)成為大學(xué)畢業(yè)生和職員求職的首選方式。然而，隨著互聯(lián)網(wǎng)信息量指數(shù)級增長，這種新興的招聘方式顯現(xiàn)出一些弊端，如信息真實度低、信息處理難度大、成功率較低等。解決這些問題的關(guān)鍵步驟就是從網(wǎng)頁中抽取出人們感興趣的信息。大多數(shù)招聘頁面是根據(jù)客戶端用戶請求，動態(tài)生成具有較強格式的半結(jié)構(gòu)化網(wǎng)頁。網(wǎng)頁中包含的信息量很多，當(dāng)我們應(yīng)用于信息檢索、數(shù)據(jù)分類、推薦系統(tǒng)和觀點挖掘等領(lǐng)域時，會發(fā)現(xiàn)網(wǎng)頁中有許多冗余信息，網(wǎng)頁信息抽取技術(shù)將提高數(shù)據(jù)的利用率。

當(dāng)前的網(wǎng)頁信息抽取技術(shù)大多數(shù)是基于HTML標(biāo)簽本身，對視覺特征[1] 考慮很少。事實上最終展現(xiàn)給用戶的是瀏覽器渲染過的網(wǎng)頁，通過利用網(wǎng)頁結(jié)構(gòu)和視覺特征能有效地提高網(wǎng)頁信息抽取系統(tǒng)的準(zhǔn)確率，優(yōu)化抽取結(jié)果。

本文設(shè)計了一個抽取職位信息系統(tǒng)，該系統(tǒng)利用Navigate方法獲取頁面內(nèi)容，基于HTML標(biāo)簽生成頁面樹，結(jié)合基于視覺的頁面分割算法VIPS （VIsionbased Page Segmentation）[3] 分割頁面，利用頁面解析器抽取文本信息，通過重寫迭代器方法實現(xiàn)關(guān)鍵詞查找，抽取出用戶感興趣的信息。

1 職位信息抽取流程

基于VIPS的職位信息抽取系統(tǒng)從所輸入的招聘網(wǎng)頁出發(fā)，對URL列表對應(yīng)的招聘頁面進(jìn)行渲染并顯示頁面內(nèi)容，根據(jù)招聘頁面的HTML源碼生成標(biāo)簽樹，利用VIPS算法對頁面進(jìn)行視覺分割，結(jié)合頁面解析器HTMLParser對樹節(jié)點對應(yīng)模塊的文本信息進(jìn)行抽取，通過重寫迭代器，用戶通過關(guān)鍵字查找，抽取特定樹節(jié)點對應(yīng)的文本信息，最后得到用戶感興趣的職位信息?；赩IPS的職位信息抽取過程如圖1所示。

圖1 基于VIPS的職位信息抽取流程

2 職位信息抽取關(guān)鍵組件設(shè)計

2.1 基于視覺的招聘頁面結(jié)構(gòu)

基于視覺特征的網(wǎng)頁結(jié)構(gòu)相比傳統(tǒng)的標(biāo)簽樹結(jié)構(gòu)而言，更有可能分析出招聘頁面內(nèi)文本信息的語義結(jié)構(gòu)。結(jié)構(gòu)中最大根節(jié)點下的子節(jié)點可能會傳達(dá)一些與招聘相關(guān)的信息，如崗位描述、崗位職責(zé)、聯(lián)系方式等?；赩IPS的網(wǎng)頁標(biāo)簽樹中每個結(jié)點稱之為“塊”，這些塊是HTML標(biāo)簽的基本元素或是基本元素的集合。

將每個招聘頁面表示成一個三元組Ω = {Ο，Φ，δ}，其中Ο = {Ω1，Ω2，…ΩN}，代表給定招聘頁面上所有塊的集合，塊與塊之間沒有重疊，每一個子塊Ωi的結(jié)構(gòu)又被遞歸定義為上述三元組Ωi={Οi，Φi，δi}。Φ = {φ1，φ2，…φT}，代表招聘頁面上的分割條集合。其中每個分割條都設(shè)置一個權(quán)重值，描述分割條的可見性。權(quán)重值相等的分割條劃分到一個集合中。δ代表不同塊之間的關(guān)系，用公式描述這種關(guān)系為：δ=Ο×Ο→ Φ∪{NULL}。例如，Ωi和Ωj是集合Ο中的兩個塊，δ（Ωi ，Ωj）≠NULL，代表塊Ωi和塊Ωj之間存在一個分割條δ（Ωi，Ωj），或者說兩個對象相鄰，否則就會有其它對象在兩個塊Ωi和Ωj之間。

VIPS算法對于每一個視覺塊都定義了一個DoC（Degree of Coherence）值，用來描述當(dāng)前視覺塊內(nèi)的文本內(nèi)容聯(lián)系緊密程度。DoC值具有以下兩個特點：

（1）DoC值越大，說明當(dāng)前視覺塊內(nèi)部的文本內(nèi)容聯(lián)系越緊密， DoC值越小，說明內(nèi)部聯(lián)系越松散。

（2）在一棵層次樹中，子塊的DoC值比父塊的DoC值大。

在對招聘頁面進(jìn)行視覺分割前，預(yù)定義一個PDoC （Permitted Degree of Coherence）值，控制分割后視覺塊的粒度大小。PDoC值越大，分割后的視覺塊就越精細(xì)，反之，視覺塊越粗糙。

2.2 招聘頁面標(biāo)簽樹構(gòu)建

構(gòu)建招聘頁面標(biāo)簽樹是對招聘頁面進(jìn)行視覺分割的必要步驟，可以利用網(wǎng)頁的HTML編碼來生成。HTML標(biāo)簽大多是成對出現(xiàn)，每一對都有一個開始標(biāo)簽（< >）和一個結(jié)束標(biāo)簽（），并且標(biāo)簽之間可以存在嵌套結(jié)構(gòu)，因此可以將一對標(biāo)簽視作標(biāo)簽樹的一個節(jié)點，嵌套在其中的標(biāo)簽對看成是當(dāng)前節(jié)點的子節(jié)點，從而構(gòu)建標(biāo)簽樹。

由于許多招聘頁面的HTML源碼沒有完全遵循W3C標(biāo)準(zhǔn)，因此需要預(yù)先對部分HTML文檔進(jìn)行編碼清洗。目前已經(jīng)有一些用于清洗HTML源碼的開源程序，如Tidy。結(jié)合該程序?qū)φ衅疙撁娴腍TML源碼進(jìn)行規(guī)范化，比如對于不要求有結(jié)束標(biāo)簽的節(jié)點，插入結(jié)束標(biāo)簽以保持節(jié)點平衡，訂正格式錯誤的標(biāo)簽、修改嵌套層次有問題的標(biāo)簽等。

2.3 招聘頁面的視覺分割

基于視覺因素分割招聘頁面，首先需要提取當(dāng)前招聘頁面的視覺塊。通過對招聘頁面構(gòu)建標(biāo)簽樹，可以從標(biāo)簽樹的所有節(jié)點中遞歸提取視覺塊。但是，一些HTML標(biāo)簽常用來組織數(shù)據(jù)，如：

等等，對于這類標(biāo)簽，不能將它們作為視覺塊單獨提取出來，而是對它們的子節(jié)點進(jìn)行提取。對于已經(jīng)提取出的視覺塊，根據(jù)每個塊中的視覺因素差異設(shè)置Doc值。視覺塊迭代提取過程代碼如下：

Algorithm DivideTagtree（pNode，nLevel）

{

IF（Dividable（pNode，nLevel）==TRUE）{

FOR EACH child OF pNode{

DivideTagtree（child，nLevel）;

}

ELSE{

Put the SubTree（pNode） into the

pool as a block;

}

通過判斷當(dāng)前標(biāo)簽節(jié)點和它的子節(jié)點的背景色、大小、形狀等視覺因素，決定是否對當(dāng)前標(biāo)簽節(jié)點所代表的視覺塊繼續(xù)分割。對于所有提取出來的視覺塊，將它們保存到視覺塊池中，以便檢測分割條。

對大多數(shù)招聘頁面而言，包含不同內(nèi)容的視覺塊之間往往存在分割條，這個分割條或者是直線，或者是長條矩形等圖形元素。從視覺角度看，分割條可以作為識別語義信息的指示器，因此在提取視覺塊后需要檢測頁面的分割條。用一個二維向量（Ps，Pe）定義分割條，其中Ps是分割條的開始坐標(biāo)，Pe是結(jié)束坐標(biāo)。根據(jù)Ps和Pe計算當(dāng)前分割條的高度和寬度。檢測分割條的具體算法如下：

（1）對分割條集合進(jìn)行初始化。最初的分割條集合中個數(shù)為1，它的開始和結(jié)束坐標(biāo)分別為整個招聘頁面的開始坐標(biāo)和結(jié)束坐標(biāo)。

（2）對于每一個視覺塊，判斷分割條的位置關(guān)系。如果視覺塊被分割條包圍，則將該分割條分裂為多個分割條;如果視覺塊與分割條有一部分重合，則根據(jù)視覺塊的邊界修改分割條坐標(biāo);如果視覺塊跨越分割條，則刪除該分割條。

（3）移除招聘頁面邊界的4個分割條。對于檢測出來的分割條，根據(jù)分割條相鄰的兩個視覺塊顏色、字體大小、不同視覺塊之間的距離設(shè)置分割條權(quán)重。兩個視覺塊之間的距離越遠(yuǎn)，顏色、字體大小差異越大，該分割條的權(quán)重越大，分割條兩側(cè)的視覺塊語義信息差異就越大。

2.4 招聘頁面內(nèi)容結(jié)構(gòu)重建

當(dāng)所有分割條都設(shè)置了權(quán)重值，就重新構(gòu)建招聘頁面的內(nèi)容結(jié)構(gòu)。首先從權(quán)重值最小的分割條開始，將該分割條兩側(cè)的視覺塊合并組成一個新的視覺塊。整個重建過程是一個迭代過程，當(dāng)遇到權(quán)重值最大的那個分割條時結(jié)束迭代，同時，重新設(shè)置那些合并后的新視覺塊的DoC值。對于這些新的視覺塊，將它們的DoC值與預(yù)定義的PDoC進(jìn)行比較，如果新視覺塊的DoC值達(dá)到PDoC值規(guī)定的視覺塊粒度大小，迭代過程將停止。否則，重新進(jìn)行迭代過程。

當(dāng)?shù)^程全部結(jié)束時，原來那些較小的具有相似視覺特征的視覺塊會被合并成一個語義塊，語義塊內(nèi)的文本內(nèi)容聯(lián)系十分緊密。此時整個招聘頁面的內(nèi)容結(jié)構(gòu)主要由語義塊組成，每個語義塊內(nèi)的信息內(nèi)容相似，方便對招聘信息進(jìn)行結(jié)構(gòu)化抽取。

2.5 頁面解析

用戶輸入一個URL后就會得到一個招聘頁面，這個頁面包含了大量的元素，而頁面中往往包含了各種各樣的信息，如圖片、文字等等，大多數(shù)情況下重要的信息都在頁面的文本中，因此需要設(shè)計一個頁面解析模塊，提取頁面的文本信息。

解析網(wǎng)頁文本內(nèi)容的方法很多，例如可以使用正則表達(dá)式，但是正則表達(dá)式比較抽象和復(fù)雜，并且復(fù)用性差，針對每個特定的網(wǎng)頁都需要單獨寫正則表達(dá)式，目前比較流行的頁面解析器有HTMLParser。HTMLParser是一個開源的Java庫，它是專門用來解析HTML文本內(nèi)容的，具有高效性。

3 實驗結(jié)果

本文實驗硬件配置如下：Intel（R）Pentium（R） 4 CPU 2.80GHz，內(nèi)存2G，開發(fā)IDE為：Microsoft Visual Studio 2010， C#語言。為了評估職位信息抽取系統(tǒng)性能，分別在智聯(lián)招聘、前程無憂、中華英才網(wǎng)、大街網(wǎng)、趕集網(wǎng)隨機選取一個招聘頁面，在這5個頁面按照DOM樹和VIPS樹兩種結(jié)構(gòu)分割頁面，分別抽取10種不同的招聘信息，計算每種樹抽取信息結(jié)果的查準(zhǔn)率，表1顯示了結(jié)果。

可以看出，不同網(wǎng)站的招聘頁面查準(zhǔn)率各不相同，這主要是由于各個網(wǎng)站的設(shè)計規(guī)范程度不同，查準(zhǔn)率高的網(wǎng)頁往往比較干凈，沒有過多的廣告，排版也比較合理，比如中華英才網(wǎng)的設(shè)計十分美觀，信息也比較突出，抽取的結(jié)果自然契合度高。另一方面，可以看出基于VIPS樹的職位信息抽取系統(tǒng)比基于DOM樹的信息抽取系統(tǒng)具有更高的查準(zhǔn)率，因此可以得出結(jié)論：基于視覺特征來分割頁面并抽取信息，能夠使信息抽取過程更加優(yōu)化，結(jié)果更準(zhǔn)確。

4 結(jié)語

本文基于網(wǎng)頁結(jié)構(gòu)中的視覺因素，設(shè)計和實現(xiàn)了抽取招聘頁面內(nèi)的職位信息。利用Navigate方法獲取招聘頁面內(nèi)容，結(jié)合VIPS算法對頁面進(jìn)行視覺化分割，用頁面解析器HTMLParser抽取文本信息，通過重寫迭代器方法實現(xiàn)關(guān)鍵詞查找功能。經(jīng)實驗測試，本文設(shè)計的系統(tǒng)能夠?qū)崿F(xiàn)頁面的輸入與顯示、生成標(biāo)簽樹，抽取節(jié)點文本信息和關(guān)鍵詞查找功能。通過兩種樹的信息抽取結(jié)果對比，得出基于視覺分割的信息抽取方法比基于DOM樹的結(jié)果更精確的結(jié)論，證明本文設(shè)計方案是可行的。下一步主要是研究職位信息的并行抽取技術(shù)，實現(xiàn)抽取大量的職位信息，另外對于抽取到的職位信息，還可以進(jìn)行聚類分析，對一些信息進(jìn)行歸類、篩選。

參考文獻(xiàn)參考文獻(xiàn)：

[1] 朱凱.基于結(jié)構(gòu)和視覺特征的網(wǎng)頁信息抽取技術(shù)的研究與實現(xiàn)[D] .杭州：浙江大學(xué)，2008.

[2] 龍麗，龐弘燊.國外 Web 信息抽取研究綜述[J] .圖書館學(xué)刊，2008 （5）：1316.

[3] CAI D，YU S，WEN J R，et al.VIPS：a visionbased page segmentation algorithm[R] .Microsoft technical report，MSRTR200379，2003.

[4] BING LIU.Web數(shù)據(jù)挖掘[M] .第2版.北京：清華大學(xué)出版社，2013：287288.

[5] 于滿泉，陳鐵睿，許洪波.基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J] .計算機應(yīng)用，2005，25（4）：974976.

[6] 顧濤.基于 Hadoop 的 Web 信息提取和垃圾信息過濾研究與實現(xiàn)[D] .成都：電子科技大學(xué)，2012.

[7] YANG Y，LUK W S.A framework for web table mining[C] .Proceedings of the 4th international workshop on Web information and data management.ACM，2002：3642.

[8] CHANG C H，KAYED M，GIRGIS M R，et al.A survey of web information extraction systems[J] .Knowledge and Data Engineering，IEEE Transactions on，2006，18（10）：14111428.

[9] PASTERNACK J，ROTH D.Extracting article text from the web with maximum subsequence segmentation[C] .Proceedings of the 18th international conference on World wide web.ACM，2009：971980.

責(zé)任編輯（責(zé)任編輯：杜能鋼）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于VIPS的職位信息抽取技術(shù)研究