• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)頁(yè)特征的特征詞提取技術(shù)

      2014-02-21 02:16:38龐寧
      關(guān)鍵詞:特征詞詞頻段落

      龐寧

      (太原科技大學(xué)應(yīng)用科學(xué)學(xué)院, 山西 太原 030024)

      基于網(wǎng)頁(yè)特征的特征詞提取技術(shù)

      龐寧

      (太原科技大學(xué)應(yīng)用科學(xué)學(xué)院, 山西 太原 030024)

      特征詞提取是一項(xiàng)提煉整個(gè)web頁(yè)面內(nèi)容的實(shí)用技術(shù), 同時(shí)也為文本分類, 信息抽取應(yīng)用提供了技術(shù)支持. 在web頁(yè)面內(nèi)容上, 利用段落間語(yǔ)義關(guān)系劃分出網(wǎng)頁(yè)內(nèi)容的篇章結(jié)構(gòu), 并以此為基礎(chǔ)使用網(wǎng)頁(yè)的元數(shù)據(jù)和特殊標(biāo)簽, 設(shè)計(jì)了一個(gè)特征詞的加權(quán)函數(shù), 綜合考慮了詞頻、詞長(zhǎng)和位置因子, 最后, 實(shí)驗(yàn)對(duì)比了各類位置因子對(duì)系統(tǒng)的貢獻(xiàn)度. 實(shí)驗(yàn)結(jié)果表明, 改進(jìn)方法的F1值比傳統(tǒng)的TFIDF提取技術(shù)提高了15.5%, 其中, 位置因子中的標(biāo)題, 關(guān)鍵詞和摘要因素對(duì)系統(tǒng)的貢獻(xiàn)最大.

      特征詞提取; 網(wǎng)頁(yè); 元數(shù)據(jù); 加權(quán)函數(shù)

      由于計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)的快速發(fā)展, 各種信息以前所未有的速度每天在不斷的生產(chǎn)更新, 知識(shí)爆炸已經(jīng)成為人類新的困惑. 如何從海量信息中提取出我們所需要的內(nèi)容是自然語(yǔ)言處理技術(shù)中的新的焦點(diǎn), 因此能夠有效反映文本內(nèi)容的特征詞提取技術(shù)受到了眾多研究人員的重視, 在各種相關(guān)領(lǐng)域中, 例如, 自動(dòng)分類[1]、文本聚類[2]、文本過(guò)濾[3]等, 都會(huì)看到該技術(shù)的應(yīng)用.

      1 相關(guān)研究

      特征詞可以認(rèn)為是代表某類文本的類別領(lǐng)域詞, 是為了滿足文獻(xiàn)標(biāo)引或檢索工作的需要而從文章中萃取出來(lái)的、表示全文主題內(nèi)容信息條目的單詞或術(shù)語(yǔ). 目前特征詞提取技術(shù)大致可以分為三種: 基于規(guī)則方法[4], 基于算法模型[5-6]和基于統(tǒng)計(jì)方法[7-9].

      隨著網(wǎng)絡(luò)技術(shù)的發(fā)展, 基于網(wǎng)頁(yè)特征詞提取開始受到關(guān)注. 為了盡量減少在提取過(guò)程中對(duì)文本內(nèi)容結(jié)構(gòu)的過(guò)分依賴, 本文提出一種特征詞抽取算法, 除了考慮傳統(tǒng)的詞頻、詞長(zhǎng)、位臵等提取特征因子, 還特別引入了網(wǎng)頁(yè)元數(shù)據(jù)特征.

      2 Web文檔的元數(shù)據(jù)

      元數(shù)據(jù)在數(shù)據(jù)庫(kù)領(lǐng)域和圖書館自動(dòng)化系統(tǒng)中有著廣泛應(yīng)用. 隨著對(duì)網(wǎng)絡(luò)信息使用需求的不斷增長(zhǎng), 元數(shù)據(jù)逐漸開始用于描述Web文檔. 目前, 有些Web信息檢索系統(tǒng)(如Altavista 等0已經(jīng)開始支持HTML 中的META和LINK標(biāo)記. 同時(shí)Web文檔的作者也開始利用這些標(biāo)記來(lái)指定若干簡(jiǎn)單的元數(shù)據(jù)(例如, 東方網(wǎng)指定了Description和keyword0. 而這些簡(jiǎn)單的元數(shù)據(jù)恰恰是特征詞提取中所需要. 隨著元數(shù)據(jù)使用的逐漸普及, 越來(lái)越多的Web 信息資源已經(jīng)附有元數(shù)據(jù), 因此直接利用這些已有信息也是網(wǎng)絡(luò)檢索發(fā)展的趨勢(shì).

      3 特征詞提取算法

      3.1 算法流程

      本文研究的是基于網(wǎng)頁(yè)元數(shù)據(jù)的一種提取算法, 具體過(guò)程如圖1所示. 首先將網(wǎng)頁(yè)源文本利用HTML網(wǎng)頁(yè)清洗技術(shù)去掉網(wǎng)頁(yè)上的噪音, 保留網(wǎng)頁(yè)中的主題文本和超鏈接, 利用網(wǎng)頁(yè)上保留的重要標(biāo)簽信息對(duì)網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)化, 將其分為標(biāo)題、關(guān)鍵詞和摘要、正文、超鏈接, 分別存儲(chǔ). 再利用分詞軟件將各部分文本分詞, 標(biāo)注詞性,僅保留文中名詞和動(dòng)詞, 這是因?yàn)樘卣髟~一般都是名詞或動(dòng)詞, 同時(shí)也避免高頻虛詞的干擾, 第四步是將正文中的文本進(jìn)行語(yǔ)義段落劃分, 即形成內(nèi)容相近的若干子節(jié), 抽取各子節(jié)的子標(biāo)題, 進(jìn)一步為提取各詞的位臵因子特征做準(zhǔn)備, 最后, 計(jì)算各詞的特征因子的值, 利用權(quán)值函數(shù), 求出各詞的權(quán)重, 最后, 按照權(quán)重值排序得到網(wǎng)頁(yè)的特征詞.

      3.2 語(yǔ)義段落的生成機(jī)制

      網(wǎng)頁(yè)文本通常呈現(xiàn)半結(jié)構(gòu)化的特點(diǎn), 為了更好地衡量每個(gè)候選特征詞的位臵因子, 采用智能化的方法[10]對(duì)網(wǎng)頁(yè)正文內(nèi)容進(jìn)行結(jié)構(gòu)化, 將內(nèi)容相近的若干段落歸為一個(gè)語(yǔ)義段落. 首先, 通過(guò)計(jì)算每?jī)蓚€(gè)連續(xù)段落之間的語(yǔ)義距離來(lái)判斷它們?cè)趦?nèi)容上的相似程度. 假定文本任意兩個(gè)連續(xù)段落pai和pai+1之間的語(yǔ)義相似度定義為:

      其中, |pai∩pai+1| 是pai和pai+1所具有的相同詞的數(shù)目, |pai∪pai+1|是pai和pai+1所有詞的數(shù)目. 顯然, 段落相似度越大, 說(shuō)明二者在內(nèi)容上的差異越小. 基于段落相似度, 在相鄰的段落上使用聚類算法進(jìn)行合并. 具體而言, 首先假設(shè)整篇文本是一個(gè)語(yǔ)義段落, 從相似度最小的兩個(gè)段落處斷成兩個(gè)新的語(yǔ)義段落, 重復(fù)上述過(guò)程直至文本的語(yǔ)義段落的數(shù)目滿足要求.

      在各個(gè)語(yǔ)義段落中需要提取出一部分詞代表該段的中心思想, 類似于子標(biāo)題的作用, 做法是: 尋找在該語(yǔ)義段落中出現(xiàn)頻率高的, 而在其他語(yǔ)義段中的頻率反而低的一些詞借鑒TFIDF方法構(gòu)造詞頻計(jì)算函數(shù)如下:

      其中, tfi是 ti在文本中的詞頻, ND為文本中包含的所有段落數(shù)目, 而ni為文本中出現(xiàn)過(guò)詞ti的所有段落的數(shù)目. 這樣, 就得到Wi的一種可行的計(jì)算方法. 選取Wi值大的前10個(gè)代表該語(yǔ)義段落的子標(biāo)題.

      3.3 特征詞權(quán)重的計(jì)算

      3.3.1 詞長(zhǎng)因子

      詞語(yǔ)的長(zhǎng)度與詞語(yǔ)的抽象度存在一定的聯(lián)系, 基本規(guī)律是詞語(yǔ)的長(zhǎng)度與意義具體化的關(guān)系呈反比, 長(zhǎng)度越短, 意義越抽象、模糊, 而通常需要更加具體的詞語(yǔ)反映文本主題思想. 因此設(shè)計(jì)了如下的方法計(jì)算詞長(zhǎng)因子,

      其中l(wèi)en是詞ti的詞長(zhǎng),maxlen為全文中最長(zhǎng)的詞長(zhǎng),minlen為全文中最短的詞長(zhǎng).

      3.3.2 詞頻因子

      通常研究人員更傾向于認(rèn)為, 在一篇文本中, 高頻詞要比低頻詞更能反映主題, 但事實(shí)上, 詞語(yǔ)的出現(xiàn)頻率無(wú)法完全體現(xiàn)出該詞對(duì)于文本分類的重要性, 很多出現(xiàn)次數(shù)較少的專用名詞反而更能反映文本的類別. 因此特別設(shè)計(jì)如下的詞頻因子計(jì)算方法, 利用加權(quán)法克服了單純考慮詞語(yǔ)的出現(xiàn)次數(shù)的弊端.

      其中tw是詞ti在全文出現(xiàn)的次數(shù), tt是詞ti在標(biāo)題出現(xiàn)的次數(shù), tl是詞ti在鏈接處出現(xiàn)的次數(shù).

      圖1 特征詞提取算法流程圖Figure1 the flow chart of signature word extracting algorithm

      3.3.3 位置因子

      在文本中, 不同位臵上的詞語(yǔ)所能蘊(yùn)含的文本主題的作用是不同的. 將網(wǎng)頁(yè)文本按照體現(xiàn)主題內(nèi)容的差別分為如下幾種位臵, 見表1.

      表1 位置因子具體描述表Table1 specific description table of location factor

      為了體現(xiàn)出不同的位臵上的詞對(duì)于特征詞提取結(jié)果的影響的差異, 特別設(shè)計(jì)了式(40所示的計(jì)算位臵因子的函數(shù),

      tw表示詞ti的位臵因子的計(jì)算函數(shù), 其中, ω、ψ表示不同位臵上的詞語(yǔ)所含的信息量系數(shù), 經(jīng)過(guò)大量實(shí)驗(yàn), 我們得到如表3-2的系數(shù)取值表, fw(ti)代表詞ti的信息量, 具體計(jì)算公式見式(5)

      其中, fu(ti)表示詞ti在文本中的頻數(shù), fv(ti)表示詞ti的段落頻數(shù), l表示詞長(zhǎng).

      表2 ω、ψ系數(shù)取值表Table2 factor value table of ω、ψ

      3.3.4 加權(quán)函數(shù)

      綜合上述三種特征因子, 構(gòu)造如下的特征詞加權(quán)函數(shù):

      其中, w(ti)表示詞ti在網(wǎng)頁(yè)中作為特征詞的權(quán)重值, 而系數(shù)2、1、2分別用來(lái)表明位臵因子(tw), 詞長(zhǎng)因子(tl),詞頻因子(tp)在加權(quán)函數(shù)中的所占的比重.

      4 實(shí)驗(yàn)

      4.1 測(cè)試集和評(píng)價(jià)準(zhǔn)則

      為了避免評(píng)測(cè)時(shí), 由于測(cè)試人員的主觀性帶來(lái)的誤差, 我們選用網(wǎng)易網(wǎng)站提供的新聞網(wǎng)頁(yè), 以該網(wǎng)站責(zé)任編輯自己提煉的核心提示作為評(píng)價(jià)標(biāo)準(zhǔn), 我們下載不同類別的新聞網(wǎng)頁(yè)共400篇用于測(cè)試, 分別計(jì)算召回率Recall、準(zhǔn)確率Precision、F1, 以此評(píng)價(jià)實(shí)驗(yàn)系統(tǒng)的性能. 其定義如下:

      Precision=x/y, Recall=x/z.

      其中, x表示系統(tǒng)正確識(shí)別的特征詞的數(shù)目, y表示系統(tǒng)所提取出的特征詞總數(shù), z代表人工標(biāo)注的全文的特征詞總數(shù).

      F1=(2×Precision×Recall) / (Precision +Recall).

      4.2 實(shí)驗(yàn)結(jié)果與分析

      分別對(duì)不同的特征因子的組合情況進(jìn)行了評(píng)測(cè)對(duì)比, 結(jié)果如表3所示.

      表3 特征因子組合情況表Table3 feature factors combination table

      實(shí)驗(yàn)結(jié)果表明, 對(duì)于網(wǎng)頁(yè)特征詞提取系統(tǒng)而言, 僅僅依靠傳統(tǒng)的詞長(zhǎng)、詞頻因子是無(wú)法滿足提取需要的. 加

      入位臵因子可以使系統(tǒng)的F1提高51%. 在位臵因子中, 各項(xiàng)特征對(duì)于系統(tǒng)的貢獻(xiàn)度也不同, 其中, 去掉位臵因子中的標(biāo)題、摘要、關(guān)鍵詞項(xiàng)會(huì)使系統(tǒng)的F1降低37.7%, 而去掉自然段落的首尾項(xiàng)僅會(huì)使系統(tǒng)降低1.7%. 與傳統(tǒng)的TFIDF提取方法相比, 添加位臵因子的F1提高了15.5%.

      5 結(jié)論

      本文是基于網(wǎng)頁(yè)的標(biāo)簽的特征詞提取, 尤其是元數(shù)據(jù)和相關(guān)鏈接的標(biāo)簽, 并采用自動(dòng)生成語(yǔ)義段落的技術(shù),將自動(dòng)生成的網(wǎng)頁(yè)內(nèi)容結(jié)構(gòu)結(jié)合傳統(tǒng)的詞頻和詞長(zhǎng)因子, 構(gòu)建出一個(gè)綜合多種因子的特征詞計(jì)算公式, 利用計(jì)算出各詞的權(quán)重值求解出特征詞. 該方法對(duì)文本格式無(wú)要求, 實(shí)用性很廣, 不僅對(duì)格式規(guī)范的論文式文本有效,同樣也適用于結(jié)構(gòu)松散的網(wǎng)頁(yè)文本. 但是,由于網(wǎng)頁(yè)更新快的特點(diǎn), 有很多代表文本主題的關(guān)鍵詞語(yǔ)沒(méi)有被正確分詞, 從而進(jìn)一步導(dǎo)致網(wǎng)頁(yè)在提取特征詞時(shí)的準(zhǔn)確率降低.

      [1] 蘇金樹, 張博鋒, 徐聽. 基于機(jī)器學(xué)習(xí)的文木分類技術(shù)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2006, 17(9):1848-1859.

      [2] 劉遠(yuǎn)超, 王曉龍, 徐志明, 等.文檔聚類綜述[J]. 中文信息學(xué)報(bào), 2006, 20(3):55-62.

      [3] 尤文建, 李紹滋, 李堂秋.基于詞匯鏈的文木過(guò)濾模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2003, 9:32-35.

      [4] TURNEY PD. Learning to extract keyphrase from text[C]. National Research Council, Canada, 1999: 1057-1097.

      [5] FRANK E, PAINTER GW. Domain-specific key phrase extraction[C]. Proceedings of the sixteenth international joint conference on artificial intelligence, Sweden, 1999: 668-673.

      [6] 李素建, 王厚峰, 俞士汶, 等. 關(guān)鍵詞自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2004, 27(9): 1192-1197.

      [7] 徐建民, 劉清江. 基于量化同義詞關(guān)系的改進(jìn)特征詞提取方法[J]. 河北大學(xué)學(xué)報(bào), 2010, 30(1):97-101.

      [8] 索紅光, 劉玉樹, 曹淑英. 一種基于詞匯鏈的關(guān)鍵詞抽取方法[J]. 中文信息學(xué)報(bào), 2006, 20(6): 25-30.

      [9] 王軍. 詞表的自動(dòng)豐富—從元數(shù)據(jù)中提取關(guān)鍵詞及其定位[J]. 中文信息學(xué)報(bào), 2005, 19(6):36-43.

      [10] 王繼成. 基于元數(shù)據(jù)的 Web 信息檢索技術(shù)研究[D]. 南京: 南京大學(xué), 2000.

      Signature word extracting retrieval based on web feature

      PANG Ning
      (The School of Applied Sciences, Taiyuan University of Science and Technology, Taiyuan 030024, P.R.C.)

      Signature word extracting of the text is a useful technique which can abstract web page text, and it provides technical support for text classification, information extraction tasks. A web hierarchical structure is extracted through parsing the semantic relation between each adjacent paragraph in the web page contents. On the basis of the hierarchical structure, this paper uses the HTML metadata and special tags to design a weighting function, which is a combination of the factor of the frequency, length and location for a word. Meanwhile, an initial contrast analysis is carried out of various position factor about contributing degree to the system. Experimental results show that F1 value of improved method has increased by 15.5% than that of the traditional TFIDF extraction method. The contributing degree to the system of the title, abstract and keywords in the location factor are the largest.

      signature word extracting; web; metadata; weighting function

      TP391.1

      A

      1003-4271(2014)01-0137-05

      10.3969/j.issn.1003-4271.2014.01.28

      2013-11-22

      龐寧(1979-), 女, 講師, 碩士, 研究方向: 自然語(yǔ)言處理.

      山西省自然科學(xué)基金(2012011011-4).

      猜你喜歡
      特征詞詞頻段落
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      【短文篇】
      心理小測(cè)試
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      夏天,愛情的第四段落
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      弄清段落關(guān)系 按圖索驥讀文
      讀寫算(下)(2016年11期)2016-05-04 03:44:07
      詞頻,一部隱秘的歷史
      面向文本分類的特征詞選取方法研究與改進(jìn)
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      环江| 当涂县| 阳西县| 海门市| 广南县| 罗城| 彝良县| 永平县| 四会市| 永城市| 徐州市| 石城县| 淄博市| 田林县| 化州市| 丘北县| 江北区| 慈溪市| 曲沃县| 峨眉山市| 元阳县| 四会市| 北流市| 乐安县| 博罗县| 鸡泽县| 广昌县| 大足县| 朝阳区| 清镇市| 牟定县| 富蕴县| 蒙自县| 徐闻县| 滦南县| 淅川县| 泊头市| 南丹县| 集安市| 西安市| 昌乐县|