• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      互聯(lián)網(wǎng)新聞話題特征選擇與構(gòu)建

      2015-12-25 08:07趙旭劍鄧思遠(yuǎn)李波張暉楊春
      軟件 2015年7期
      關(guān)鍵詞:特征選擇

      趙旭劍++鄧思遠(yuǎn)++李波++張暉++楊春明++喻瓊++王耀彬

      摘要:新聞話題的特征表示是建立話題模型以及進(jìn)行話題聚類(融合)的基礎(chǔ),傳統(tǒng)的特征構(gòu)建一般采用關(guān)鍵字構(gòu)成的向量表示模型,未對(duì)特征的選取、分類以及質(zhì)量等方面進(jìn)行完整的研究,因此本文擬針對(duì)互聯(lián)網(wǎng)新聞文檔進(jìn)行特征提取、特征構(gòu)建以及話題聚類質(zhì)量分析等方面的系統(tǒng)研究,闡明話題特征的選擇與構(gòu)建對(duì)文本話題研究的影響,為后續(xù)的話題檢測(cè)與追蹤等應(yīng)用提供更科學(xué)的特征理論模型。實(shí)驗(yàn)結(jié)果表明經(jīng)過(guò)話題特征優(yōu)選后的聚類效果有助于提高話題模型的準(zhǔn)確性,避免噪聲特征帶來(lái)的話題歧義。

      關(guān)鍵詞:話題特征;話題模型;話題聚類;特征選擇

      中圖分類號(hào):TP391

      文獻(xiàn)標(biāo)識(shí)碼:A

      DOI: 10.3969/j.issn.1003-6970.2015.07.004

      0 引言

      信息技術(shù)的快速發(fā)展以及互聯(lián)網(wǎng)的迅速普及,在線新聞文檔數(shù)據(jù)成爆炸式增長(zhǎng)。然而,這些文檔數(shù)據(jù)大部分是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的文本數(shù)據(jù),人們要想從中快速、準(zhǔn)確地找到自己所想要的內(nèi)容極其困難。因此,如何合理、有效地組織和管理這些信息,從而提高人們檢索數(shù)據(jù)的速度和準(zhǔn)確程度,已經(jīng)成為信息檢索和數(shù)據(jù)挖掘領(lǐng)域中的熱點(diǎn)課題,文本聚類和分類作為處理這一難題的有力手段,已經(jīng)成為研究的熱點(diǎn)課題。文本聚類、分類等針對(duì)互聯(lián)網(wǎng)新聞的分析和挖掘技術(shù)在推薦系統(tǒng)、信息過(guò)濾、輿情分析和個(gè)性化推薦等領(lǐng)域具有較高的應(yīng)用價(jià)值。實(shí)現(xiàn)對(duì)新聞話題的挖掘應(yīng)用,需要首先對(duì)新聞報(bào)道構(gòu)建話題模型,將話題轉(zhuǎn)化為可進(jìn)行計(jì)算和比較的信息表示模型,因此,如何有效選擇話題特征構(gòu)建話題模型將對(duì)互聯(lián)網(wǎng)的新聞話題挖掘研究產(chǎn)生重要影響。

      有效的特征選擇方法不僅可以降低文本的特征向量維數(shù),刪除冗余特征,保留類別區(qū)分能力較強(qiáng)的特征,而且在處理非平衡數(shù)據(jù)集分類時(shí),也應(yīng)該能夠克服類別當(dāng)中特征分布不平衡的問(wèn)題,提高正類樣本的識(shí)別率,從而有助于提高分類器的整體性能;合理的特征加權(quán)方法可以扼制噪聲特征對(duì)分類的負(fù)面影響,并將特征代表文檔屬于某個(gè)類別的能力差別最大化。從話題模型的類別來(lái)看,目前話題特征的選擇主要采用三種方式。首先,作為信息檢索領(lǐng)域一種重要的文本表示模型,向量空間模型(Vector Space Model, VSM)以其結(jié)構(gòu)簡(jiǎn)單、方便計(jì)算等特點(diǎn)得到了諸多學(xué)科和應(yīng)用的廣泛關(guān)注,該模型主要采用詞項(xiàng)作為話題特征,而概率主題模型(Probabilistic Topic Model,PTM)則根據(jù)詞項(xiàng)、文檔和話題三者的貝葉斯概率來(lái)表示話題特征,具有扎實(shí)的數(shù)學(xué)基礎(chǔ)。詞項(xiàng)與詞項(xiàng)之間的語(yǔ)義關(guān)聯(lián)體現(xiàn)了話題的線索,因此,采用詞匯鏈的方式構(gòu)建話題特征也具有一定代表性。然而,傳統(tǒng)的話題特征選擇方法未闡明特征選擇與構(gòu)建對(duì)話題挖掘性能的影響,沒(méi)有考慮特征的分類和選擇策略,針對(duì)該問(wèn)題,本文擬針對(duì)互聯(lián)網(wǎng)新聞文檔進(jìn)行特征提取、特征構(gòu)建以及話題聚類質(zhì)量分析等方面的系統(tǒng)研究,建立面向互聯(lián)網(wǎng)新聞話題的話題特征選擇和構(gòu)建機(jī)制,為話題挖掘研究提供科學(xué)的特征模型。

      1 話題特征提取

      對(duì)于新聞文檔,我們采用報(bào)道中的詞項(xiàng)作為話題特征的基本對(duì)象,通過(guò)對(duì)詞項(xiàng)的選擇構(gòu)建新聞報(bào)道的話題特征。因此,本文首先利用自然語(yǔ)言處理技術(shù)對(duì)新聞文本進(jìn)行話題特征提取。

      1.1 停用詞過(guò)濾和命名實(shí)體識(shí)別

      在信息檢索中,為節(jié)省存儲(chǔ)空間和提高搜索效率,在處理自然語(yǔ)言數(shù)據(jù)(或文本)之前或之后會(huì)自動(dòng)過(guò)濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。對(duì)于一個(gè)給定的目的,任何一類的詞語(yǔ)都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語(yǔ)言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒(méi)有什么實(shí)際含義,比如'the'、'iS'、at、'which'、'on'等。另一類詞包括詞匯詞,這些詞應(yīng)用十分廣泛,但是對(duì)詞搜索引擎無(wú)法保證能夠給出真正相關(guān)的搜索結(jié)果,難以幫助縮小搜索范圍,同時(shí)還會(huì)降低搜索的效率,所以通常會(huì)把這些詞從文本中移去,從而提高搜索性能。中文中常見(jiàn)的停用詞包括“一下”,“一直”,“三番兩次”,“不僅…而且”,“具體地說(shuō)”等等。

      而命名實(shí)體識(shí)別(NER)是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。本文正是基于不同命名實(shí)體的類別,并結(jié)合詞項(xiàng)的其余特征,進(jìn)行話題特征的選擇,因此,命名實(shí)體的識(shí)別性能將影響話題特征的選擇。命名實(shí)體識(shí)別的過(guò)程通常包括兩部分:(1)實(shí)體邊界識(shí)別;(2)確定實(shí)體類別(人名、地名、機(jī)構(gòu)名或其他)。英語(yǔ)中的命名實(shí)體具有比較明顯的形式標(biāo)志(即實(shí)體中的每個(gè)詞的第一個(gè)字母要大寫),所以實(shí)體邊界識(shí)別相對(duì)容易,任務(wù)的重點(diǎn)是確定實(shí)體的類別。和英語(yǔ)相比,漢語(yǔ)命名實(shí)體識(shí)別任務(wù)更加復(fù)雜,而且相對(duì)于實(shí)體類別標(biāo)注子任務(wù),實(shí)體邊界的識(shí)別更加困難。

      1.2 詞性標(biāo)注

      詞性標(biāo)注即判定給定句子中每個(gè)詞的語(yǔ)法范疇,確定其詞性并加以標(biāo)注的過(guò)程。因?yàn)樵谥形闹幸粋€(gè)詞語(yǔ)往往會(huì)有很多種詞性,為了更加精準(zhǔn)的區(qū)分每個(gè)詞在句中的含義,所以我們需要使用詞性標(biāo)注。在本文的研究中,我們認(rèn)為詞性體現(xiàn)了話題的語(yǔ)義信息,通過(guò)對(duì)詞項(xiàng)詞性進(jìn)行篩選,有助于提高話題特征的準(zhǔn)確性。針對(duì)600篇中文新聞的新聞標(biāo)題,我們進(jìn)行了中文分詞和詞性標(biāo)注,得到如表1所示的統(tǒng)計(jì)結(jié)果。從表格數(shù)據(jù)不難發(fā)現(xiàn)新聞核心四元素主要集中來(lái)源于五類詞語(yǔ),即名詞、動(dòng)詞、非謂語(yǔ)形容詞、時(shí)態(tài)詞以及數(shù)詞。因此,對(duì)于標(biāo)注后的結(jié)果我們只需要關(guān)注以上五類詞語(yǔ),在細(xì)化抽取對(duì)象的同時(shí)排除助詞、連詞等噪聲詞語(yǔ)對(duì)于話題抽取的干擾。

      1.3 特征權(quán)重計(jì)算

      構(gòu)建話題特征模型后,每一維特征值根據(jù)詞項(xiàng)的TF-IDF模型計(jì)算得到。文檔的權(quán)重向量d表示為 ,其中

      是詞組t在文檔d中出現(xiàn)的頻率(一個(gè)局部參數(shù)), 可是逆向文件頻率(一個(gè)全局參數(shù)),IDI是文件集中的文件總數(shù), 是含有詞組t的文件數(shù)。因此,文件 和q之間的余弦相似度可通過(guò)公式3計(jì)算得到。

      猜你喜歡
      特征選擇
      正交基低冗余無(wú)監(jiān)督特征選擇法
      網(wǎng)絡(luò)入侵檢測(cè)場(chǎng)景下的特征選擇方法對(duì)比研究
      基于實(shí)例學(xué)習(xí)和協(xié)同子集搜索的特征選擇方法
      基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
      Kmeans 應(yīng)用與特征選擇
      基于GA和ELM的電能質(zhì)量擾動(dòng)識(shí)別特征選擇方法
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
      非線性電路多軟故障的智能優(yōu)化遞階特征選擇診斷方法
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      文安县| 蕲春县| 贵港市| 铁岭市| 称多县| 通许县| 扎赉特旗| 南宁市| 邯郸市| 景德镇市| 乌审旗| 潼南县| 红桥区| 建瓯市| 宣威市| 石狮市| 沙坪坝区| 巴中市| 福海县| 扎赉特旗| 塔城市| 达尔| 精河县| 定日县| 城步| 丰原市| 仪征市| 徐州市| 福安市| 崇明县| 沅江市| 古丈县| 通州市| 和林格尔县| 五原县| 房山区| 韩城市| 富民县| 广饶县| 望奎县| 嘉义市|