99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

<nav id="4kkkk"><code id="4kkkk"></code></nav>

<sup id="4kkkk"></sup>

<sup id="4kkkk"><ul id="4kkkk"></ul></sup>

<small id="4kkkk"><blockquote id="4kkkk"></blockquote></small>

?

結(jié)合CHI統(tǒng)計(jì)和改進(jìn)TF-IDF算法的微博特征項(xiàng)提取

2016-12-16 06:53:24廣東工業(yè)大學(xué)自動(dòng)化學(xué)院朱燕飛鄭卜松

電子世界 2016年22期

關(guān)鍵詞：特征詞后裔個(gè)數(shù)

廣東工業(yè)大學(xué)自動(dòng)化學(xué)院嚴(yán) 萌朱燕飛鄭卜松徐迅

結(jié)合CHI統(tǒng)計(jì)和改進(jìn)TF-IDF算法的微博特征項(xiàng)提取

廣東工業(yè)大學(xué)自動(dòng)化學(xué)院嚴(yán) 萌朱燕飛鄭卜松徐迅

特征項(xiàng)是微博話題檢測(cè)中的重要因素，特征項(xiàng)的提取結(jié)果直接影響話題檢測(cè)計(jì)算的復(fù)雜度和準(zhǔn)確度。本文提出了一種結(jié)合CHI方法和改進(jìn)TF-IDF算法的方法來提取特征項(xiàng)，從而來降低空間向量的維數(shù)。本文考慮到了中文詞中存在一義多詞或一詞多義的緣故，對(duì)傳統(tǒng)的歸一化TF-IDF算法進(jìn)行了一些改進(jìn)，即在計(jì)算詞的權(quán)重時(shí)結(jié)合了詞的語(yǔ)義。通過該算法來提取特征項(xiàng)不僅可以降低建空間向量時(shí)的維度，而且還可以減少話題的重復(fù)性，但在計(jì)算權(quán)重后容易忽略一些有利于分類的低頻詞，故本文在改進(jìn)TF-IDF算法的同時(shí)還結(jié)合了CHI統(tǒng)計(jì)方法，該方法可以發(fā)現(xiàn)一些有利于文本分類結(jié)果的低頻詞。故能從一定程度上提高話題檢測(cè)的準(zhǔn)確率和速度。

CHI；TF-IDF；特征提??；詞頻

微博是Web2.0的技術(shù)基礎(chǔ)上實(shí)現(xiàn)的一種媒介(social media)，其允許使用者通過Web,Wap以及各種客戶端設(shè)備及時(shí)發(fā)送和更新短文本，微博逐漸成為了人們分享、獲取實(shí)時(shí)信息，發(fā)表個(gè)人觀點(diǎn)的最普遍的方式。

比較常用的特征項(xiàng)提取方法主要有互信息、文檔詞頻、信息增益、卡方統(tǒng)計(jì)量、文本證據(jù)權(quán)等，在特征選擇方面，美國(guó)卡內(nèi)基梅隆大學(xué)的Yang教授針對(duì)文本分類問題，在分析和比較了IG、DF、MI和CHI等方法后，得出IG和CHI方法分類效果相對(duì)較好的結(jié)論[1],清華大學(xué)李粵等人[2]提出結(jié)合傳統(tǒng)的互信息方法和CHI統(tǒng)計(jì)方法，使得查全率和查準(zhǔn)率都得到了明顯的提高。但CHI方法只考慮單詞和類別之間的關(guān)系，忽略了單詞與單詞之間的聯(lián)系。這樣選擇的特性有更大的冗余。在向量空間模型中，通常使用的權(quán)重計(jì)算方法是采用TF-IDF方法。在一定的程度上，該方法是能有效地反映一個(gè)特征詞的重要程度，雖然該方法可以減少計(jì)算時(shí)間，簡(jiǎn)化提取步驟，但是這種方法沒有考慮詞與詞之間的聯(lián)系，并且忽略了低頻詞。該方法限制了文本分類的準(zhǔn)確性和特征提取。

本文提出的結(jié)合CHI和改進(jìn)TF-IDF算法的方法來對(duì)特征項(xiàng)進(jìn)行提取，是用改進(jìn)TF-IDF算法來彌補(bǔ)CHI方法在特征提取中存在的不足，從而提高微博話題檢測(cè)的準(zhǔn)確率。

1　CHI統(tǒng)計(jì)特征選擇方法

CHI統(tǒng)計(jì)方法的思想是假設(shè)特征項(xiàng) w與類別с之間的關(guān)系是類似于具有一維自由度的χ2分布。 w對(duì)于с的統(tǒng)計(jì)量可計(jì)算為：

其中，A是包含了特征項(xiàng)w并且還是屬于類別c的文檔個(gè)數(shù)，B是包含特征項(xiàng)w但它不是屬于類別c的文檔個(gè)數(shù)，C則是沒有特征項(xiàng)，w可屬于類別c的文檔個(gè)數(shù)，D代表既沒有特征項(xiàng)w也不屬于類別的文檔個(gè)數(shù)，N是所有的文檔個(gè)數(shù)。

該方法用來衡量類別c之間與類別c之間的關(guān)聯(lián)度。當(dāng)類別c和特征項(xiàng)w相互獨(dú)立時(shí)，有。而當(dāng)類別c和特征項(xiàng)w的關(guān)聯(lián)性越強(qiáng)，的值就會(huì)越大，其價(jià)值越大，其識(shí)別信息量就越大。

Yang[3]的研究表明，CHI統(tǒng)計(jì)方法是目前最好的特征選擇方法之一。與其他方法相比，分類效果好。大多數(shù)中文分類系統(tǒng)都采用這種方法，可是存在下面幾個(gè)缺點(diǎn)：

⑴CHI統(tǒng)計(jì)方法只是考慮到了詞的文檔頻，并無(wú)顧及到特征的詞頻，故極大的放大了低頻詞的作用。

⑵特征詞的CHI值是將特征詞對(duì)一個(gè)類別的CHI值與其余不同類別的卡方值做對(duì)比，CHI值很可能把對(duì)某一特定的類別的貢獻(xiàn)低，而對(duì)其它的類的貢獻(xiàn)高的特征詞給選擇出來。

2　TF-IDF及其改進(jìn)

TF-IDF由Jones[4]首次提出, 其計(jì)算公式如下常用的計(jì)算方法如下：

其中，m是表示特征詞在文檔i中出現(xiàn)的次數(shù)，M 表示文檔i中的總單詞數(shù)量。

其中，N 為總文檔數(shù)，n 為包含某項(xiàng)特征詞的文檔總數(shù)。選用傳統(tǒng)歸一化 TF-IDF算法來給特征項(xiàng)賦權(quán)時(shí)，其計(jì)算公式如下：

tij是代表了第i個(gè)文本中的第j個(gè)特征項(xiàng)，tfij代表了特征項(xiàng)j出現(xiàn)在文本i的頻率，Wij代表了特征項(xiàng)tij的權(quán)重，為逆文檔頻率，N是代表文檔的總數(shù)，nij是代表包含了所有tij的文本數(shù)量。

采用傳統(tǒng)歸一化 TF-IDF方法來給特征項(xiàng)賦權(quán)時(shí)，并沒有思考詞語(yǔ)的近義詞會(huì)在文本集中出現(xiàn)的情形，如果采用該方法給特征項(xiàng)賦權(quán)就忽略了文本中的這種特性，本文在文獻(xiàn)[5]中給出的結(jié)合語(yǔ)義給特征項(xiàng)賦權(quán)的基礎(chǔ)下改進(jìn)了傳統(tǒng)歸一化TF-IDF方法，實(shí)現(xiàn)了形式與詞義的結(jié)合，其定義公式如下：

其中，ε為文本i中包含得得特征項(xiàng)tij和與特征項(xiàng)tij相似度大于γ的特征項(xiàng)的個(gè)數(shù)之和與特征項(xiàng)tij的個(gè)數(shù)的商，mij表示包含特征項(xiàng)tij或與特征項(xiàng)tij的相似度大于γ的特征項(xiàng)的文本個(gè)數(shù)，γ是系統(tǒng)設(shè)定值。在文獻(xiàn)[6]中通過對(duì)知識(shí)的描述語(yǔ)言分析，得悉“知網(wǎng)”的描述知識(shí)言可以用集合與義原、特征結(jié)構(gòu)這兩種抽象數(shù)據(jù)結(jié)構(gòu)來表達(dá)，語(yǔ)義的相似計(jì)算方法采用的是基于“知網(wǎng)”中的計(jì)算相似度的算法來確定γ=0.8。

3　基于CHI方法和改進(jìn)TF-IDF算法的特征提取

然后結(jié)合CHI重新給一個(gè)類的所有詞賦權(quán)，計(jì)算公式如下：

4　實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)數(shù)據(jù)來自于微博開放平臺(tái)API，使用網(wǎng)絡(luò)爬蟲技術(shù)獲取2015年3月—2015年4月的微博，將每個(gè)微博文本的內(nèi)容當(dāng)成一個(gè)部分。利用結(jié)合CHI和改進(jìn)的TF-IDF算法的方法來提取特征項(xiàng)來減少微博文本的維度。電腦系統(tǒng)Window7,RAM 6G。軟件用Java編程，用MATLAB7.0實(shí)現(xiàn)結(jié)果的對(duì)比。

5　實(shí)驗(yàn)步驟與結(jié)果

5.1特征項(xiàng)提取流程圖

圖1　微博特征項(xiàng)提取流程圖

獲取2000關(guān)于《太陽(yáng)的后裔》的微博和2000條與《太陽(yáng)的后裔》無(wú)關(guān)的微博。有，SCN=NEWS。

將獲得微博數(shù)據(jù)進(jìn)行預(yù)處理，本文中使用由張華平、劉群等人設(shè)計(jì)和開發(fā)的 ICTCLAS分詞系統(tǒng)[7]對(duì)中文微博信息進(jìn)行分詞和詞性標(biāo)注，然后去掉停用詞得到詞。把獲取的微博數(shù)據(jù)SCN分為兩類一類是《太陽(yáng)的后裔》和另一類非《太陽(yáng)的后裔》，取這兩類中的所有不同的詞即為。再計(jì)算每個(gè)微博中每個(gè)詞的詞頻即為，從SCN的一類中取得所有不同詞。

5.2實(shí)驗(yàn)結(jié)果

表格1是傳統(tǒng)的歸一化TF-IDF 算法與改進(jìn)的TF-IDF算法對(duì)詞權(quán)重計(jì)算的結(jié)果。從圖2可以得出在改進(jìn)的TF-IDF算法下得到權(quán)重都比傳統(tǒng)的算法得到的值大，這是因?yàn)槲覀冊(cè)谟?jì)算的時(shí)候考慮到了詞語(yǔ)的語(yǔ)義，將近義詞歸在一起求值。因此改進(jìn)后的方法可以減少由詞的近義詞所引起的誤差。提高了計(jì)算的準(zhǔn)確性。

表1　兩種方法下計(jì)算的詞權(quán)

圖2　權(quán)重結(jié)果對(duì)比仿真圖

做三組實(shí)驗(yàn)，實(shí)驗(yàn)一：取1700條微博，850條關(guān)于《太陽(yáng)的后裔》和850條與《太陽(yáng)的后裔》無(wú)關(guān)的微博。實(shí)驗(yàn)二：取1800條微博，900條關(guān)于《太陽(yáng)的后裔》和900條與《太陽(yáng)的后裔》無(wú)關(guān)的微。實(shí)驗(yàn)三：取1900條微博，950條關(guān)于《太陽(yáng)的后裔》和950條與《太陽(yáng)的后裔》無(wú)關(guān)的微博。用CHI方法和本文提出的方法來進(jìn)行特征項(xiàng)的選擇。表2是3組實(shí)驗(yàn)數(shù)據(jù)的結(jié)果對(duì)比圖。本文根據(jù)文獻(xiàn)[8]微平均精確率( micro-averaging precision)，被普遍的用于交叉驗(yàn)證的比較。這里它來比較不同的特征選擇算法的效果。圖3顯示的是SVM分類器分別采用CHI方法和基于結(jié)合CHI和改進(jìn)的TF-IDF算法的方法在微博數(shù)據(jù)集上的micro_ P曲線。從圖3可知用不同方法分別獲取400,800,1200,1600個(gè)特征項(xiàng)時(shí)SVM分類器的micro_P值中可以看出基于基于結(jié)合CHI和改進(jìn)TF-IDF算法的方法提取的特征項(xiàng)在一定程度上提高了查準(zhǔn)率。

表2　三組實(shí)驗(yàn)數(shù)據(jù)的結(jié)果對(duì)比圖

圖3　采用不同方法提取特征的SVM分類器性能比較

6　結(jié)束語(yǔ)

本文的研究工作是關(guān)于文本特征提取，提高特征提取的準(zhǔn)確度從而達(dá)到降維的目的。CHI只是關(guān)注詞與詞之間的關(guān)系，新的方法提高了特征項(xiàng)提取的結(jié)果。在此基礎(chǔ)上，利用支持向量機(jī)進(jìn)行文本分類的準(zhǔn)確率達(dá)到了81.2%，本實(shí)驗(yàn)取得了良好的效果，能提高微博話題檢測(cè)的準(zhǔn)確率。

[1]Yang Yi-ming,LIU Xin.Annual International ACM SIGIR Conference on Research and Development in information[J].Annual International ACM SIGIR Conference on Research and Development in Information Retrieval New York：ACM,1999,8(6):42-49.

[2]李粵,李星,劉輝等.一種改進(jìn)的文本網(wǎng)頁(yè)分類特征選擇方法[J].計(jì)算機(jī)應(yīng)用,2004,7(3):119-121.

[3]Yang Yi-ming.An evaluation of statistical approaches to text categorization[J].Information Retrieval,2000,1(1-2):69-9.

[4]Jones K S.A Statistical Interpretation of Term Specificity and Its Application in Retrieval[J].Journal of documentation,1972,28(1):11-21.

[5]任姚鵬,陳立潮,張英俊,等.結(jié)合語(yǔ)義的特征權(quán)重計(jì)算方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,10(10):2381-2383.

[6]張敬.網(wǎng)絡(luò)輿情的熱點(diǎn)檢測(cè)及趨勢(shì)分析研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,9(8):156-158.

[7]衣波,陳新.網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[J].廣東工業(yè)大學(xué)學(xué)報(bào),2013,8(30):58-64.

[8]程奇華,張立臣.信息物理融合系統(tǒng)語(yǔ)義模型分析[J].廣東工業(yè)大學(xué)學(xué)報(bào),2016,33(03):43-48.

嚴(yán)萌【通訊作者】（1991—），女，碩士研究生，主要研究方向：微博話題檢的學(xué)習(xí)和研究。

朱燕飛（1976—），女，副教授，研究方向：系統(tǒng)建模、智能算法分析及控制。

鄭卜松（1992—），男，碩士研究生，研究方向：系統(tǒng)建模、智能算法分析及控制。

徐訓(xùn)（1992—），男，碩士研究生，研究方向：系統(tǒng)建模、智能算法分析及控制。

猜你喜歡

特征詞后裔個(gè)數(shù)

怎樣數(shù)出小正方體的個(gè)數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級(jí))(2021年9期)2021-10-14 07:57:00

尋找恐龍后裔

小哥白尼(神奇星球)(2021年3期)2021-07-22 03:18:14

等腰三角形個(gè)數(shù)探索

中學(xué)生數(shù)理化·七年級(jí)數(shù)學(xué)人教版(2019年10期)2019-11-25 07:34:00

怎樣數(shù)出小木塊的個(gè)數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級(jí))(2019年9期)2019-09-25 07:43:28

怎樣數(shù)出小正方體的個(gè)數(shù)

小學(xué)生學(xué)習(xí)指導(dǎo)(低年級(jí))(2018年9期)2018-09-26 05:59:46

基于改進(jìn)TFIDF算法的郵件分類技術(shù)

計(jì)算機(jī)技術(shù)與發(fā)展(2018年8期)2018-08-21 02:08:14

產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用

中國(guó)機(jī)械工程(2017年22期)2017-12-02 01:52:34

《哥倫布后裔》中的歷史改寫與雜糅敘事

英美文學(xué)研究論叢(2017年2期)2017-03-01 07:33:59

稀見史料與王安石后裔考——兼辨宋代筆記中相關(guān)記載之訛

浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)預(yù)印本(2016年3期)2016-02-28 12:13:38

面向文本分類的特征詞選取方法研究與改進(jìn)

中文信息學(xué)報(bào)(2015年4期)2015-04-21 08:29:12

電子世界2016年22期

電子世界的其它文章: 煤礦數(shù)據(jù)的移動(dòng)化研究; 卡爾曼濾波算法在變壓器繞組脈沖頻率響應(yīng)法中的應(yīng)用; 智能新風(fēng)系統(tǒng)算法設(shè)計(jì); 淺談高壓電纜護(hù)套環(huán)流監(jiān)測(cè)裝置; 智能分布式光伏發(fā)電實(shí)訓(xùn)平臺(tái)的設(shè)計(jì); 基于BQ控制芯片的智能手機(jī)無(wú)線充電系統(tǒng)設(shè)計(jì)

玉龙| 莲花县| 离岛区| 磐石市| 海伦市| 监利县| 安龙县| 瓮安县| 平远县| 镇平县| 大竹县| 蒙阴县| 郧西县| 永定县| 元朗区| 伊春市| 阿拉善盟| 铁岭县| 胶南市| 同德县| 宜兴市| 南靖县| 德令哈市| 抚远县| 扎鲁特旗| 宜宾市| 岳池县| 新津县| 科技| 威信县| 白玉县| 浦城县| 金平| 大竹县| 淳安县| 汽车| 梧州市| 安仁县| 平舆县| 翼城县| 大关县|

<tfoot id="kkkkk"><dd id="kkkkk"></dd></tfoot>

<small id="kkkkk"><blockquote id="kkkkk"></blockquote></small>

<sup id="kkkkk"><ul id="kkkkk"></ul></sup>