• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TF-IDF-MP 算法的新聞關(guān)鍵詞提取研究

      2021-04-24 09:09:16曹義親盛武平周會(huì)祥
      關(guān)鍵詞:特征詞詞頻權(quán)值

      曹義親,盛武平,周會(huì)祥

      (華東交通大學(xué)軟件學(xué)院,江西 南昌330013)

      文檔關(guān)鍵詞體現(xiàn)了文檔主題與內(nèi)容,是理解文檔內(nèi)容的最小單位。 文檔關(guān)鍵詞抽取,也稱關(guān)鍵詞提取或關(guān)鍵詞標(biāo)注,是從文本中把與該文本所表達(dá)的意義最相關(guān)的一些詞或短語(yǔ)抽取出來(lái),文檔的自動(dòng)關(guān)鍵詞抽取是識(shí)別或標(biāo)注文檔中具有這種功能的代表性的詞或短語(yǔ)的自動(dòng)化技術(shù)[1]。 在文本分類中,文檔通常使用向量空間模型(vector space model,VSM)[2]表示,然后通過(guò)有監(jiān)督的機(jī)器學(xué)習(xí)方法將待分類文本劃分到預(yù)定義的類別中。 根據(jù)VSM 模型可知,每個(gè)文檔都被表示為一個(gè)特征向量,由文本語(yǔ)料庫(kù)中提取的許多術(shù)語(yǔ)(詞或特征)的權(quán)重組成。 因此,如何給特征詞賦予合適的權(quán)重是文本分類任務(wù)中的一個(gè)基本問(wèn)題,直接影響到分類的準(zhǔn)確性。

      在文本分類過(guò)程中, 特征提取是一個(gè)關(guān)鍵步驟。 首先采用某個(gè)特征評(píng)估函數(shù)計(jì)算每個(gè)特征的數(shù)值,然后根據(jù)數(shù)值對(duì)特征排序,最后選取若干個(gè)數(shù)值最高的作為特征詞。 它的主要作用是在不丟失文本關(guān)鍵信息的前提下盡量減少待處理詞語(yǔ)數(shù)量,以此來(lái)降低向量空間維數(shù),從而簡(jiǎn)化計(jì)算,提高分類的速度與效率。 常用的特征提取的方式有4 種:①采用映射方法將高維的特征向量變換為低維特征向量; ②從原始特征中挑選出一些最具代表性、分類性能好的特征;③根據(jù)專家知識(shí)選擇最具有影響力的特征;④采用數(shù)學(xué)方法找出最能體現(xiàn)分類信息的特征。

      Uysal A K 提出了一種改進(jìn)的全局特征選擇方法, 對(duì)通用特征選擇方法的最后一步進(jìn)行了修改,使用局部特征選擇方法根據(jù)特征對(duì)類的區(qū)分能力來(lái)標(biāo)記特征, 并在生成特征集時(shí)使用這些標(biāo)記[3]。2018 年,他在原先研究的基礎(chǔ)上,從不同的角度對(duì)文本分類的兩階段特征選擇方法進(jìn)行廣泛的分析,研究基于濾波的局部特征選擇方法與特征變換相結(jié)合的特征選擇方法。 實(shí)驗(yàn)結(jié)果表明,采用主成分分析方法獲得的準(zhǔn)確率相比較其他方法更高[4]。Wan C 等提出了一種基于文本結(jié)構(gòu)的復(fù)合特征提取算法,既可以用于測(cè)量文本相關(guān)性又可以增加復(fù)合特征的值,并采用支持向量機(jī)和樸素貝葉斯分類器在3 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法的有效性[5]。 Agnihotri D 等采用關(guān)聯(lián)評(píng)分法,它結(jié)合單詞之間的相互信息與強(qiáng)聯(lián)系來(lái)對(duì)文本進(jìn)行分類,在Webkb, 20Newsgroup, Ohsumed10 和Ohsumed23 4 個(gè)標(biāo)準(zhǔn)文本數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明Macro_F1 值取得了顯著的提高[6]。Zhang L G 等人基于樸素貝葉斯文本分類器提出了兩種自適應(yīng)特征加權(quán)方法,實(shí)驗(yàn)結(jié)果表明,該特征加權(quán)算法有效地提升了分類的準(zhǔn)確率,保持了最終模型的簡(jiǎn)單性并縮短了執(zhí)行時(shí)間, 但對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感,分類決策存在一定的錯(cuò)誤率[7]。Haj-Yahia Z 等提出一種無(wú)監(jiān)督的方法,通過(guò)結(jié)合通用和特定領(lǐng)域的人類專業(yè)知識(shí)和語(yǔ)言模型來(lái)豐富類別標(biāo)簽,文本分類實(shí)驗(yàn)效果要比采取簡(jiǎn)單的監(jiān)督方法更好些,但model 不同的trick 在不同數(shù)據(jù)集表現(xiàn)有差異性,而且采用貝葉斯算法作比較,充分性不太夠[8]。Habibi M 等解決了從會(huì)話中提取關(guān)鍵字的問(wèn)題,并使用關(guān)鍵字為每個(gè)簡(jiǎn)短的會(huì)話檢索少量可能相關(guān)的文檔,從而達(dá)到文檔推薦的目的[9]。Wu Q W 等提出了一種新的基于隨機(jī)森林的集成方法ForesTexter,包括特征子空間選擇和分割準(zhǔn)則,將要素分為兩組,并為要素生成有效的術(shù)語(yǔ)權(quán)重,實(shí)驗(yàn)結(jié)果證明了提出的ForesTexter 方法的有效性[10]。

      詞頻-逆文檔頻率 (Term Frequency-Inverse Document Frequency,TF-IDF)算法是一種經(jīng)典的特征權(quán)重算法,在一定程度上,這個(gè)算法可以較好的反映出某個(gè)特征詞在文本分類過(guò)程中區(qū)分文本屬性的重要程度,但是其理論依據(jù)存在一些不足[11]。為此, 國(guó)內(nèi)外許多學(xué)者針對(duì)TF-IDF 算法中存在的問(wèn)題進(jìn)行了改進(jìn),有效地提升了特征權(quán)重算法的準(zhǔn)確性和效率。

      羅燕等采用齊普夫定律結(jié)合特征詞在文檔中的詞頻,推導(dǎo)出同頻詞的計(jì)算公式并計(jì)算出各頻次詞語(yǔ)的比例,結(jié)合TF-IDF 算法提取文檔關(guān)鍵詞[12]。 牛永潔等綜合考慮特征詞的位置、詞性、詞語(yǔ)關(guān)聯(lián)性、詞長(zhǎng)和詞跨度等因素, 結(jié)合TF-IDF 算法提取關(guān)鍵詞[13]。 Ghosh S 等基于TF-IDF 算法提出一種受監(jiān)督的功能構(gòu)建方法,結(jié)合不同災(zāi)難場(chǎng)景下發(fā)布的信息對(duì)推文進(jìn)行分類[14]。Chen K 等比較研究許多不同的術(shù)語(yǔ)加權(quán)方案,利用了跨不同類別文本的細(xì)粒度術(shù)語(yǔ)分布,提出了一種新的術(shù)語(yǔ)加權(quán)算法TF-IGM[15]。張瑾提出基于TF-IDF、 詞位置和詞跨度的關(guān)鍵詞自動(dòng)提取的方法, 加入位置權(quán)值及詞跨度權(quán)值,在情報(bào)關(guān)鍵詞提取中有廣泛的應(yīng)用價(jià)值[16]。 高楠等提出了一種融合語(yǔ)義特征的短文本關(guān)鍵詞提取方法,該方法從統(tǒng)計(jì)信息和語(yǔ)義層面分析了詞語(yǔ)的重要性,并結(jié)合特征詞的詞頻、長(zhǎng)度、位置和語(yǔ)言等特征提取出最相關(guān)的關(guān)鍵詞集合[17]。

      雖然這些文獻(xiàn)對(duì)關(guān)鍵詞提取算法都進(jìn)行了有效改進(jìn),但是都沒(méi)有同時(shí)考慮文檔中特征詞的位置信息與主題的關(guān)聯(lián)程度以及該算法在樣本不均衡的數(shù)據(jù)集上的差異。本文在TF-IDF 算法的基礎(chǔ)上,結(jié)合特征詞詞頻均值化與特征詞位置信息對(duì)權(quán)重算法進(jìn)行改進(jìn),提出了TF-IDF-MP(Term Frequency-Inverse Document Frequency-Mean term frequency and Position weighting)算法。 采用Sigmoid 函數(shù)對(duì)詞頻與詞頻均值的差進(jìn)行處理,同時(shí),根據(jù)相關(guān)文檔中某些位置的關(guān)鍵段落賦予一定的權(quán)重調(diào)節(jié)因子,最后結(jié)合TF-IDF 計(jì)算特征詞的權(quán)值。實(shí)驗(yàn)也證明了TF-IDF-MP 算法有效地提高了分類精確率、召回率和F1 值等評(píng)價(jià)指標(biāo)。

      1 相關(guān)算法

      TF-IDF 的基本思想來(lái)自語(yǔ)言建模理論,常用于信息檢索與文本分類,同時(shí)也是一種統(tǒng)計(jì)方法,用來(lái)判定單個(gè)字詞對(duì)一個(gè)文檔集合或一個(gè)文檔的重要程度。 一個(gè)字詞在文檔中出現(xiàn)的頻率越高,則其重要程度應(yīng)成正比例增加, 但若出現(xiàn)在語(yǔ)料庫(kù)其他文檔中的頻率也很高,則其重要程度應(yīng)成反比例下降。

      TF-IDF 的主要思想是: 如果一個(gè)字詞在一篇文檔中出現(xiàn)的次數(shù)很多,而在語(yǔ)料庫(kù)其他文檔中出現(xiàn)的次數(shù)很少,那么就可以認(rèn)為該字詞具有良好的分類效果,適合當(dāng)作分類關(guān)鍵詞。

      1) 詞頻。TF 表示詞頻,即某個(gè)詞出現(xiàn)在文檔中的次數(shù), 為了減少文檔詞數(shù)差異對(duì)結(jié)果造成的誤差,通過(guò)對(duì)詞頻進(jìn)行歸一化處理(即用詞頻除以文章總詞數(shù)),如下

      式中:tfi表示詞i 歸一化處理后的值;Ni,d表示詞i出現(xiàn)在文檔d 中的總次數(shù);分母表示文檔d 中全部詞語(yǔ)的總個(gè)數(shù)。

      2) 逆文檔頻率。 IDF 表示逆文檔頻率,如果包含詞i 的文檔在語(yǔ)料庫(kù)中比較少, 則表明詞i 在區(qū)分文檔類別時(shí)可以起到良好的效果。 計(jì)算一個(gè)詞的idfi,可使用語(yǔ)料庫(kù)中文檔總數(shù)量去除以所有包含該詞的文檔數(shù)量,然后對(duì)結(jié)果取對(duì)數(shù)。 如下

      若一個(gè)詞區(qū)分類別效果比較好,則這個(gè)詞應(yīng)該賦予較大權(quán)值,反之就賦予較小權(quán)值,一個(gè)詞的tfidf 值就是

      3) 樸素貝葉斯算法。樸素貝葉斯分類器是一種基于貝葉斯定理的簡(jiǎn)單概率分類器, 對(duì)條件概率分布做了獨(dú)立性假設(shè), 通過(guò)將條件概率彼此相乘來(lái)計(jì)算最大后驗(yàn)概率從而對(duì)文檔進(jìn)行分類[18]。樸素貝葉斯算法的流程可以描述如下: 由多個(gè)特征詞組成的文檔d 表示為式(4),并根據(jù)貝葉斯規(guī)則其對(duì)應(yīng)的類別標(biāo)簽為式(5)[19]

      在這種情況下,對(duì)于給定的類別c,P(Y=c)是類別c的概率,而P(wi|Y=c)是特征詞wi的概率。多項(xiàng)式模型和多元伯努利模型在式(5)中的P(wi| Y=c)的計(jì)算上有所不同。 根據(jù)多項(xiàng)式和多元伯努利事件模型,概率計(jì)算分別為式(6)和式(7)

      式中:tfwi,c是類別c 中wi的詞頻;|c|是類別c 中詞頻的總和;dfwi,c是類別c 中wi的文檔頻率;Nc是類別c 中的文檔總數(shù)。如果文檔d 中不存在單詞wi,則概率公式對(duì)于特征詞wi變?yōu)槭剑?)

      在本文中,將多元伯努利事件模型用于樸素貝葉斯分類。

      2 TF-IDF-MP 算法

      2.1 均值化詞頻

      傳統(tǒng)的TF-IDF 算法根據(jù)特征詞詞頻和特征詞的逆文檔頻率的乘積來(lái)進(jìn)行權(quán)重計(jì)算,簡(jiǎn)單的認(rèn)為詞頻高的特征詞應(yīng)該賦予較高權(quán)值。 但一些日常用詞,如“的”、“雖然”、“一些”等,在文檔中出現(xiàn)的次數(shù)比較多,對(duì)分類會(huì)產(chǎn)生負(fù)效果,賦值較大是不合理的。

      首先根據(jù)特征詞在單個(gè)文檔中出現(xiàn)的次數(shù)與該特征詞在語(yǔ)料庫(kù)所有文檔中出現(xiàn)的平均次數(shù)進(jìn)行比較,若某個(gè)特征詞在單個(gè)文檔中出現(xiàn)的次數(shù)大于出現(xiàn)在語(yǔ)料庫(kù)文檔的平均次數(shù),則說(shuō)明該特征詞對(duì)這個(gè)文檔的重要程度要比其他文檔更高,應(yīng)該賦予更大權(quán)重,反之賦予較小權(quán)重;然后采用Sigmoid函數(shù)對(duì)兩者的差值進(jìn)行處理。

      Sigmoid 函數(shù)的圖像是一條單調(diào)遞增平滑曲線,易于求導(dǎo),值域在0 和1 之間,可以用來(lái)做二分類,在特征相差不是很大時(shí)結(jié)果比較好。Sigmoid 函數(shù)的公式如下

      圖像如圖1 所示。

      圖1 Sigmoid 函數(shù)圖像Fig.1 Sigmoid function image

      從圖1 可以看出,當(dāng)橫坐標(biāo)為0 時(shí),縱坐標(biāo)為0.5。 在本算法中,若直接將Sigmoid 函數(shù)中的X 替換為上述兩者的差值, 可發(fā)現(xiàn)當(dāng)兩者的差值相等時(shí),即橫坐標(biāo)為0,特征詞詞頻縮小為原先的二分之一,特征詞的權(quán)重也縮小為原先的二分之一,這是不合理的,根據(jù)前面的描述,此時(shí)該特征詞對(duì)這個(gè)文檔的重要程度應(yīng)與其他文檔一致。

      本算法將Sigmoid 函數(shù)進(jìn)行了改進(jìn), 修改后的公式如下

      式(10)的圖像如圖2 所示。

      圖2 式(10)對(duì)應(yīng)的函數(shù)圖像Fig.2 Function image corresponding to Formula 10

      當(dāng)上述兩者的差值相等時(shí),此時(shí)縱坐標(biāo)的值為1,表示特征詞的權(quán)重與根據(jù)TF-IDF 計(jì)算出的權(quán)重一致;當(dāng)兩者差值大于0 或小于0 時(shí),此時(shí)縱坐標(biāo)的值相應(yīng)的大于1 或小于1,符合本實(shí)驗(yàn)的要求。若將Sigmoid 函數(shù)的分子改為3 或者更大, 可發(fā)現(xiàn)特征詞的權(quán)重被放大很多倍,實(shí)驗(yàn)誤差較大。 為此,本算法中將Sigmoid 函數(shù)的分子改為2,可以有效地縮小特征詞詞頻之間差異,使得關(guān)鍵詞提取算法更加準(zhǔn)確。

      為此,均值化詞頻(Mean Term Frequency,M)公式如下

      式中:Ni,d為在文檔d 中特征詞i 出現(xiàn)的次數(shù);Ni為特征詞i 在語(yǔ)料庫(kù)文檔中平均出現(xiàn)的次數(shù)。

      若特征詞出現(xiàn)單個(gè)文檔中的次數(shù)低于該特征詞出現(xiàn)在語(yǔ)料庫(kù)文檔中的平均次數(shù), 那么M 值小于1,則最終權(quán)重降低,反之則權(quán)重增加。通過(guò)對(duì)詞頻均值化處理, 可以降低常用詞在詞頻上造成的影響。

      2.2 特征詞位置加權(quán)

      特征詞位置信息的權(quán)重賦值法是將特征詞在文檔中的位置信息作為位置權(quán)重因子, 并結(jié)合詞頻-逆文檔頻率計(jì)算特征詞最后的權(quán)重。 TF-IDF 算法并未將特征詞位置信息作為權(quán)重影響因素加入公式中計(jì)算, 但事實(shí)上特征詞在文檔中位置的不同,對(duì)整個(gè)文檔內(nèi)容的重要性也有較大差異的。

      在新聞網(wǎng)站中,基本上文章的主題都會(huì)在第一段和最后一段表現(xiàn)出來(lái), 所以從分類角度來(lái)看,文章的開(kāi)始和結(jié)束部分一般都會(huì)出現(xiàn)關(guān)鍵詞,比較重要, 所以應(yīng)該賦予這兩部分的特征詞更高的權(quán)值。為此,本文采用jieba 分詞并進(jìn)行詞性標(biāo)注,將文章第一段和最后一段出現(xiàn)的名詞的位置權(quán)重因子設(shè)為P,其余特征詞位置權(quán)重因子為1,定義位置權(quán)重因子Pi如下

      2.3 均值化詞頻-特征詞位置加權(quán)

      本文在TF-IDF 算法的基礎(chǔ)上, 考慮文檔中特征詞的位置信息與主題的關(guān)聯(lián)程度以及樣本不均衡數(shù)據(jù)集上的差異,加入均值化詞頻和特征詞位置信息等參數(shù), 最終計(jì)算特征詞權(quán)重的TF-IDF-MP公式如下

      將式(1),式(2),式(11),式(12)代入式(13),得到

      3 TF-IDF-MP 算法在新聞分類中的應(yīng)用

      3.1 實(shí)驗(yàn)設(shè)計(jì)

      實(shí)驗(yàn)步驟示意圖如圖3 所示。

      1) 數(shù)據(jù)集選擇。本實(shí)驗(yàn)采用的是搜狗新聞數(shù)據(jù)集, 包含health,house,news,business 等14 個(gè)類別的新聞,不同類別的新聞數(shù)量差異較大,存在樣本不均衡特性。 數(shù)據(jù)格式如下:

      然后根據(jù)標(biāo)簽中網(wǎng)址的二級(jí)域名進(jìn)行分類,上述例子中的新聞?lì)悇e為news 類,根據(jù)這種方式提取所有文檔新聞?lì)悇e, 并提取出相應(yīng)的標(biāo)簽中的新聞內(nèi)容信息。 分類后的文件列表如圖4 所示。

      圖3 實(shí)驗(yàn)步驟示意圖Fig.3 Schematic diagram of experimental steps

      圖4 分類后的新聞文件列表Fig.4 List of classified news files

      接下來(lái)選取每篇字?jǐn)?shù)不低于200 字的新聞文檔,每個(gè)新聞?lì)悇e選400 篇,選10 個(gè)類別一共4 000 篇文章進(jìn)行實(shí)驗(yàn),其中選擇10 個(gè)類別文檔各300 篇共3 000 篇為實(shí)驗(yàn)訓(xùn)練集, 剩下的1 000篇為實(shí)驗(yàn)測(cè)試集。

      2) 文本分詞。 采用jieba 分詞工具對(duì)每篇文檔內(nèi)容分詞后再標(biāo)注詞性。

      3) 去停用詞。使用哈工大停用詞表對(duì)數(shù)據(jù)集中的文檔去除停用詞。

      4) 詞頻均值化。根據(jù)特征詞在單個(gè)文檔中出現(xiàn)的次數(shù)與該特征詞在語(yǔ)料庫(kù)文檔中出現(xiàn)的平均次數(shù)進(jìn)行比較, 然后采用Sigmoid 函數(shù)對(duì)特征詞權(quán)重進(jìn)行增加或者減少處理。

      5) 段落加權(quán)。在初始范圍內(nèi)分類的精確率隨段落中名詞位置權(quán)重因子的增加而提高,但當(dāng)位置權(quán)重因子達(dá)到一定數(shù)值時(shí),該名詞對(duì)文章實(shí)際的作用效果被夸大,降低分類精確率,因此位置權(quán)重因子存在一個(gè)精確率峰值。 為此,選取100 篇新聞按照本文實(shí)驗(yàn)步驟進(jìn)行實(shí)驗(yàn),給文檔第一段和最后一段出現(xiàn)的名詞設(shè)置不同的權(quán)重因子Pi,并使用精確率為評(píng)價(jià)指標(biāo)尋求最合適的權(quán)重因子,計(jì)算不同P 值測(cè)試得到的精確率的平均值。 實(shí)驗(yàn)中, 權(quán)重因子P在1 到2 之間遞增選取,取0.05 為步長(zhǎng),依次進(jìn)行實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果整理繪制成圖5。根據(jù)圖5 可知該數(shù)據(jù)集的Pi最優(yōu)取值為1.2, 因此將文檔第一段和最后一段出現(xiàn)的名詞的位置權(quán)重因子設(shè)為1.2,其余特征詞位置權(quán)重因子為1。

      6) 計(jì)算權(quán)值。 結(jié)合TF-IDF-MP 算法計(jì)算權(quán)值并按照權(quán)值大小從大到小排序。

      圖5 不同Pi 值對(duì)Precision 值的影響Fig.5 The effect of different Pi values on the Precision value

      7) 分類。選取每篇文檔中權(quán)值最大的5 個(gè)特征詞,將其權(quán)重值添加到樸素貝葉斯算法中,計(jì)算出每篇文檔屬于各分類的概率,選擇分類概率中的最大值作為最終類別。

      8) 對(duì)比分析實(shí)驗(yàn)結(jié)果。

      3.2 評(píng)價(jià)指標(biāo)

      為驗(yàn)證新算法的有效性, 本實(shí)驗(yàn)選取health,house,news,business 等10 個(gè) 類 別 不 同 的 文 檔 各100 篇作為測(cè)試集,使用TF-IDF、文獻(xiàn)[13]中算法、文獻(xiàn)[16]中算法和本文算法進(jìn)行對(duì)比實(shí)驗(yàn)。 采用精確率、召回率和F1 值來(lái)評(píng)價(jià)函數(shù)性能,其定義如下。

      1) 精確率(Precision)。 表示分類結(jié)果全部預(yù)測(cè)為正的文檔中正確的數(shù)量在總數(shù)的占比,計(jì)算公式如下

      2) 召回率(Recall)。 表示分類結(jié)果全部預(yù)測(cè)為正的文檔中正確的數(shù)量占實(shí)際為正總數(shù)的比例,計(jì)算公式如下

      3) 綜合評(píng)價(jià)指標(biāo)(F1)是精確率和召回率的調(diào)和均值, 相當(dāng)于精確率和召回率的綜合評(píng)價(jià)指標(biāo),計(jì)算公式如下

      上述3 個(gè)公式中,TP 代表將實(shí)際為正類樣本分類成正類樣本的個(gè)數(shù),TN 代表將實(shí)際成負(fù)類樣本分類成負(fù)類樣本的個(gè)數(shù),F(xiàn)P 代表將實(shí)際為負(fù)類樣本分類成正類樣本的個(gè)數(shù),F(xiàn)N 代表將實(shí)際為正類樣本分類成負(fù)類樣本的個(gè)數(shù)。

      3.3 實(shí)驗(yàn)結(jié)果和分析

      通過(guò)精確率、 召回率和F1 值這3 個(gè)評(píng)價(jià)指標(biāo)對(duì)TF-IDF 算法、文獻(xiàn)[13]改進(jìn)算法、文獻(xiàn)[16]改進(jìn)算法與本文改進(jìn)算法對(duì)提取關(guān)鍵詞進(jìn)行比較分析,結(jié)果如表1 所示。

      表1 TF-IDF 算法、文獻(xiàn)[13]算法、文獻(xiàn)[16]算法和本文改進(jìn)算法提取關(guān)鍵詞的實(shí)驗(yàn)結(jié)果Tab.1 TF-IDF algorithm,Ref[13]algorithm,Ref[16]algorithm and the experimental results of this algorithm %

      通過(guò)精確率、召回率和F1 值這3 個(gè)評(píng)價(jià)指標(biāo)對(duì)TF-IDF 算法、文獻(xiàn)[13]改進(jìn)算法、文獻(xiàn)[16]改進(jìn)算法與本文改進(jìn)算法采用樸素貝葉斯算法分類后進(jìn)行比較分析,結(jié)果如表2 所示。

      表2 TF-IDF 算法、文獻(xiàn)[13]算法、文獻(xiàn)[16]算法和本文改進(jìn)算法采用樸素貝葉斯分類后的實(shí)驗(yàn)結(jié)果Tab.2 TF-IDF algorithm, Ref [3] algorithm, Ref [16] algorithm and experimental results of the improved algorithm in this paper after using Naive Bayes classification %

      通過(guò)表1 可以發(fā)現(xiàn), 本文提出的TF-IDF-MP算法在提取關(guān)鍵詞時(shí)要比TF-IDF 算法、 文獻(xiàn)[13]中的算法和文獻(xiàn)[16]中的算法性能更優(yōu),3 個(gè)評(píng)價(jià)指標(biāo)都有了明顯的提高, 從而也驗(yàn)證了本文算法的合理性。

      通過(guò)表2 可以發(fā)現(xiàn),采用樸素貝葉斯算法對(duì)提取的文檔關(guān)鍵詞進(jìn)行分類后,精確率、召回率和F1評(píng)價(jià)指標(biāo)值整體有一定提升。 這是因?yàn)?,本文的文檔數(shù)量雖然比較多,但只是對(duì)每篇文檔中5 個(gè)權(quán)值較大的特征詞進(jìn)行分類,數(shù)據(jù)規(guī)模比較小,分類效率穩(wěn)定,符合樸素貝葉斯的應(yīng)用場(chǎng)景。

      在文獻(xiàn)[13]中,綜合考慮了特征詞的位置、詞性、詞語(yǔ)關(guān)聯(lián)性、詞長(zhǎng)和詞跨度等因素,但并沒(méi)有考慮因詞頻差異帶來(lái)的問(wèn)題,沒(méi)有去掉文檔中的停用詞,不同位置的權(quán)重設(shè)置也不太合理,一篇文章中首段和尾段的位置權(quán)重應(yīng)該設(shè)為一致,而且最后的權(quán)重計(jì)算應(yīng)該是各個(gè)影響因素相乘, 而不是相加,權(quán)重相乘更能減少特征詞權(quán)重的差異,提高實(shí)驗(yàn)準(zhǔn)確率。 在文獻(xiàn)[16]中,綜合考慮了位置權(quán)值及詞跨度權(quán)值,但不同位置設(shè)置的權(quán)重值相差過(guò)大,也沒(méi)有考慮特征詞詞頻因素,容易增大實(shí)驗(yàn)誤差。

      TF-IDF-MP 算法結(jié)合特征詞在語(yǔ)料庫(kù)中詞頻的分布情況和在特征詞文檔中的位置信息,對(duì)那些在文檔中出現(xiàn)高于特征詞詞頻均值的特征詞和更能體現(xiàn)文檔主題的文檔第一段以及最后一段的名詞賦予較高的權(quán)重,而對(duì)那些低于特征詞詞頻均值的特征詞降低權(quán)重, 使得TF-IDF-MP 算法在提高關(guān)鍵詞提取效果與文本分類方面起到了積極作用。

      4 結(jié)論

      1) TF-IDF-MP 算法在TF-IDF 算法中加入均值化詞頻與特征詞位置權(quán)重因子等參數(shù)來(lái)調(diào)節(jié)特征詞權(quán)重以提取文檔關(guān)鍵詞。

      2) 新算法根據(jù)特征詞在單個(gè)文檔中出現(xiàn)的次數(shù)與該特征詞在語(yǔ)料庫(kù)所有文檔中出現(xiàn)的平均次數(shù)進(jìn)行比較, 采用Sigmoid 函數(shù)調(diào)整特征詞權(quán)值大小,然后根據(jù)標(biāo)注好詞性的特征詞,將文章第一段和最后一段出現(xiàn)的名詞的位置權(quán)重因子設(shè)為1.2,據(jù)此對(duì)TF-IDF 算法進(jìn)行改進(jìn)。 實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的改進(jìn)算法的合理性和可靠性, 較相關(guān)算法,精確率、召回率和F1 值均得到較好的提升。

      3) 該算法還有一些待進(jìn)一步深入研究的問(wèn)題。在設(shè)置特征詞位置權(quán)重因子時(shí),應(yīng)該做進(jìn)一步深入的研究分析, 以期得到更合理更全面的權(quán)重因子,進(jìn)一步提高實(shí)驗(yàn)結(jié)果的可靠性。 在接下來(lái)的研究過(guò)程中,筆者將不斷進(jìn)行研究實(shí)驗(yàn)來(lái)尋找最適合本算法的權(quán)值因子,并結(jié)合特征詞類內(nèi)間分布和根據(jù)詞語(yǔ)相似度合并同類詞語(yǔ)來(lái)增加文本分類的精確率。

      猜你喜歡
      特征詞詞頻權(quán)值
      一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      CONTENTS
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
      詞頻,一部隱秘的歷史
      面向文本分類的特征詞選取方法研究與改進(jìn)
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      凤阳县| 临高县| 封开县| 玛多县| 钦州市| 易门县| 颍上县| 景东| 宁河县| 新河县| 南京市| 额济纳旗| 铜川市| 赣榆县| 饶平县| 武宣县| 静宁县| 临桂县| 乌审旗| 山东省| 松滋市| 宁国市| 镇平县| 桐城市| 米易县| 肃宁县| 临桂县| 瓦房店市| 天全县| 三都| 榕江县| 田林县| 囊谦县| 新丰县| 河南省| 南汇区| 当阳市| 绥江县| 犍为县| 化德县| 盐池县|