• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于樸素貝葉斯的新聞分類算法的研究與分析

      2023-10-25 10:02:52孫亮
      信陽農(nóng)林學院學報 2023年3期
      關(guān)鍵詞:詞頻訓練樣本分詞

      孫亮

      (蘭州文理學院 數(shù)字媒體學院,甘肅 蘭州 730000)

      互聯(lián)網(wǎng)技術(shù)和 IT 領(lǐng)域的飛速發(fā)展,致使我們已經(jīng)進入信息化的潮流時代。文本分類算法一直以來都是自然語言處理范疇的鉆研熱門[1]。文本分類算法在僅僅只有機器學習的背景下已經(jīng)比較成熟了,并有較好的模型成果展示[2]。隨著自媒體時代的發(fā)展,新聞多且雜亂,文本分類算法在新聞分類系統(tǒng)的應用研究則更具有重要意義。國內(nèi)外學者相繼對各類分類模型和算法進行構(gòu)建與改進并加以優(yōu)化。例如K 最近鄰方法、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯方法、決策樹方式等,被接連不斷地改進與改良。在實際應用方面,文本分類有效解決了文本資源獲取速度慢且存儲結(jié)構(gòu)十分混亂的問題,文本分類技術(shù)整合已有的信息資源,讓使用者可以快捷方便、高速準確地找到自身需要的文本資源。

      1 相關(guān)理論與技術(shù)分析

      文本分類一直在原始語言處理范疇中處于研究熱點的地位[3]。信息檢索領(lǐng)域的經(jīng)典研究課題一直是文本分類如何在海量搜集的網(wǎng)絡(luò)文本信息中迅速準確地篩選定位出所需要的信息[4]。一般包含新聞內(nèi)容數(shù)據(jù)的爬取、預處理新聞樣本、提取具有代表性的詞句、選擇分類算法或分類器。在這幾個步驟中,特征的選擇和核心分類算法或分類器的選用關(guān)乎整個系統(tǒng)的準確性,也決定著文本分類結(jié)果的優(yōu)良性。

      1.1 K-最近鄰分類算法

      K-最近鄰分類算法是基于類比的學習算法當中的一種[5]。對某個待分類的測試文本,經(jīng)由算法計算此文本與其他訓練集文本之間的距離,找到在其附近的K個訓練集文本,致使將要分類的文本分為最為普通常見的K類訓練集文本。點x=(x1,x2,…,xn)和點y=(y1,y2,…,yn)之間的距離計算方式如公式(1)所示:

      (1)

      該方法優(yōu)點明顯,簡單有效,但因為其在訓練過程中,具有線性的時間復雜度、空間復雜度,所以當數(shù)據(jù)計算有相當龐大的度量時,訓練集文本的計算速度有限,消耗的時間過長。在文本訓練樣本分布極不均勻時,數(shù)據(jù)較少的類別會被忽略,最終導致文本分類系統(tǒng)的誤判。

      1.2 決策樹算法

      決策樹有著類似于流程圖一般的樹結(jié)構(gòu)[6],其分類過程大致分為三個過程:一是參照已知的訓練集的訓練結(jié)果,構(gòu)建相應的判定樹;二是對該樹進行剪枝操作;三是制訂分類規(guī)則。為了讓該樹中有作用的分支節(jié)點依然存在,降低無用詞對訓練集的影響,剪枝操作不可避免,重要性顯而易見,且這個操作對順序的先后沒有要求。最后,簡單提取過程進行中所需要的分類規(guī)則。有價值的信息內(nèi)容存在于該路線上的每個節(jié)點,而所謂的葉節(jié)點指的是預測信息,即為分類結(jié)果。決策樹算法體現(xiàn)了分而治之的思想,構(gòu)建過程采用遞歸策略完成。決策樹生成的算法通俗易懂,且分類準確率高,修剪枝丫的策略也可以減少噪聲詞的影響。但是,伴隨著數(shù)據(jù)規(guī)模的逐漸增加,計算量也會增加,其效率也就會不盡如人意了。

      1.3 文本分詞技術(shù)

      文本分詞的目的是用空格作為分隔符,一個詞一個詞地分割原始文本。對于切分詞的算法主要有三種:一類是基于字符串匹配,這種算法通常有正向和反向最大兩類順序;另一類是基于句法的語義分析;還有一類是基于統(tǒng)計的詞頻計算。中文文本分詞是處理自然語言的首要步驟,況且與其他語言書寫不一樣的是,中文在詞與詞之間的界限十分模糊,分詞時不好辨別,處理起來相對困難。英文單詞的詞與詞之間使用空格間隔開來,界限不容易混淆,所以在進行中文文本分詞的過程中,最關(guān)鍵的一步是將文本內(nèi)的單詞按照中文的語法含義進行分割,而切分下來的詞,其質(zhì)量的高低將會直接影響后面分類系統(tǒng)結(jié)果的準確率。jieba分詞技術(shù)是當前國內(nèi)最流行的開源的中文分詞工具,它支持多種分詞功能。本系統(tǒng)采用的是自定義詞典添加。jieba分詞工具包含精確模式、完整模式和搜索引擎模式三種分詞模式。具體分詞界面和主要模塊如表1所示:

      表1 分詞模式表

      2 算法設(shè)計

      2.1 樸素貝葉斯分類算法

      樸素貝葉斯算法可以用來進行新聞文本的分類。貝葉斯理論的核心是統(tǒng)計概率后,在某一類別中數(shù)值較大,則認定其從屬于這一相應的類別,即選擇概率最高的決策。這也是樸素貝葉斯決策理論的核心。用到的貝葉斯準則公式如(2)所示:

      (2)

      在經(jīng)過公式中的先驗概率和條件概率的計算后,直接在產(chǎn)生后驗概率中使用其計算結(jié)果,所得到的結(jié)論就是分類結(jié)果,其計算出的后驗概率的數(shù)值最大,符合樸素貝葉斯決策的核心思想如公式(3)所示:

      y=arg maxP(Y=c)∏jP(Xj=xj|Y=c)

      (3)

      由于此新聞分類系統(tǒng)面向應用,因此需具有很重要的分類效率,所以將系統(tǒng)分為樣本集的文本處理和分類階段,盡量在處理過程中計算所需要的數(shù)據(jù),并利用文件數(shù)據(jù)庫保存數(shù)據(jù),這樣新聞分類系統(tǒng)在分類的階段時,會最大程度上節(jié)省概率計算的時間,提高分類的速度,更快地得到分類的結(jié)果。

      2.2 貝葉斯網(wǎng)絡(luò)文本分類流程

      通過對樸素貝葉斯分類過程的一般了解,繪制了與之相關(guān)的流程圖,樸素貝葉斯算法在文本分類中的整體操作過程如圖1所示:

      圖1 總體運算流程

      3 系統(tǒng)設(shè)計與實現(xiàn)

      3.1 文本預處理模塊功能設(shè)計與實現(xiàn)

      新聞分類系統(tǒng)中預處理模塊的執(zhí)行過程具體描述如下:

      (1)獲取經(jīng)過深度學習技術(shù)處理后的文本訓練樣本,處理后的樣本已經(jīng)被分類成功,是極具代表性的分類新聞,將其一起進行訓練,其進度結(jié)果按照50個文本訓練樣本為一次顯示;

      (2)去掉“騰訊科技”“騰訊金融”“新華網(wǎng)”等詞,添加jieba分詞技術(shù)自帶的自定義詞典,然后根據(jù)詞典利用jieba分詞技術(shù)進行分詞,自定義詞典龐大的數(shù)據(jù)量,可以使分詞結(jié)果更加準確、完整;

      (3)從配置文件中讀取現(xiàn)成的停用詞表,在已經(jīng)處理好分詞的新聞文本訓練樣本中進行過濾刪除表中的停用詞,得到更加純粹的文本訓練樣本,并計算提取詞語的詞頻;

      (4)計算去除停用詞后留下的獨立詞語列表中的各個詞語的詞頻,輸出詞語列表及其統(tǒng)計結(jié)果。汽車類的特征詞及詞頻集合如圖2所示:

      圖2 剩余詞語列表結(jié)論

      (5)記錄某一類文本訓練樣本中的特有的詞的數(shù)目,即特征詞,以及所有文本訓練樣本中的所有詞的數(shù)目,統(tǒng)計詞頻結(jié)果如圖3所示:

      圖3 統(tǒng)計結(jié)果

      從圖3中可以看出,在原始文本數(shù)據(jù)被預處理之后,該模塊會最終導致其表示為文件樣本中獨立的詞語集合。然后,可以通過根據(jù)停用詞表中包含的停用,在已經(jīng)分詞結(jié)束的基礎(chǔ)上去除停用詞,簡單粗暴地計算所有文本樣本的非重復詞和所有文本訓練樣本中的詞語,分別得到所有類別的詞頻和所有文本訓練樣本的單詞數(shù)。

      3.2 特征概率計算模塊功能設(shè)計與實現(xiàn)

      新聞分類系統(tǒng)中特征概率計算模塊的執(zhí)行過程中,統(tǒng)計量的計算采用概率=詞頻/(所

      有文本訓練樣本的所有單詞的詞頻+所有文本訓練樣本的所有單詞個數(shù))這一公式,根據(jù)對應公式計算詞頻的概率,并對標特征詞的概率進行由高到低的排序,將其寫入到文件數(shù)據(jù)庫中進行保存,以便測試文本樣本分類時獲取。若有詞未被記錄在之前預處理模塊得到的文件數(shù)據(jù)庫中,我們就認為這是個噪聲詞,將其舍棄或者將詞頻記位1,再根據(jù)公式去計算得出概率。根據(jù)文本分類研究,知道新聞分類的基本單元是特征詞。應該選擇代表性強、含有豐富信息的詞語作為整個新聞的特色詞。獲取的這些特征詞既要充分反映新聞內(nèi)容和新聞類別信息,又要區(qū)別于其他訓練文本,得到分類結(jié)果就會準確又高效。在本研究開發(fā)的系統(tǒng)中,采用樸素貝葉斯公式對其進行了公式化的統(tǒng)計概率,用以計算特征詞和類別之間的依賴關(guān)系,從而得到分類結(jié)果。

      以下為財經(jīng)類新聞的特征詞的概率結(jié)果如圖4所示:

      圖4 計算結(jié)果

      為了方便觀察分析,對7大類新聞文本訓練樣本利用公式進行詞頻概率的計算,將得到統(tǒng)計值由大到小的排序,得出了圖4的結(jié)果。特征概率計算模塊是以分詞后的新聞測試文本為輸入,采用的是樸素貝葉斯概率統(tǒng)計的公式。從圖4可以看出這些詞幾乎全是與財經(jīng)相關(guān)的特征詞,說明了用部分樸素貝葉斯算法計算得出的概率值大的特征詞與財經(jīng)類之間的關(guān)聯(lián)性越強,會使其進行分類的結(jié)果更加準確,說明所采用的特征提取和概率計算的方法是有效的。

      3.3 新聞分類模塊功能實現(xiàn)

      樸素貝葉斯分類模塊包括兩部分:樣本處理以及分類。首先是計算特征詞集合的詞頻概率,把相應特征詞先驗概率數(shù)據(jù)寫入文件數(shù)據(jù)庫,在文本預處理和特征提取模塊階段可以直接使用數(shù)據(jù),并使用樸素貝葉斯算法進行分類。在新聞樣本的處理階段,對文本樣本進行上述的兩個模塊的處理后,計算出每個詞的詞頻和概率,將其結(jié)果寫入兩個文件數(shù)據(jù)庫中,便于之后測試文本時進行調(diào)用。當新聞測試文本被分類時,可以直接從文件數(shù)據(jù)庫中讀取之前保存的數(shù)據(jù),然后采用樸素貝葉斯公式,計算所有詞概率的總和,數(shù)值最大所對應的類別,就是相應新聞測試文本的屬于的類別,這個結(jié)論作為新聞分類的結(jié)果。最后,將測試得到的分類結(jié)果寫入文件數(shù)據(jù)庫,并加以保存。結(jié)果全部寫入文件數(shù)據(jù)庫保存。在分類階段時再把數(shù)據(jù)從數(shù)據(jù)庫讀入內(nèi)存,這樣就可以使分類的效率很高。

      4 總結(jié)

      本研究在探索了國內(nèi)外文本分類技術(shù)的近況以及相關(guān)算法的基礎(chǔ)上,采用了樸素貝葉斯分類算法,完成了一個簡單快速的新聞分類系統(tǒng)。此系統(tǒng)主要分為文本預處理模塊、特征提取計算概率模塊、新聞分類模塊以及測試分類數(shù)據(jù)模塊。在此系統(tǒng)中,可以根據(jù)所含新聞內(nèi)容而設(shè)定的類別,如財經(jīng)、科技、汽車、房產(chǎn)、體育、娛樂等,完成文本處理過程,經(jīng)過樸素貝葉斯分類算法的核心處理,用于分類未知的新聞,并將其歸類到同樣的類別之下。相對人工分類而言,本系統(tǒng)更加方便,快捷,可以把結(jié)果保存在文件數(shù)據(jù)庫中,不易丟失,又便于下一次的分類提取,它還可以避免人為主觀錯誤判斷造成的分類錯誤和數(shù)據(jù)缺乏。與常用的分類系統(tǒng)相比,該系統(tǒng)在選取新聞文本訓練樣本上采用了已經(jīng)經(jīng)過深度學習模型處理后的分類樣本,然后基于樸素貝葉斯分類算法進行概率計算,在一定程度上提高了新聞文本分類的準確性,具有更好的分類效果。

      猜你喜歡
      詞頻訓練樣本分詞
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      人工智能
      結(jié)巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      寬帶光譜成像系統(tǒng)最優(yōu)訓練樣本選擇方法研究
      值得重視的分詞的特殊用法
      融合原始樣本和虛擬樣本的人臉識別算法
      基于稀疏重構(gòu)的機載雷達訓練樣本挑選方法
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學圖書館學報》學術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      新兴县| 南安市| 六枝特区| 定远县| 琼海市| 象州县| 丹寨县| 花垣县| 西乡县| 江孜县| 海阳市| 新龙县| 深水埗区| 天门市| 民勤县| 紫金县| 图们市| 双辽市| 延庆县| 贵阳市| 贵州省| 富民县| 江安县| 永定县| 蓬安县| 定南县| 桓仁| 和顺县| 胶南市| 陇南市| 托克逊县| 山丹县| 治多县| 新闻| 合山市| 枣强县| 湖州市| 尖扎县| 沅陵县| 苍梧县| 丁青县|