• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機器學習的文本分類研究

      2021-12-31 01:30:26王迷莉
      科技創(chuàng)新與應(yīng)用 2021年26期
      關(guān)鍵詞:互信息用詞樸素

      王迷莉

      (山東科技大學,山東 泰安 271000)

      科技的發(fā)展,帶動了文本分類技術(shù)的發(fā)展,如今存在著各式各樣用于文本分類的技術(shù),但是最受人青睞的模型之一是樸素貝葉斯分類模型。由于其構(gòu)建較為簡單,同時分類結(jié)果也較為精確,費時少但得到的效果是高效的,因此受到了人們的廣泛歡迎。

      現(xiàn)如今隨著人們對文本分類需求的增加,使得它有著良好的發(fā)展前景。本篇文章對中文文本分類的理論分析過程和相關(guān)文本分類方法的理論思想過程等進行闡述。此次文章實驗階段作者選取的數(shù)據(jù)是“搜狗實驗室”中的新聞信息數(shù)據(jù),隨后利用python進行編程操作,構(gòu)造樸素貝葉斯分類器進行新聞文本分類。

      1 研究背景與意義

      時代在進步,科技也在進步,涌現(xiàn)出了人工智能、機器學習等新興技術(shù),也引起了文本信息在互聯(lián)網(wǎng)中的盛行。但是網(wǎng)絡(luò)中的文本信息大多數(shù)紛繁復雜,怎樣可以快速高效地提取自己想要的信息?這時就需要借助文本分類技術(shù)來幫助我們更方便地解決此問題。

      文本分類是一種自動分類的方法,它可以事先預定義類別,然后將未分類的數(shù)據(jù)按照預定義類別進行分類,方便進行后續(xù)的操作。文本預處理也相當于一種信息檢索的方法,它可被當成檢索系統(tǒng)的前置步驟,可以大大提高查詢的速度和準確性。而傳統(tǒng)的手工分類技術(shù)存在著工作周期較長、工作效率較低等弊端,因此應(yīng)用統(tǒng)計學和機器學習的文本分類技術(shù)便應(yīng)運而生。

      2 文本分類研究現(xiàn)狀

      2.1 國外研究現(xiàn)狀

      1958年,HP.Luhn開啟了文本分類的先河。他首次提出在文本分類中應(yīng)用詞頻統(tǒng)計的方法,并進行了創(chuàng)新。隨后,Maron和Kuhn首次提出文本自動分類,也拉開了文本自動分類作為獨立研究課題的序幕。

      20世紀90年代后期,計算機技術(shù)蓬勃發(fā)展,同時網(wǎng)絡(luò)信息量不斷增長,人們對文本分類的需求日益增長。傳統(tǒng)的手工分類逐漸被淘汰,基于機器學習的文本分類逐漸被人們所發(fā)現(xiàn)并重視,由于此種方法分類的結(jié)果更加精確,分類速度更快,很快便替代了原本的手工分類。

      2.2 國內(nèi)研究現(xiàn)狀

      與國外相比,國內(nèi)對于文本分類研究起步較晚,并且由于語言之間的差異,導致國外的研究成果不能被直接參照。但是通過借鑒國外的文本分類經(jīng)驗,國內(nèi)的文本分類研究也取得了卓越的成果。1981年,侯漢清教授第一次發(fā)掘了文本分類的應(yīng)用領(lǐng)域。1999年,鄒濤又探索了文本分類中一些十分重要的技術(shù),如相關(guān)模型、特征的提取方法和字典結(jié)構(gòu)等。21世紀初期,文本分類的研究在國內(nèi)開始呈現(xiàn)直線上升趨勢,一些著名的學者,如龐劍鋒、周雪忠、宋欣等,都在文本分類的研究上取得了相應(yīng)的學術(shù)成果。

      文本技術(shù)發(fā)展至今,中文文本分類與機器學習算法相結(jié)合已經(jīng)變得日趨成熟,在人們?nèi)粘I钍褂脮r,文本分類已變得更加方便簡潔。

      2.3 論文的組織安排

      本文的核心內(nèi)容是利用樸素貝葉斯分類器進行新聞文本分類。實驗過程中還使用了LDA主題模型。代碼編寫是在python的集成環(huán)境anaconda中。

      第一部分:介紹本論文主題和文本分類的研究背景與實際意義,分析了國內(nèi)外研究歷程,概述本論文的結(jié)構(gòu)。

      第二部分:介紹了樸素貝葉斯。

      第三部分:介紹了處理的相關(guān)基礎(chǔ)知識與應(yīng)用技術(shù)。

      第四部分:對于樣本數(shù)據(jù)集,編寫相應(yīng)的python代碼進行實驗分析。

      第五部分:結(jié)合理論分析和實驗分析對本論文進行總結(jié)。

      3 樸素貝葉斯分類器

      3.1 樸素貝葉斯分類器的假設(shè)前提

      樸素貝葉斯分類器有一個假設(shè)前提,即假設(shè)每個特征之間都具有很強的獨立性。簡而言之,決策結(jié)果中既沒有很大比例的屬性變量,也沒有很小比例的屬性變量。樸素貝葉斯分類是分類算法中較為簡單的算法,“樸素”顧名思義是說該算法的思想真的并不復雜:在給出的所有待分類項中,我們首先需要逐個算出在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,比較哪個類別的概率最大,就認為此待分類項屬于哪個類別。舉個例子,你看見了一個金發(fā)碧眼的人,心里就可能會猜測是外國人,之所以這樣想是由我們的生活常識給出的答案。為什么不猜測是中國人呢?是因為中國人中很少有金發(fā)碧眼的人物形象(當然并不是沒有),我們猜測他是外國人的原因是,在我們的認知范圍中,更加偏向于選擇最大概率的類別,這也和樸素貝葉斯的思想基礎(chǔ)較為相符。利用樸素貝葉斯的思想構(gòu)建樸素貝葉斯分類器,處理文本分類結(jié)果會更加準確,處理過程也會更加高效,同時算法簡單,模型易于構(gòu)建。

      3.2 樸素貝葉斯的特性

      樸素貝葉斯模型優(yōu)勢較為突出,與其他分類算法相比,它具有扎實的數(shù)學理論基礎(chǔ)、可解釋性強和易于實現(xiàn)的性質(zhì);其次算法復雜度能用來衡量一個算法的優(yōu)劣程度,樸素貝葉斯擁有較低的算法復雜度,使得它比機器學習中的其他模型處理過程更為簡單?;緱l件概率估計的準確性和它的特征獨立性假設(shè)的約束條件是影響最優(yōu)分類的兩個因素。樸素貝葉斯具有較高的實用性,理論上的錯誤會比較少,因此樸素貝葉斯模型的應(yīng)用較為常見。

      當然有優(yōu)勢也就有不足之處。該模型分類的假設(shè)前提是各個屬性相互獨立,這將會影響到分類的準確性和效率。但是在實際應(yīng)用場景中,這個假設(shè)不可能完全成立,因此有眾多研究者嘗試對樸素貝葉斯模型進行相應(yīng)的改進。

      4 文本預處理

      首先將所需要的數(shù)據(jù)從網(wǎng)站上下載下來,通過下載搜狐等各大網(wǎng)站共享新聞數(shù)據(jù)集,作為本次項目的測試集和訓練集。

      4.1 中文分詞

      何為中文分詞?中文分詞就是找到句子中詞與詞之間的界限,該界限是可以自己加以設(shè)計的,習慣上稱為邊界標記。眾所周知,英文中單詞之間的分隔符號簡單,而在中文中,句子之間的分隔則變得多元化,字、句、段、符號等都可以作為分詞的依據(jù),相比于英文,中文的分詞方式更加紛繁復雜。

      中文分詞作為文本分類處理過程中的必需步驟,其主要思想就是將一整篇文本利用分詞技術(shù)切分成單個詞或者詞語。因此,在實驗的過程中,訓練集和測試集都必須利用分詞工具進行分詞處理。

      在本篇文章中使用的分詞工具為結(jié)巴分詞。它利用了機械分詞的最大正向匹配統(tǒng)計分詞中的語言模型,并對未登入的使用隱馬爾科夫模型,使用Veterbi算法推導計算。

      4.2 去停用詞

      停用詞指的是文章中出現(xiàn)頻率較高但對分類幾乎沒有什么用處的詞語。以中文文本為例,停用詞主要包含以下兩方面:

      (1)經(jīng)常會在各類文本中出現(xiàn),且可能出現(xiàn)在文本中任意地方的詞語。由于這些詞語出現(xiàn)的普遍性,導致看到這些詞也無法得出有效的分類信息,無法分析出這篇文章的主題類別,甚至降低分類的準確度。所以需要對它們進行刪除處理。

      (2)人稱代詞、助詞、介詞和文本符號等也屬于停用詞,如“我”“你”“我們”“你們”“地”“的”“啊”“[]”“Y”、“%”等。在實驗時,我們可以將文本中出現(xiàn)的對分類貢獻度不大的詞語歸結(jié)到停用詞中,需要人為手動加入,然后再引用新的停用詞表進行遍歷,刪除文本的停用詞。該過程可以有效節(jié)約內(nèi)存空間、大大減少處理時間和降低計算的復雜性。

      4.3 特征提取

      本篇文章中進行特征提取的主要方法是利用互信息。互信息是用于評判兩個特征相關(guān)性的一個屬性,即一個變量與類別之間的相關(guān)性越大,就認為該詞屬于重要的特征詞,需要保留下來,反之舍棄。

      互信息常用于自然語言處理,而且也是非常重要的指標。在互信息的計算過程中,當互信息值越大時,表示詞與類別之間就越相關(guān),就會將該詞作為重要的特征詞保留下來,反之舍棄。

      4.4 特征表示

      經(jīng)過特征提取后保留的文本特征是文本中最重要的特征,但是計算機并不認識,因此需要進一步轉(zhuǎn)化為計算機能識別的向量。目前,文本表示主流的有三種方法,經(jīng)典的One-hot模型、TF-IDF模型和基于深度學習的Word2vec模型。TF-IDF模型與One-hot模型相比,可以計算反詞頻概率值;Word2vec模型能解決One-hot模型和TF-IDF模型的維度災(zāi)難和向量稀疏的缺陷,最重要的是Word2vec模型能表示詞語之間的語義。本文綜合考慮各種因素,選用Word2vec模型作為文本向量的表示方法。

      在文本向量化過程中,Word2vec模型一般有CBOW和Skipgram訓練模型。CBOW模型的核心思想是利用上下文對中間詞進行預測,即上下文k個詞決定了該詞出現(xiàn)的概率值。Skip-gram模型的核心思想是通過中間詞去預測上下文,該詞決定上下文k個詞語出現(xiàn)的概率值。通過上述可以知道CBOW模型的核心思想和Skip-gram模型正好相反,一個是通過上下文預測中間詞,另一個是通過中間詞預測上下文。

      5 樸素貝葉斯模型

      樸素貝葉斯算法是有監(jiān)督的學習算法,在日常生活中通常解決的是分類問題,如新聞文本的分類、是否值得投資、信用等級評定等諸多分類問題。該算法在某些領(lǐng)域分類問題中的效果與決策樹、神經(jīng)網(wǎng)絡(luò)算法效果不相上下。但由于該算法的假設(shè)前提是條件特征獨立和連續(xù)變量的正態(tài)性,就會影響該算法的精確度。

      5.1 基于樸素貝葉斯新聞分類

      5.1.1 數(shù)據(jù)預處理

      本小節(jié)將詳細介紹對新聞文本進行獲取及處理的過程,其中新聞文本處理的步驟主要包含了新聞分詞、去停用詞及文本向量化的過程,將得到的數(shù)據(jù)應(yīng)用于樸素貝葉斯模型中。中文分詞與去停用詞是進行數(shù)據(jù)預處理的兩個主要部分,也是進行文本分類必不可少的部分。利用python中的jieba分詞工具對數(shù)據(jù)進行預處理,同時將對分類無意義的詞語刪除,如標點符號等,來完成去停用詞的操作。

      5.1.2 抽取各類中的特征詞,統(tǒng)計各分類數(shù)量

      我們進行預處理時,利用jieba分詞工具使得預處理之后的數(shù)據(jù)更加簡潔明了。另外,互信息也是特征項和類別之間相關(guān)程度的體現(xiàn),兩者呈現(xiàn)正相關(guān),是用于評判詞關(guān)聯(lián)統(tǒng)計模型的標準。沒有考慮特征出現(xiàn)的頻率是互信息與期望交叉熵的不同,這樣使得互信息評估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。實驗過程中將新聞中的特征詞提取出來,并且進行分類,分類之后我們可以看出各個特征詞的數(shù)量,以便進行更好的操作。

      5.1.3 導入LDA主題模型

      LDA主題模型,是人們平時對三層貝葉斯概率模型的另一種叫法。三層結(jié)構(gòu)主要是指單詞、主題和文檔。通俗地說,我們把一篇課文中的每一個單詞都看作以一定概率選擇一個主題,并以一定概率從那個主題中選擇一個單詞的過程。從文檔到主題,從主題到單詞,都遵循多項式分布。利用LDA主題模型我們可以很方便地看出新聞隸屬于哪個主題,可以很好地得到文本的分類結(jié)果。

      5.2 進行文本分類

      5.2.1 數(shù)據(jù)準備

      首先定義相關(guān)的主題,在這次實驗中作者定義了10個標簽,分別是汽車、財經(jīng)、科技、健康、體育、教育、文化、軍事、娛樂、時尚。隨后用數(shù)字1-10代表這些主題。將分詞之后的結(jié)果,與定義的結(jié)果進行操作,我們可以看出一些詞隸屬于哪些主題,很好地對其進行了分類。

      5.2.2 劃分訓練集和測試集

      隨后將處理好的數(shù)據(jù)劃分為訓練集和測試集,以便于更好地進行模型的構(gòu)建。之后使用CountVectorizer轉(zhuǎn)換成向量形式,轉(zhuǎn)換為向量模式后,更有利于數(shù)據(jù)的操作,使結(jié)果也更加準確。

      5.2.3 結(jié)果分析

      通過給訓練集訓練模型,最終得到的訓練結(jié)果準確率為0.804。驗證測試集對,測試結(jié)果準確率為0.815,精度較高,說明模型得到了優(yōu)化提升,證明了模型的可行性。

      6 結(jié)束語

      本文詳細介紹了文本分類的發(fā)展歷程,以及其在現(xiàn)代社會的巨大作用,介紹了貝葉斯模型,以及改進后的樸素貝葉斯算法,隨后利用實驗驗證了樸素貝葉斯模型在文本分類中的精確性。其次本文以新聞文本作為基礎(chǔ)數(shù)據(jù),詳細梳理了文本分析、文本表示,主要包含了中文分詞、去停用詞、特征提取和特征表示四個方面,其中Word2vec模型進行文本向量化是本文最核心的內(nèi)容,它可以對向量的維度進行自定義,從而減少了TF-IDF模型產(chǎn)生的稀疏矩陣所帶來維度災(zāi)難問題。經(jīng)過這次的文本分類研究,對文本分類的發(fā)展有了一個更加清晰的框架和更加深刻的認識。

      猜你喜歡
      互信息用詞樸素
      需注意的規(guī)范醫(yī)學用詞
      強化詩詞用詞的時代性
      中華詩詞(2022年2期)2022-12-31 05:57:58
      隔離樸素
      蒼涼又喧囂:《我與地壇》中的用詞
      樸素的安慰(組詩)
      四川文學(2020年11期)2020-02-06 01:54:30
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      當代陜西(2019年23期)2020-01-06 12:18:04
      最神奇最樸素的兩本書
      當代陜西(2019年9期)2019-05-20 09:47:38
      寫話妙計之用詞準確
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習
      聯(lián)合互信息水下目標特征選擇算法
      荆州市| 乐昌市| 扶绥县| 木兰县| 峨眉山市| 正定县| 耒阳市| 沙田区| 余干县| 阜城县| 德昌县| 临漳县| 广平县| 营口市| 本溪| 墨玉县| 朝阳区| 永靖县| 布尔津县| 若尔盖县| 图木舒克市| 阳新县| 依兰县| 怀远县| 汉沽区| 宣化县| 丽江市| 锡林郭勒盟| 平山县| 弥勒县| 宝丰县| 攀枝花市| 河池市| 高陵县| 海盐县| 高碑店市| 东宁县| 喀什市| 桃源县| 镇安县| 浠水县|