• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機器學(xué)習(xí)的文本分類技術(shù)分析與研究

      2020-06-30 10:07:21王丁
      科技創(chuàng)新導(dǎo)報 2020年8期
      關(guān)鍵詞:機器學(xué)習(xí)

      王丁

      摘? ?要:在大數(shù)據(jù)時代下,每天會產(chǎn)生海量的文本信息,為實現(xiàn)對海量文本信息的高效利用,就必須運用文本分類技術(shù)剔除信息中的冗余信息,并對文本進行自動分類,在分類文本中提取出具有使用價值的信息,為信息檢索與數(shù)據(jù)挖掘技術(shù)的應(yīng)用打下基礎(chǔ)。在信息數(shù)據(jù)爆發(fā)式增長的環(huán)境下,文本分類技術(shù)已經(jīng)成為數(shù)據(jù)挖掘、信息檢索以及提高信息資源利用價值的重要技術(shù)。本文從概述文本分類技術(shù)入手,將隨機森林算法作為重點,研究了基于機械學(xué)習(xí)的文本分類技術(shù),期望對提高文本分類性能有所幫助。

      關(guān)鍵詞:機器學(xué)習(xí)? 文本分類技術(shù)? 隨機森林算法

      中圖分類號:TP391.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2020)03(b)-0090-02

      本文提出一種基于機器學(xué)習(xí)的文本分類技術(shù),該技術(shù)可應(yīng)用于網(wǎng)頁新聞分類、垃圾郵件識別、網(wǎng)絡(luò)評論分類等領(lǐng)域,具有良好的應(yīng)用前景。

      1? 文本分類技術(shù)

      文本分類是基于自然語言處理技術(shù)框架下對單詞、句子、段落等文本類別標(biāo)簽作出判斷的一種技術(shù),屬于監(jiān)督學(xué)習(xí)方法。文本類別來自于自定義的類別,類別標(biāo)簽可為任意數(shù)量。根據(jù)類別的不同,文本分類包括單層分類與多層分類兩種形式,單層分類的類別標(biāo)簽數(shù)量為一個,多層分類的類別標(biāo)簽數(shù)量為多個。基于機器學(xué)習(xí)的文本分類任務(wù)的完成,實質(zhì)上是函數(shù)映射的過程,具體包括以下五個方面。

      1.1 文本預(yù)處理

      在文本分類之前需對原始數(shù)據(jù)進行預(yù)處理,剔除原始數(shù)據(jù)中的噪聲,將其轉(zhuǎn)變?yōu)橐?guī)范的格式。在文本預(yù)處理中,可采用基于詞典匹配或基于統(tǒng)計的分詞算法進行文本分析,如針對中文文本可采用漢語分詞系統(tǒng)ICTCLAS進行分詞。文本預(yù)處理還要去掉連詞、介詞、語氣助詞等無實際意義的停用詞,以節(jié)省文本存儲空間。

      1.2 文本表示

      在基于機器學(xué)習(xí)的文本分析中,向量空間模型是常用的文本表示方法之一,該模型分為以下兩種版本:(1)詞袋模型。在文本表示中無需考慮文本結(jié)構(gòu)要素之間的關(guān)系,將各要素視為獨立項,根據(jù)詞出現(xiàn)的頻率設(shè)置計算權(quán)重。(2)詞的分布表示。該表示方法可分為基于矩陣、基于聚類和基于神經(jīng)網(wǎng)絡(luò)三種類型的詞的分布模型,其中最后一種分布表示模型可解決前兩種模型存在的維數(shù)災(zāi)難問題。

      1.3 空間降維

      對高維特征矩陣需要進行空間降維,以避免原始數(shù)據(jù)過于龐大而造成計算機計算能力超負(fù)荷運行。在空間降維中,可采用特征選擇與特征提取兩種降維方式。其中,特征選擇可利用卡方統(tǒng)計、交叉熵、文檔頻率閾值等方法提取分類中有用的特征;特征抽取可采用成本分析、線性判別分析等方法提取出低緯度的特征。通過空間降維提取特征,可以保證所提取的特征符合文本語義描述。

      1.4 分類模型訓(xùn)練

      分類模型訓(xùn)練是基于機器學(xué)習(xí)的文本分類關(guān)鍵技術(shù),包括單重分類器方法和多分類器方法。(1)單重分類器方法包括貝葉斯分類、支持向量機、K最近鄰、決策樹等方法。前三種方法均存在一定局限性,如分類精度不足、數(shù)據(jù)處理效率低以及對存儲資源和計算能力要求高。而決策樹能夠?qū)?shù)據(jù)型和異常樣本進行同時處理,保證輸出結(jié)果的精確度,所以本文采用決策樹方法對基于隨機森林算法的文本分類技術(shù)進行研究;(2)多分類器方法包括隨機森林、Bagging等,通過組合單分類器的決策結(jié)果得出樣本分類,適用于小規(guī)模數(shù)據(jù)和少類別文本分類。

      1.5 分類性能評價

      文本分類性能評價根據(jù)數(shù)據(jù)集、評價指標(biāo)、評價測試策略進行評價。其中,數(shù)據(jù)集要求易于清理,適合分類實驗任務(wù);評價指標(biāo)主要包括針對文本分類準(zhǔn)確性、錯誤率、F均衡、召回率、ROC曲線等評價指標(biāo);K折交叉驗證是評價測試的有效策略,通過隨機將數(shù)據(jù)集劃分為不同的k個子集,對各個子集進行測試,重復(fù)k次,取平均正確率,即為測試結(jié)果。

      2? 基于機器學(xué)習(xí)的文本分類技術(shù)

      本文選取機器學(xué)習(xí)中的隨機森林算法對文本分類技術(shù)進行研究,對算法過程、算法評價指標(biāo)、算法特點以及算法優(yōu)化進行分析,以提高文本分類的性能。隨機森林算法集合了CART決策樹算法和Bagging集成算法,涵蓋多個決策樹分類器集合,可解決回歸與分類問題,將最大票數(shù)的類別作為文本分類結(jié)果。

      2.1 算法過程

      隨機森林算法的具體過程如下:對每棵決策樹均生成訓(xùn)練集,樣本數(shù)量為N,從原始訓(xùn)練中抽取n個樣本,n≤N,形成訓(xùn)練子集;在每個訓(xùn)練子集中提取M數(shù)量的特征屬性,并從特征屬性中選取m個特征屬性組成特征子空間,m≤M,構(gòu)成隨機特征子空間。遵循基尼系數(shù)最小原則,在特征子空間中選擇最優(yōu)屬性,開始分類節(jié)點,將所有訓(xùn)練樣本都進行完全分裂,最終形成決策樹;重復(fù)上述步驟,構(gòu)建k棵決策樹,生成隨機森林,按照隨機森林決策模型進行最終決策,最大投票數(shù)的類是最終分類結(jié)果。

      2.2 算法評價

      在隨機森林算法評價中,可選取分類效果與運行效率兩大類評價指標(biāo):(1)分類效果評價指標(biāo)。該類評價指標(biāo)除了可選取上文提出的分類性能評價指標(biāo)之外,還可選用泛化能力指標(biāo)。泛化能力主要用于反映機器學(xué)習(xí)算法對新樣本的適應(yīng)性,可采用OOB(袋外數(shù)據(jù))估計方法進行評價。OOB估計法對隨機森林中錯誤分類樣本數(shù)量進行統(tǒng)計,計算該數(shù)量所占隨機森林樣本總數(shù)的比重,得出OOB誤分率,用以評價文本分類性能;(2)運行效率評價。該評價指標(biāo)可從計算所需的時間與空間資源兩個方向進行選取,其中時間資源包括算法編譯時間、執(zhí)行命令時間、重復(fù)執(zhí)行算法時間等評價指標(biāo),空間資源包括靜態(tài)存儲空間、輸出數(shù)據(jù)空間、算法輸入空間以及可變存儲空間等評價指標(biāo)。

      2.3 算法分析

      隨機森林算法通過組合決策樹,隨機選取樣本和樣本特征,可有效提高算法的降噪能力。避免決策樹在生成過程中出現(xiàn)過度擬合問題,以達(dá)到良好的高維度數(shù)據(jù)處理效果。同時,基于Bagging集成算法的機械學(xué)習(xí)算法,能夠保證各個決策樹之間相互獨立,提高算法模型的運行效率。但是,在復(fù)雜原始數(shù)據(jù)中基于隨機森林算法的文本分類存在著一定的應(yīng)用弊端。如,需要考慮強分類器與弱分類器,易降低分類結(jié)果的精確度;算法中擁有許多超參數(shù),使得算法受決策樹數(shù)量、最大特殊特征數(shù)、最小樣本數(shù)等超參數(shù)影響而降低文本分類的性能。所以,仍需要基于隨機森林算法對文本分類技術(shù)進行優(yōu)化。

      2.4 算法優(yōu)化

      下面針對隨機森林算法的不足進行優(yōu)化,優(yōu)化內(nèi)容包括以下方面:(1)投票機制優(yōu)化。采用決策樹分類效果評價指標(biāo),計算袋外數(shù)據(jù)的分類正確率,將原本輸出樣本的類標(biāo)簽轉(zhuǎn)變?yōu)檩敵鰳颖痉诸惖母怕?,分類正確率越高,則表明決策樹分類效果越好。同時,還要結(jié)合采用類概率加權(quán)投票方法,計算測試樣本中每一個類的概率,將加權(quán)值最大的類作為分類結(jié)果;(2)超參數(shù)優(yōu)化。結(jié)合采用隨機搜索算法和網(wǎng)絡(luò)搜索算法對隨機森林超參數(shù)進行優(yōu)化,獲取最優(yōu)值組合,得出近似最優(yōu)解,即得到最后的分類結(jié)果。

      3? 結(jié)語

      總而言之,文本分類技術(shù)是大數(shù)據(jù)時代下信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一?;跈C器學(xué)習(xí)的文本分類技術(shù),可利用隨機森林算法作為文本分類方法,在優(yōu)化算法的基礎(chǔ)上,進一步完善文本預(yù)處理、文本空間降維、文本分類性能評價的過程,用以彌補傳統(tǒng)文本分類方法的不足,進而提高隨機森林算法的計算能力和文本分類性能。

      參考文獻(xiàn)

      [1] 韋靈,倪志平.基于自然語言處理和機器學(xué)習(xí)的文本分類及其運用[J].科技視界,2019(9):136-137.

      [2] 向志華,鄧怡辰.基于機器學(xué)習(xí)的文本分類技術(shù)研究[J].軟件,2019(9):140-142.

      [3] 王國薇.基于深度學(xué)習(xí)的文本分類方法研究[D].新疆大學(xué),2019.

      [4] 姜璐.基于深度學(xué)習(xí)的新聞文本分類模型研究[D].山東師范大學(xué),2019.

      [5] 周陽.基于機器學(xué)習(xí)的醫(yī)療文本分析挖掘技術(shù)研究[D].北京交通大學(xué),2019.

      猜你喜歡
      機器學(xué)習(xí)
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      基于機器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
      活力(2016年8期)2016-11-12 17:30:08
      基于支持向量機的金融數(shù)據(jù)分析研究
      基于Spark的大數(shù)據(jù)計算模型
      基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
      基于圖的半監(jiān)督學(xué)習(xí)方法綜述
      機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      石城县| 龙海市| 万荣县| 永康市| 武城县| 唐河县| 兴文县| 治县。| 旺苍县| 清涧县| 恭城| 化州市| 新化县| 蓬溪县| 西城区| 顺平县| 芮城县| 榆中县| 大渡口区| 山阳县| 得荣县| 宁乡县| 永春县| 霞浦县| 乌拉特前旗| 绥化市| 龙胜| 鞍山市| 台北市| 彭山县| 平顺县| 中宁县| 舞阳县| 馆陶县| 金沙县| 台安县| 安溪县| 奉节县| 乌兰浩特市| 乌鲁木齐市| 天长市|