• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Spark平臺(tái)下基于加權(quán)詞向量的文本分類方法

      2022-04-22 11:19:14蔡宇翔王佳斌鄭天華
      現(xiàn)代計(jì)算機(jī) 2022年3期
      關(guān)鍵詞:分類器文檔向量

      蔡宇翔,王佳斌,鄭天華

      (華僑大學(xué)工學(xué)院,泉州 362021)

      0 引言

      隨著信息時(shí)代的發(fā)展,互聯(lián)網(wǎng)上的文本數(shù)據(jù)呈現(xiàn)爆發(fā)式的增長(zhǎng)。海量的數(shù)據(jù)未經(jīng)過(guò)分類,人們無(wú)法高效地對(duì)其提取有用的信息,也浪費(fèi)了網(wǎng)絡(luò)資源。文本分類作為文本處理重要的技術(shù)之一,被廣泛地用于各項(xiàng)自然語(yǔ)言處理任務(wù)當(dāng)中。文本分類即是通過(guò)特定的算法,分析文本數(shù)據(jù)中的潛在規(guī)則,再將新的文本和對(duì)應(yīng)的類別相匹配。Spark計(jì)算框架是基于內(nèi)存計(jì)算,并不會(huì)產(chǎn)生IO開銷,可以大幅度提高文本分類的處理效率。文本分類任務(wù)中的難點(diǎn)是如何將文本表現(xiàn)為向量形式。文獻(xiàn)[6]中使用TF-IDF算法,對(duì)亞馬遜評(píng)論文本進(jìn)行向量化,并使用了Spark mllib庫(kù)下的三種機(jī)器學(xué)習(xí)分類算法:邏輯回歸、支持向量機(jī)和樸素貝葉斯,其中支持向量機(jī)的效果最優(yōu),精度達(dá)到了86%,但是使用TF-IDF方法在文本數(shù)量龐大的情況下,會(huì)將文本映射成一個(gè)高維的、稀疏的向量,導(dǎo)致維度災(zāi)難,且這種方法是將詞語(yǔ)進(jìn)行獨(dú)立計(jì)算,無(wú)法衡量單詞和單詞之間的語(yǔ)義關(guān)系。分布式表示法又被稱為詞嵌入、詞向量。Word2Vec是谷歌發(fā)布的一款計(jì)算詞向量的工具,通過(guò)在語(yǔ)料庫(kù)上的訓(xùn)練,可以很好地表示詞與詞之間的相似性。它使用單詞的上下文計(jì)算單詞的向量,充分利用了單詞之間的語(yǔ)義關(guān)系。文獻(xiàn)[9]中使用了Word2Vec詞嵌入技術(shù)對(duì)建筑文本進(jìn)行向量化,并使用Spark并行化分類算法,使得訓(xùn)練時(shí)間極大地縮短。文獻(xiàn)[10]為了更加全面地表示詞向量,使用外部語(yǔ)料庫(kù)對(duì)Word2Vec模型進(jìn)行預(yù)先訓(xùn)練,再結(jié)合改進(jìn)后的CNN對(duì)新聞文本進(jìn)行分類,在Spark平臺(tái)并行化后,相較于單機(jī)傳統(tǒng)的方法,運(yùn)行效率和精度都得到了提升。相對(duì)于傳統(tǒng)的建模方法,使用Word2Vec對(duì)文本進(jìn)行表示的方法更好。然而,單獨(dú)使用Word2Vec詞嵌入技術(shù),只是將文本表示為文本中所有單詞的詞向量的平均值,這種方法無(wú)法體現(xiàn)每一個(gè)單詞在句子中的重要程度。針對(duì)此問題,本文結(jié)合Spark平臺(tái)提出了基于加權(quán)詞向量的文本表示方法,并使用SVM分類器進(jìn)行文本分類。

      1 Spark平臺(tái)下基于加權(quán)詞向量的文本分類方法

      1.1 文本表示方法

      TF-IDF是一種常用的計(jì)算詞語(yǔ)權(quán)重的方法,TF(term frequency)表示詞語(yǔ)在單個(gè)文檔中出現(xiàn)的次數(shù),IDF(inverse document frequency)表示包含某個(gè)詞語(yǔ)的文檔數(shù)越少,該詞語(yǔ)的區(qū)分能力就越高。TF-IDF算法的核心思想是如果一個(gè)詞語(yǔ)在某個(gè)文本中出現(xiàn)的頻次較高,那它可能是對(duì)文本比較重要的單詞,也有可能是一些普通程度的常用單詞。為了區(qū)分這種情況,將詞頻和逆文檔頻率相乘,如果該詞語(yǔ)較多地出現(xiàn)在該文本內(nèi),又較少地出現(xiàn)在其他文本內(nèi),則可以認(rèn)為該詞語(yǔ)對(duì)這個(gè)文本的重要性高,相應(yīng)的TF-IDF值也會(huì)較高。TF-IDF考慮了詞語(yǔ)在文檔中的分類情況,以此來(lái)表示詞語(yǔ)的重要程度。

      TF-IDF的計(jì)算公式如下:

      TF表示單詞的詞頻,n表示詞語(yǔ)在文檔中出現(xiàn)的次數(shù),分母表示文檔中的總單詞數(shù)。IDF表示單詞的逆文檔頻率,表示數(shù)據(jù)集中的總文檔數(shù),D表示含有單詞的文檔數(shù),分母加一是為了避免分母為0導(dǎo)致運(yùn)算錯(cuò)誤。本文使用TF-IDF值作為單詞在文檔中的權(quán)重。

      Word2Vec是2013年由谷歌開源的一款詞嵌入工具,它使得詞語(yǔ)可以被分布式表示。它是MIKOLOV提出的一種基于神經(jīng)網(wǎng)絡(luò)的概率模型,它在詞向量的維數(shù)通常設(shè)置為100~300,對(duì)比傳統(tǒng)的高維向量,可以簡(jiǎn)化計(jì)算,且不會(huì)引起維度災(zāi)難。

      Word2Vec分為skip-gram和CBOW兩種方式,CBOW模型是通過(guò)前后的個(gè)詞來(lái)預(yù)測(cè)中心詞出現(xiàn)的概率,它的數(shù)學(xué)表示為:

      而skip-gram模型則是通過(guò)中心詞來(lái)預(yù)測(cè)前后的個(gè)詞,數(shù)學(xué)表示為:

      兩種模型之中,skip-gram模型的語(yǔ)義準(zhǔn)確率高,但是同樣的計(jì)算代價(jià)高,訓(xùn)練時(shí)間較長(zhǎng)。skip-gram模型有三層神經(jīng)網(wǎng)絡(luò)構(gòu)成,包括輸入層,投影層和輸出層。輸入層為中心詞語(yǔ)的One-Hot向量,乘上模型訓(xùn)練后的權(quán)值矩陣,輸出層為詞語(yǔ)分布在中心詞語(yǔ)前后的概率矩陣。本文使用skip-gram模型進(jìn)行訓(xùn)練。skip-gram模型如圖1所示。

      圖1 skip-gram模型

      如果單純的使用文本的平均詞向量來(lái)作為文本表示,無(wú)法顯示單詞的重要性。本文基于Spark ML下的特征庫(kù),計(jì)算每個(gè)單詞的詞頻以及TF-IDF值,將TF-IDF值歸一化后作為權(quán)值與詞向量相乘,提升重要單詞的權(quán)重,降低非重要單詞的權(quán)重,單詞權(quán)重值的公式如下:

      (,)表示為文檔中詞語(yǔ)的權(quán)重值,得到權(quán)重值后將文檔j表示為:

      w表示文檔的特征向量,w表示單詞的詞向量。將得到的特征向量作為文本表示。向量化的流程圖如下,將向量化后的文本作為分類器的輸入。

      圖2 向量化流程

      1.2 文本分類器選擇

      文本分類是自然語(yǔ)言處理的基礎(chǔ)任務(wù),新聞分類,情感分析等技術(shù)都屬于文本分類的子任務(wù)。分類算法的流程就是對(duì)文本的內(nèi)容進(jìn)行訓(xùn)練,構(gòu)建分類器,使用分類器對(duì)待測(cè)試文本進(jìn)行測(cè)試,將其分到相近的類別中。通常文本分類常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)、樸素貝葉斯、決策樹、隨機(jī)森林算法等。其中支持向量機(jī)的原理是尋找一個(gè)超平面,使得樣本與超平面的間隔最大。由于系統(tǒng)健壯性好,正確率高等優(yōu)點(diǎn),被廣泛運(yùn)用在文本分類,語(yǔ)音識(shí)別等分類任務(wù)中。因此,本文使用基于Spark ML機(jī)器學(xué)習(xí)庫(kù)的支持向量機(jī)方法進(jìn)行分類,在驗(yàn)證加權(quán)詞向量文本表示方法有效性的同時(shí),提高計(jì)算效率。

      2 實(shí)驗(yàn)與分析

      2.1 實(shí)驗(yàn)環(huán)境

      本文的實(shí)驗(yàn)集群由3臺(tái)虛擬機(jī)組成,其中1臺(tái)作為Master,兩臺(tái)作為Slave,系統(tǒng)版本為CentOS7,Spark版本為2.4,Hadoop版本為2.7,使用的開發(fā)語(yǔ)言為Scala 2.12。

      2.2 實(shí)驗(yàn)數(shù)據(jù)即數(shù)據(jù)預(yù)處理

      本次實(shí)驗(yàn)數(shù)據(jù)使用由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室整理的新聞文本數(shù)據(jù)集,從體育、財(cái)經(jīng)、房產(chǎn)、家居、教育、科技、時(shí)尚、時(shí)政、游戲、娛樂十個(gè)類別中各挑選5000條新聞文本作為訓(xùn)練數(shù)據(jù),1500條作為測(cè)試數(shù)據(jù),數(shù)據(jù)共65000條。訓(xùn)練文本的平均長(zhǎng)度為422個(gè)單詞,測(cè)試文本的平均長(zhǎng)度為445個(gè)單詞,可以看出該數(shù)據(jù)集屬于長(zhǎng)文本。

      對(duì)數(shù)據(jù)預(yù)處理的過(guò)程包括分詞,去停用詞等。由于中文文本的單詞之間沒有明確的邊界,所以需要使用分詞工具對(duì)文本進(jìn)行分詞。目前常用的分詞工具有jieba,THULAC等。本文使用jieba分詞工具對(duì)中文文本進(jìn)行分詞操作,以單詞為單位組成文本。其中有一些單詞,類似于“和”“且”“了”等并沒有實(shí)際意義的單詞,和一些標(biāo)點(diǎn)符號(hào),空白字符等字符,需要去除,本文結(jié)合了哈工大停用詞表,四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞表,對(duì)文本中無(wú)意義的詞語(yǔ)進(jìn)行了去停用詞操作。數(shù)據(jù)預(yù)處理前后對(duì)比如表1所示:

      表1 文本預(yù)處理

      2.3 評(píng)價(jià)標(biāo)準(zhǔn)

      本文使用精確率,召回率和1值作為評(píng)價(jià)指標(biāo)。精確率和召回率,1值是分類任務(wù)中廣泛運(yùn)用的指標(biāo)。表2是分類任務(wù)中的混淆矩陣:表示實(shí)際屬于該類,并且被分類器判定為該類的文本,表示被分類器判定為該類,但實(shí)際不屬于該類的文本。表示真實(shí)屬于該類,但被分類器判定為不屬于該類的文本;表示實(shí)際不屬于該類其分類器也判定其不屬于該類的文本。

      表2 混淆矩陣

      準(zhǔn)確率的數(shù)學(xué)公式為:

      召回率的數(shù)學(xué)公式為:

      1綜合考慮了召回率和精確率,1值的數(shù)學(xué)公式為:

      2.4 文本分類結(jié)果分析

      本文使用SparkML庫(kù)中的各種模型,可以使用SparkSQL語(yǔ)句對(duì)DataFrame進(jìn)行操作,簡(jiǎn)化計(jì)算。首先訓(xùn)練Word2Vec模型,將前文中預(yù)處理好的文本數(shù)據(jù)送入SparkML庫(kù)中的Word2Vec模型中進(jìn)行訓(xùn)練,詞向量維度設(shè)置為100,上下窗口為5,得到詞向量庫(kù)。同時(shí)將處理好的語(yǔ)料進(jìn)行TF-IDF計(jì)算處理。先使用CountVectorize工具對(duì)文本進(jìn)行詞頻統(tǒng)計(jì),在使用IDF模型得到詞語(yǔ)的TF-IDF值。然后使用詞語(yǔ)的TF-IDF值作為詞語(yǔ)的權(quán)重,將文本的特征向量表示為文本中所有詞語(yǔ)詞向量的加權(quán)平均值。

      將訓(xùn)練文本通過(guò)上述操作向量化后送入SVM分類器進(jìn)行訓(xùn)練,SparkML庫(kù)中的SVM分類器采用數(shù)據(jù)并行的原理,相比于單機(jī)算法,可以有效提高訓(xùn)練速度。最后使用訓(xùn)練好的SVM分類器對(duì)已標(biāo)注的測(cè)試文本進(jìn)行測(cè)試。從而計(jì)算準(zhǔn)確率。

      為了測(cè)試該方法的性能,本文同時(shí)采用了TF-IDF向量化和未加權(quán)的平均Word2Vec詞向量方法進(jìn)行測(cè)試,對(duì)比三種方法性能的優(yōu)劣。表3是采用加權(quán)詞向量方法的各類分類結(jié)果:

      表3 TFIDF-Word2Vec+SVM分類結(jié)果

      由表3可以看出,該方法在十個(gè)類別中有八個(gè)類別的1值達(dá)到了90%以上,說(shuō)明該分類器的性能優(yōu)異。其中F1值最低的是房產(chǎn)和家居兩個(gè)類別,是因?yàn)閮蓚€(gè)類別的詞匯重合度較大,不易區(qū)分,但是也達(dá)到了75%以上。表4是采用了平均詞向量方法的分類結(jié)果

      由表4可知,平均詞向量文本表示方法同樣在八個(gè)類別中取得了1值90%以上的性能表現(xiàn),但是同樣由于“房產(chǎn)”和“家居”區(qū)分難度較高的原因,導(dǎo)致了這兩個(gè)類別分類效果下降。相比于平均詞向量方法,TF-IDF加權(quán)詞向量方法在這兩個(gè)類的1值分別高出了10.2%和3.6%,說(shuō)明該方法在易混淆,區(qū)分難度大的分類中獲得更好的效果。TF-IDF向量化的分類結(jié)果如表5所示。

      表4 avg-Word2Vec+SVM分類結(jié)果

      表5 TF-IDF向量化的分類結(jié)果

      由表5可以看出,TF-IDF方法的整體性能并不如加權(quán)詞向量方法和平均詞向量方法,且在詞庫(kù)較大的情況下出現(xiàn)向量維度過(guò)高,特征稀疏的問題,導(dǎo)致計(jì)算復(fù)雜度上升。表6是三種方法的綜合對(duì)比。

      由表6可以看出,TF-IDF加權(quán)詞向量的分類結(jié)果作為出色,精確率,召回率和1值分別比平均詞向量方法高出了2%,1.7%,2%,此方法綜合了TF-IDF和Word2Vec詞向量的優(yōu)點(diǎn),考慮了詞語(yǔ)的重要性和詞語(yǔ)上下文間的語(yǔ)義關(guān)系,實(shí)驗(yàn)數(shù)據(jù)說(shuō)明TF-IDF加權(quán)詞向量相比于平均詞向量可以更好地表示文本,從而提高分類的精度。在Spark平臺(tái)上實(shí)現(xiàn)可以加快文本分類的計(jì)算效率。

      表6 性能對(duì)比

      3 結(jié)語(yǔ)

      本文結(jié)合Spark ML庫(kù),在傳統(tǒng)的平均詞向量文本表示法的基礎(chǔ)上,使用了詞語(yǔ)的TF-IDF值表示詞語(yǔ)的重要性,作為詞向量的權(quán)重,使用加權(quán)詞向量作為文本的向量表示。由實(shí)驗(yàn)結(jié)果可以看出,相比于平均詞向量和TF-IDF文本表示法,加權(quán)詞向量可以有效的提升SVM分類器的精度。但是詞向量的權(quán)重不應(yīng)該只考慮TF-IDF值,所以在下一步的工作中,需要結(jié)合詞語(yǔ)的語(yǔ)法,語(yǔ)序等信息,更加充分地設(shè)計(jì)詞語(yǔ)的權(quán)重值,使得文本可以被更完善地表示出來(lái),結(jié)合Spark平臺(tái),設(shè)計(jì)出更加適合大規(guī)模文本的分類系統(tǒng)。

      猜你喜歡
      分類器文檔向量
      向量的分解
      有人一聲不吭向你扔了個(gè)文檔
      聚焦“向量與三角”創(chuàng)新題
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      盐亭县| 宁津县| 康定县| 康平县| 大宁县| 甘德县| 新干县| 四子王旗| 远安县| 盐池县| 兴化市| 三亚市| 文安县| 绥中县| 洛阳市| 平利县| 乌兰县| 西藏| 宣化县| 扶余县| 怀远县| 尉氏县| 大同市| 灵石县| 黑龙江省| 伊通| 石家庄市| 天祝| 扬州市| 桂阳县| 湖州市| 阿鲁科尔沁旗| 阿拉善右旗| 淄博市| 鄂尔多斯市| 天镇县| 佳木斯市| 盱眙县| 丰顺县| 新蔡县| 西城区|