• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于SVM算法的藏文微博情感分析研究

      2022-09-28 09:52:20朱亞軍
      計(jì)算機(jī)仿真 2022年8期
      關(guān)鍵詞:超平面藏文類別

      朱亞軍,次 曲,擁 措

      (西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏拉薩850000)

      1 引言

      微博作為一種輕量級(jí)的自媒體平臺(tái),自由靈活。它是一種基于用戶關(guān)系,進(jìn)行信息分享、傳播以及獲取的,通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的社交媒體、網(wǎng)絡(luò)平臺(tái)。人們每天通過(guò)微博了解世界上每個(gè)角落發(fā)生的事情,還可以通過(guò)微博分享自己的經(jīng)歷和感受,在瀏覽微博的時(shí)候,可以發(fā)表自己的評(píng)論,所以微博包含非常豐富的表達(dá)情感的內(nèi)容。對(duì)微博進(jìn)行情感分析能夠發(fā)現(xiàn)博主對(duì)社會(huì)事件、時(shí)事熱點(diǎn)的態(tài)度,從中挖掘商業(yè)價(jià)值,也可以幫助政府機(jī)關(guān)分析事件的社會(huì)影響。目前對(duì)中文微博的情感分類已經(jīng)相對(duì)成熟,但是因?yàn)檎Z(yǔ)法的差別,在對(duì)藏文微博進(jìn)行情感分類時(shí),直接遷移中文微博情感分類的方法,效果較差,所以需要針對(duì)藏文微博進(jìn)行專門的研究。

      對(duì)藏文文本情感分類已經(jīng)有不少相關(guān)的研究。首先西藏大學(xué)擁措[1]教授對(duì)短文本情感分析的研究現(xiàn)狀進(jìn)行了比較全面的總結(jié)和綜述。M. Srividya[2],Wan-qiu Cui[3]分別使用了復(fù)合分類器和基于語(yǔ)義的哈希圖對(duì)短文本進(jìn)行了分類。H. M. Keerthi Kumar[4],曹魯慧[5]通過(guò)優(yōu)化短文本的特征選擇方法提高了短文本的分類效果。范國(guó)風(fēng)[6]基于語(yǔ)義依存關(guān)系通過(guò)圖網(wǎng)絡(luò)對(duì)文本進(jìn)行了分類。余本功[7]基于改進(jìn)SVM對(duì)網(wǎng)絡(luò)上的短文本分類,取得不錯(cuò)的效果。楊朝強(qiáng)[8],施瑞朗[9]通過(guò)新的大量數(shù)據(jù)對(duì)原有的分類模型進(jìn)行了驗(yàn)證。西北民族大學(xué)李海剛[2],采用了信息增益的特征選擇方法,提高了特征對(duì)類別的代表性。Xiao Sun[11],HüseyinFidan[12]對(duì)小說(shuō)文本的情感進(jìn)行了分析,有效地抽取了文本中表達(dá)情感的句子。張俊[13],楊志[14],孫本旺[2]均基于藏文微博情感詞典對(duì)藏文微博情感分類進(jìn)行了研究,其中孫本旺提出的基于SSTSD情感詞典的方法具有較優(yōu)的分類效果,但是情感詞典的構(gòu)造具有一定的困難,通常需要手工建立基礎(chǔ)的情感詞典,因此具有較大的建設(shè)成本和規(guī)模限制。江濤[16]在其多特征藏文微博情感分析的研究中,考慮了漢語(yǔ),表情符號(hào)等,取得了較好的成果,但是對(duì)純藏文微博情感極性的識(shí)別仍有待改進(jìn)。袁斌[17]的基于語(yǔ)義空間的藏文微博情感分析方法提出的語(yǔ)義空間+TF-IDF方法在特征空間的基礎(chǔ)上提供了語(yǔ)義的內(nèi)容,通過(guò)語(yǔ)義進(jìn)行聚類發(fā)現(xiàn)類別,形成特征空間,較大程度地挖掘了單條微博的信息量,所以分類效果較好。

      本文針對(duì)從新浪微博上收集的藏文微博進(jìn)行實(shí)驗(yàn),數(shù)據(jù)具有一般性和代表性,能夠有效地評(píng)價(jià)情感分析結(jié)果。引入核函數(shù)和容差值的SVM算法對(duì)小樣本數(shù)據(jù)的分類效果較好,因此使用SVM算法對(duì)藏文微博進(jìn)行情感分析。SVM算法將分析微博文本所蘊(yùn)含的情感,將微博劃分為積極、客觀和消極三類,細(xì)化了情感分析的類別。

      2 SVM分類算法

      SVM主要是通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的學(xué)習(xí),找到類別邊緣上的點(diǎn),這些點(diǎn)被稱作“支持向量”,通過(guò)這些支持向量找到一個(gè)超平面,這個(gè)超平面可以較好地將樣本數(shù)據(jù)空間分離,并最大化類別邊緣上的點(diǎn)(支持向量)到超平面的距離,從而獲得最優(yōu)的分類效果。

      超平面(w,b)關(guān)于T中所有樣本點(diǎn)的幾何間隔最小值(也即是離得最近的點(diǎn)的距離)為

      (1)

      在盡可能地保證分類正確又使得類別之間的距離足夠大的情況下,可得

      (2)

      訓(xùn)練過(guò)程就是最優(yōu)化超平面的過(guò)程,并將最優(yōu)化超平面問(wèn)題轉(zhuǎn)化為凸優(yōu)化問(wèn)題。引入拉格朗日乘子αi> 0,i=1,2,…,n,定義拉格朗日函數(shù)

      (3)

      對(duì)上式中的w和b分別求一階偏導(dǎo),并令它們等于0,即可求得w和b,并最終獲得最優(yōu)分類超平面。

      看上去支持向量機(jī)的超平面原理只能使用于二分類問(wèn)題,但是經(jīng)過(guò)改進(jìn)的支持向量機(jī)分類算法同樣可用于多分類問(wèn)題,而且在小樣本數(shù)據(jù)集上支持向量機(jī)擁有更加優(yōu)秀的文本分類能力。

      3 實(shí)驗(yàn)數(shù)據(jù)

      目前沒(méi)有公開(kāi)的藏文微博語(yǔ)料本文使用的語(yǔ)料是人工從微博上收集的,選擇微博長(zhǎng)度在10詞到100詞之間的,包含較少或不包含非藏文字符的微博,共計(jì)17000余條微博。數(shù)據(jù)預(yù)處理使用廈門大學(xué)在線分詞系統(tǒng)進(jìn)行分詞,并對(duì)微博進(jìn)行實(shí)義詞語(yǔ)的抽取。人工進(jìn)行微博情感的標(biāo)注,標(biāo)注分為三類。標(biāo)注規(guī)則和標(biāo)注示例如表1和表2。

      表1 標(biāo)注規(guī)則

      表2 標(biāo)注示例

      數(shù)據(jù)集被分為3部分,其中包括: 60%用于訓(xùn)練,得到算法相應(yīng)的分類模型;20%用于驗(yàn)證,驗(yàn)證模型的正確性;20%用于測(cè)試,測(cè)試模型在微博情感分類中的實(shí)際效果。

      4 特征選擇

      對(duì)文本分類來(lái)說(shuō),特征就是文本中表達(dá)了文本類別屬性的詞語(yǔ),因此特征的選擇較大程度上決定了文本分類效果的好壞。隨著機(jī)器學(xué)習(xí)算法的深入研究,提出了很多特征提取方法,其中包括TF(Term Frequency),IDF(Inverse Document Frequency),TF-IDF等。這些特征選擇方法使得選擇的特征盡可能多地包含文本信息。

      TF(Term Frequency):即詞頻,也叫絕對(duì)詞頻。指的是一個(gè)詞語(yǔ)在文本中出現(xiàn)的頻率。

      (4)

      其中分子ni,j指的是該詞在文本中出現(xiàn)的次數(shù),而分母∑knk,j指的是文本中所有字詞出現(xiàn)的次數(shù)總和。

      TF無(wú)法避免停用詞帶來(lái)的影響,比如:“我”、“的”、“但是”等。與情感詞相比,這些詞在各類情感文本中的使用頻率都比較高,但是對(duì)微博文本情感的分類貢獻(xiàn)不大。

      IDF(Inverse Document Frequency):逆文本頻率。逆文本頻率的計(jì)算為:文本總數(shù)除以包含詞條的文本數(shù)再取對(duì)數(shù)。

      (5)

      其中分子N表示總文本數(shù),ni表示包含詞語(yǔ)i的文本數(shù)。

      IDF降低了各類文本中都會(huì)出現(xiàn)的常用詞的影響,使得那些在各類情感文本中均會(huì)使用的常用詞的權(quán)重減小,而提高了在某一情感分類文本中出現(xiàn)頻率較高的詞的權(quán)重。

      TF-IDF:指詞頻和逆文本頻率的乘積:

      tf-idf=tfi,j·idfi

      (6)

      通常情況下,在文本中會(huì)大量存在這樣的詞,不管文本的主題是什么,總會(huì)用到這些詞,比如:“我”、“我們”、“的”、“個(gè)”。這些詞和文本的情感表達(dá)關(guān)系不是很密切,對(duì)于文本的情感分類沒(méi)有幫助,并且這些頻繁出現(xiàn)的詞,還會(huì)掩蓋那些詞頻很低但是卻有力地表達(dá)了作者的想法和態(tài)度的詞或短語(yǔ),比如網(wǎng)絡(luò)流行詞。

      如果一個(gè)詞或短語(yǔ)在一篇或一類文章中出現(xiàn)的頻率很高(TF較大),并且在其他類別的文章中出現(xiàn)的頻率又較低(IDF較大),則認(rèn)為這個(gè)詞或短語(yǔ)具有很好的類別區(qū)分能力,而其在文本分類中做出的貢獻(xiàn)也越大,使得文本的類別識(shí)別率較高。TF-IDF的優(yōu)點(diǎn)是能夠很好地避免各類文本中都會(huì)出現(xiàn)的常用詞帶來(lái)的影響。

      5 實(shí)驗(yàn)結(jié)果

      本文主要針對(duì)SVM分類算法進(jìn)行實(shí)驗(yàn)分析??疾鞂?shí)驗(yàn)結(jié)果的三個(gè)指標(biāo):準(zhǔn)確率P(Precision)、召回率R(Recall)和F1(F1_Score)。

      通常情況下,精確率和召回率是相互矛盾的,精確率較高時(shí),相應(yīng)地,召回率就較低,所以引入F1作為參考,在精確率較高,而F1值也相對(duì)較高時(shí),訓(xùn)練出來(lái)的模型在分類的時(shí)候才具有比較優(yōu)秀的表現(xiàn)。

      由通過(guò)實(shí)驗(yàn)找到SVM算法最優(yōu)的懲罰系數(shù)C和gamma值對(duì)。

      圖1和圖2可得,模型在gamma=1.667和C=1.320時(shí)達(dá)到最優(yōu)分類效果。分類精確率為58.3%,召回率為48.3%,F(xiàn)1值為48.1%。

      最后,實(shí)驗(yàn)設(shè)置SVM分類算法與貝葉斯分類算法(MB)的對(duì)比實(shí)驗(yàn),并分別在對(duì)微博文本進(jìn)行簡(jiǎn)單分詞(segment)和在分詞后對(duì)實(shí)義詞語(yǔ)進(jìn)行抽取(keywords)的兩種數(shù)據(jù)樣本上進(jìn)行實(shí)驗(yàn),分別采用TF,TF-IDF兩種特征選擇方法進(jìn)行特征空間的建設(shè),考察其精確率、召回率、F1值及模型訓(xùn)練的用時(shí),實(shí)驗(yàn)結(jié)果如表3所示。

      圖1 參數(shù)gamma對(duì)分類性能的影響

      圖2 懲罰系數(shù)C對(duì)分類性能的影響

      表3 不同數(shù)據(jù)集和不同特征選取方法下MB和SVM的實(shí)驗(yàn)結(jié)果對(duì)比

      首先,從模型的訓(xùn)練時(shí)間上看,SVM的復(fù)雜度比MB的復(fù)雜度大。非線性可分樣本集的復(fù)雜度為O(dn2),其中n為訓(xùn)練樣本集的大小,d為特征向量的維度,而MB復(fù)雜度為O(dn),因?yàn)橛?xùn)練數(shù)據(jù)量較大,所以SVM的訓(xùn)練時(shí)間比MB的訓(xùn)練時(shí)間大得多;其次,在SVM進(jìn)行訓(xùn)練時(shí)可以看到,TF的訓(xùn)練用時(shí)比TF-IDF訓(xùn)練用時(shí)多。因?yàn)門F選擇的特征空間大,特征向量維度更大,所以在模型訓(xùn)練時(shí)需要更多的訓(xùn)練時(shí)間;再次,在分類模型為MB時(shí),相比TF,TF-IDF對(duì)召回率(Recall)影響不是很大,但是卻能夠在一定程度上提高準(zhǔn)確率(Precision),這樣就降低了F1的得分。在分類模型為SVM時(shí),相比TF,TF-IDF雖然對(duì)準(zhǔn)確率的影響不是很大,但是卻能夠明顯提高召回率的值,從而提高F1的得分;最后,在對(duì)微博進(jìn)行實(shí)義詞語(yǔ)的抽取之后,可以發(fā)現(xiàn)在保證準(zhǔn)確率和F1值的情況下,可以提高模型的訓(xùn)練效率,其中TF下大概提高20%,TF-IDF下仍能提高大概15%。

      SVM分類算法的優(yōu)秀表現(xiàn)應(yīng)該歸因于兩個(gè)方面,第一,SVM使用了核函數(shù)技術(shù)。通過(guò)引入核函數(shù),將訓(xùn)練數(shù)據(jù)映射到更高維的空間中去,這樣就能更容易地找到?jīng)Q策面,也即是SVM的超平面。第二,松弛變量和懲罰項(xiàng)的引入。通過(guò)引入松弛變量和懲罰項(xiàng),再加上前面的核函數(shù)使得SVM具有了對(duì)非線性問(wèn)題處理的能力。另外與貝葉斯分類算法依賴于全樣本數(shù)據(jù)不同,SVM通過(guò)尋找樣本中的支持向量,并通過(guò)支持向量來(lái)建立超平面。所以SVM分類算法的實(shí)驗(yàn)結(jié)果優(yōu)于貝葉斯分類算法。

      6 結(jié)論

      相比TF,TF-IDF的特征空間小,文本向量維度小,可以加快模型的訓(xùn)練速度。并且TF-IDF構(gòu)建的特征空間具有更加突出的類別表征能力,有利于提高藏文微博情感分類的效果;SVM相比MB具有更加優(yōu)秀的分類效果。相比單一的特征顯現(xiàn)概率來(lái)講,SVM求解一個(gè)超平面,這個(gè)超平面能夠?qū)颖炯^好地分離開(kāi);對(duì)實(shí)義詞語(yǔ)進(jìn)行抽取能夠在保留足夠多的文本信息的基礎(chǔ)上提高模型的訓(xùn)練效率。

      目前深度學(xué)習(xí)在人工智能領(lǐng)域成為研究熱點(diǎn),但是仍然不能忽視對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法的研究,因?yàn)樵谏疃葘W(xué)習(xí)算法中仍然可以看到那些經(jīng)典的傳統(tǒng)機(jī)器學(xué)習(xí)算法的存在,對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法的研究的意義在于它可以為深度學(xué)習(xí)的方法提供較好的實(shí)驗(yàn)對(duì)比基線,從而為深度學(xué)習(xí)方法的選擇提供有價(jià)值的參考。

      猜你喜歡
      超平面藏文類別
      全純曲線的例外超平面
      涉及分擔(dān)超平面的正規(guī)定則
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問(wèn)題
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語(yǔ)境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      服務(wù)類別
      數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      宁河县| 梁河县| 苗栗市| 台安县| 滦平县| 靖江市| 澄江县| 和硕县| 鄂尔多斯市| 宜州市| 增城市| 祁连县| 宁明县| 罗甸县| 仪陇县| 项城市| 泊头市| 吉安市| 长春市| 临高县| 五原县| 旬邑县| 咸丰县| 宁南县| 龙南县| 龙陵县| 威信县| 绥中县| 禹州市| 渑池县| 远安县| 体育| 鄂尔多斯市| 疏附县| 白银市| 晋城| 蚌埠市| 永宁县| 石林| 淮滨县| 东乡族自治县|