• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SVM的文本情感傾向性智能分析方法

      2021-11-11 03:34:02王冰畢新偉
      關(guān)鍵詞:智能分析支持向量機(jī)特征提取

      王冰 畢新偉

      摘 要:情感分析屬于一項(xiàng)具有強(qiáng)大實(shí)用價(jià)值的分類技術(shù),可以識別出文本中隱藏的觀點(diǎn)。為方便用戶獲取所需文學(xué)作品,本文提出基于SVM的文本情感傾向性智能分析方法。利用向量空間模型計(jì)算用戶模型與文本匹配度模型的向量相似程度,增強(qiáng)文本信息的結(jié)構(gòu)化特征,完成文本信息預(yù)處理;建立否定詞、條件詞等情感資源,確定特征提取規(guī)則,通過計(jì)算互信息值,以閾值高低為依據(jù)做特征提取,降低特征維數(shù);將文本特征作為訓(xùn)練數(shù)據(jù),獲取分類線方程與分類間隔,求出最佳分類平面,明確情感傾向所屬類別,再采用Logistic回歸模型分析出情感傾向程度。仿真實(shí)驗(yàn)證明,該方法的查準(zhǔn)率與查全率較高,表現(xiàn)出較好的情感智能分類性能。

      關(guān)鍵詞:支持向量機(jī);文學(xué)文本;情感傾向;智能分析;特征提取

      中圖分類號:TP391? 文獻(xiàn)標(biāo)識碼:A? 文章編號:1673-260X(2021)10-0016-04

      1 引言

      文學(xué)文本表示組成文學(xué)語言藝術(shù)品的語言系統(tǒng),是表達(dá)人生體驗(yàn)的特殊語言結(jié)構(gòu),可分為詩歌、小說、散文等形式。隨著科學(xué)技術(shù)的日新月異,如何從海量文學(xué)作品中選出優(yōu)秀的文本對讀者而言非常重要。文本情感傾向分析是計(jì)算機(jī)、智能信息與自然語言處理領(lǐng)域中較為活躍的分支。通過對文本主觀內(nèi)容進(jìn)行過濾分析,識別并判斷該內(nèi)容表達(dá)的真正含義。在如今信息“沸騰”的時代背景下,每天會產(chǎn)生大量的新的文本數(shù)據(jù),所以需要對這些內(nèi)容進(jìn)行高效分析,識別出情感傾向,方便用戶獲取想要的文學(xué)作品。

      為滿足上述需求,相關(guān)學(xué)者提出如下情感傾向分析方法。陳瀟[1]等人以半監(jiān)督問答為基礎(chǔ),對文本數(shù)據(jù)進(jìn)行褒義、貶義的分類。對已經(jīng)標(biāo)注過的文本與未經(jīng)標(biāo)注的文本進(jìn)行分析,建立異構(gòu)網(wǎng)絡(luò),再通過該異構(gòu)網(wǎng)絡(luò)獲取相關(guān)詞的向量,并將獲取的詞的向量在可分層匹配的情感分類模型中應(yīng)用。王立志[2]利用改進(jìn)粒子群優(yōu)化的方法實(shí)現(xiàn)文本情感分析。利用word2vec詞向量加權(quán)的方式量化信息,再將該信息作為可識別輸入;引入交叉算子將粒子群的算法進(jìn)行改進(jìn),并且交叉算子還可對損失、懲罰與核等函數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)文本情感分類。

      但是上述兩種方法沒有準(zhǔn)確的提取文本特征,包括一些重要的情感詞與依賴關(guān)系等,影響情感傾向分析的準(zhǔn)確性,給讀者帶來不便。為解決這一問題,本文的文本情感分析采用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行。SVM是個較為智能的學(xué)習(xí)模型,具有監(jiān)督功能,如實(shí)際存在非線性情況,可采用映射函數(shù)利用現(xiàn)有文本建立線性函數(shù)分類。此種空間轉(zhuǎn)換可使該模型的分類能力大幅提高,有效解決了關(guān)于維數(shù)的災(zāi)難問題,本文模型還采用更有效的文本特征提取方法,進(jìn)一步提高文本分析精度。

      2 基于SVM的文本情感傾向性智能分析

      2.1 文本數(shù)據(jù)預(yù)處理

      文本通常表現(xiàn)為字符串,表達(dá)豐富的信息,但是不能直接用于情感分析。數(shù)據(jù)預(yù)處理是文本情感傾向分析的必經(jīng)階段,主要目的是將計(jì)算機(jī)不能識別的、海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,使其滿足計(jì)算機(jī)處理要求。

      本文對數(shù)據(jù)進(jìn)行預(yù)處理可采用向量空間模型(Vector Space Model,VSM)的方式[3]。向量空間大都是利用自然語言查詢,基于此,可將查詢結(jié)果作為一個小信息處理,則在向量空間內(nèi)的某一信息項(xiàng)可被表示為:

      公式中,n代表全部索引項(xiàng),wjn則表示信息項(xiàng) 內(nèi)索引項(xiàng)的權(quán)重。

      設(shè)定Dj為文本項(xiàng),ki為索引項(xiàng),ki在Dj中的出現(xiàn)頻率為tfi,j,逆文檔率為idfi,文本項(xiàng)數(shù)量越多,逆文檔率越小,詞語w的區(qū)分能力就越好,其中對于索引項(xiàng)權(quán)重的計(jì)算利用TD-IDF(Term Frequency-Inverse Document Frequency)方法進(jìn)行,其計(jì)算公式如下:

      假設(shè)全部索引項(xiàng)ki是相互獨(dú)立的,通過對上述相似度度量值的計(jì)算即可完成數(shù)據(jù)預(yù)處理,使所有文本信息具有結(jié)構(gòu)化特性,為特征文本特征提取奠定基礎(chǔ)。

      2.2 基于互信息值特征提取

      根據(jù)文本數(shù)據(jù)預(yù)處理結(jié)果可知,處理后的文本的特征向量較多,如果不對其中的關(guān)鍵詞語進(jìn)行選擇,則會產(chǎn)生維數(shù)災(zāi)難[5],提高計(jì)算復(fù)雜性。所以需利用特征提取的方式去除關(guān)聯(lián)性不強(qiáng)的特征,降低特征維數(shù)。

      2.2.1 情感資源建立

      本文對文學(xué)文本中的部分否定詞、條件詞語轉(zhuǎn)折詞等進(jìn)行分析,建立情感資源。

      收集程度副詞,計(jì)算不同強(qiáng)度值,程度副值與強(qiáng)度如表4所示。

      2.2.2 特征提取規(guī)則

      本文共制定如下五條特征提取規(guī)則:

      (1)文本中的關(guān)鍵詞特征,確定名詞、動詞、形容詞與副詞數(shù)量。

      (2)否定詞特性,將總次數(shù)對2取余,如果值為1,此時情感詞的極性相反;如果值等于0,情感詞極性不發(fā)生變化。

      (3)程度副詞特性,如果情感詞前面有程度副詞,則文本情感強(qiáng)度隨之變化。

      (4)條件句式特性,若情感詞前面出現(xiàn)條件詞,則條件句式特性值等于1,反之為0。經(jīng)過對隨機(jī)語料的分析,條件詞對情感表達(dá)強(qiáng)度有弱化作用。

      (5)轉(zhuǎn)折句式[6]特性,當(dāng)情感詞前面只有一種轉(zhuǎn)折詞時,則判定情感詞極性為反;如果為兩種,則表示不發(fā)生變化。

      2.2.3 文學(xué)文本特征提取

      特征提取利用數(shù)學(xué)形式表示即為從初始特征集合T={t1,t2,…,tn}內(nèi)選擇一個真子集合T′={t1,t2,…,tn′},其中n′≤n,則提取后的特征數(shù)量小于初始特征數(shù)量。本文通過計(jì)算互信息值(Mutual Information,MI)的方法來進(jìn)行文本特征提取。

      互信息值實(shí)質(zhì)描述的是兩個事件集合之間存在的關(guān)聯(lián)性,針對特征提取而言,互信息表現(xiàn)出詞條t′與類別ci存在的相關(guān)性,表達(dá)式如下:

      公式中,i表示類別數(shù),p(t)代表t在訓(xùn)練集合中出現(xiàn)的次數(shù),p(t′|ci)表示t′和ci一同出現(xiàn)的概率。針對計(jì)算得的全部MI值,進(jìn)行由高到低排序,將閾值較高的詞條當(dāng)作特征詞。本文特征提取流程如圖1所示。

      2.3 潛在語義分析

      經(jīng)過上述特征提取后,能夠獲取文本較為顯著的特征,但是沒有考慮“一詞多義”的問題,因此,還需進(jìn)一步對潛在語義進(jìn)行研究。

      首先確定如下概率變量:P′(Dj)表示文本集合中選取文本Dj的概率,P′(wj|zk)代表在潛在變量zk約束下,某詞語wj的條件概率,P′(zk|Dj)為潛在變量[7]中文本Dj的概率分布情況。

      根據(jù)以上定義,經(jīng)過下述步驟可構(gòu)成一個生成模型:

      步驟一:結(jié)合P′(Dj)隨機(jī)選取一個文本Dj。

      步驟二:在文本Dj基礎(chǔ)上,通過P′(zk|Dj)選取文本表達(dá)的潛在變量zk。

      步驟三:獲得一個不具有潛在變量的觀察變量對(di,wj),將生成過程變?yōu)槁?lián)合概率分布形式:

      構(gòu)建完生成模型后,通過最大相似性表達(dá)式來確定參數(shù),實(shí)現(xiàn)潛在語義挖掘。表達(dá)式如下:

      2.4 情感傾向智能分析

      將上述獲取的文本表明特征與潛在特征當(dāng)作訓(xùn)練數(shù)據(jù),利用SVM構(gòu)建分類器模型,即一個決策函數(shù)[8]。該模型可以接受沒有類別標(biāo)簽的新樣本輸入。

      基于SVM的情感傾向分析的實(shí)質(zhì)就是在n′維特征空間中確定最大間超平面,該平面能夠?qū)⒉煌N類數(shù)據(jù)最大程度進(jìn)行區(qū)分?;舅悸穲D如圖2所示。

      在圖2中,H為分類線,Ha與Hc為穿過各自分類線最近的數(shù)據(jù)點(diǎn)且和分類線相互平行的直線。

      最優(yōu)分類線不但能正確劃分兩種不同類型的數(shù)據(jù),還能最大程度劃分類間隔。獲取分類線的方程式如下:

      公式中,w′表示斜率[9],屬于一個常數(shù),x′是橫向坐標(biāo)值,b為一個常數(shù)。

      在對文本進(jìn)行情感分析時,對公式(12)做歸一化處理,確保數(shù)據(jù)點(diǎn)集合(x′i,y′i)在滿足公式(12)的同時也符合下述公式要求:

      Logistic回歸屬于一種數(shù)據(jù)挖掘[10]方式,其回歸函數(shù)不僅持續(xù)遞增,還和線性回歸方程存在遞減一致性,所以可通過該回歸函數(shù)表示文本情感強(qiáng)度。具體過程是:利用回歸函數(shù)使變量的無窮區(qū)間映射在[0,1]中,通過設(shè)置合理閾值來調(diào)節(jié)分類區(qū)間,構(gòu)成持續(xù)特征表示。

      在反映文本情感傾向性強(qiáng)度過程中,在SVM分類基礎(chǔ)上,使用Logistic函數(shù)的持續(xù)性表示情感趨勢強(qiáng)度的走勢。假定g(x″)=a′x″+b′代表初始線性方程,g(x″)是文本分類函數(shù),且滿足SVM分類面條件,則與其相對的Logistic回歸強(qiáng)度函數(shù)表示為:

      3 仿真實(shí)驗(yàn)分析

      為評價(jià)不同方法對于文本情感分析的準(zhǔn)確性,實(shí)驗(yàn)語料庫利用Python開發(fā)的網(wǎng)頁從當(dāng)當(dāng)網(wǎng)中獲得文學(xué)文本信息。實(shí)驗(yàn)環(huán)境中存在五個節(jié)點(diǎn),分別為2個Master與3個Slave,操作系統(tǒng)是Ubuntu14.04。為準(zhǔn)確評價(jià)出文獻(xiàn)[1]、文獻(xiàn)[2]與本文方法的分析性能,利用查準(zhǔn)率、查全率和F值三個指標(biāo)進(jìn)行評價(jià)。

      在已知不同文學(xué)分類文本特征情況下,文獻(xiàn)[1]、文獻(xiàn)[2]與本文方法的情感傾向分析結(jié)果如表5、6和7所示。

      由實(shí)驗(yàn)結(jié)果可知,隨著特征種類的增多分類結(jié)果表現(xiàn)出良好特性,指標(biāo)值都有明顯提高。其中本文方法在無論在哪種特征組合下,都能表現(xiàn)出良好的情感傾向分析性能。這是因?yàn)橹С窒蛄繖C(jī)具有較強(qiáng)的學(xué)習(xí)能力,通過最優(yōu)分類平面準(zhǔn)確劃分文本情感傾向,使情感分析更加智能化。

      4 結(jié)論

      本文利用SVM方法在多維特征空間中找出最大間隔超平面,通過該平面實(shí)現(xiàn)文學(xué)文本情感傾向分類,在Logistic基礎(chǔ)上確定每種情感強(qiáng)度,完成情感傾向智能分析。實(shí)驗(yàn)證明所提方法的查準(zhǔn)率、查全率與綜合評價(jià)值均較高,表現(xiàn)出良好的分析性能。但是也存在一些不足,有待進(jìn)一步改進(jìn)。結(jié)合已有成果,后續(xù)工作主要研究可以自動完善情感詞典,對于網(wǎng)絡(luò)不斷出現(xiàn)的情感詞,能夠及時更新,但是由于本文只考慮了簡單詞語對情感的影響,在今后研究中還需增加一些復(fù)雜句式。

      參考文獻(xiàn):

      〔1〕陳瀟,李逸薇,劉歡,等.基于網(wǎng)絡(luò)表示的半監(jiān)督問答文本情感分類方法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2020,52(02):52-58.

      〔2〕王立志,慕曉冬,劉宏嵐.采用改進(jìn)粒子群優(yōu)化的SVM方法實(shí)現(xiàn)中文文本情感分類[J].計(jì)算機(jī)科學(xué),2020,47(01):231-236.

      〔3〕陳鄭淏,馮翱,何嘉.基于一維卷積混合神經(jīng)網(wǎng)絡(luò)的文本情感分類[J].計(jì)算機(jī)應(yīng)用,2019,39(07):1936 -1941.

      〔4〕黨莉,陳鍛生,張洪博.對抗長短時記憶網(wǎng)絡(luò)的跨語言文本情感分類方法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,40(02):117-122.

      〔5〕吳鵬,李婷,仝沖,等.基于OCC模型和LSTM模型的財(cái)經(jīng)微博文本情感分類研究[J].情報(bào)學(xué)報(bào),2020,39(01):81-89.

      〔6〕趙傳君,王素格,李德玉.跨領(lǐng)域文本情感分類研究進(jìn)展[J].軟件學(xué)報(bào),2020,31(06):143-166.

      〔7〕吳小華,陳莉,魏甜甜,等.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息學(xué)報(bào),2019,33(06):100-107.

      〔8〕林世平,林松海,魏晶晶,等.融合知識圖譜的文本情感分析[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2020, 48(03):269-275.

      〔9〕張新生,高騰.多頭注意力記憶網(wǎng)絡(luò)的對象級情感分類[J].模式識別與人工智能,2019,32(11):997 -1005.

      〔10〕王名揚(yáng),吳歡,賈曉婷.結(jié)合word2vec與擴(kuò)充情感詞典的微博多元情感分類研究[J].東北師大學(xué)報(bào):自然科學(xué)版,2019,51(01):55-62.

      猜你喜歡
      智能分析支持向量機(jī)特征提取
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      工業(yè)控制系統(tǒng)行為審計(jì)方案設(shè)計(jì)與部署
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      鐵路信號集中監(jiān)測智能分析系統(tǒng)實(shí)現(xiàn)方案探討
      動態(tài)場景中的視覺目標(biāo)識別方法分析
      論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      運(yùn)維系統(tǒng)告警數(shù)據(jù)的分布式存儲方法
      基于人工免疫的故障智能分析研究
      奉化市| 兴海县| 临桂县| 临江市| 辉县市| 长治县| 丰城市| 凤山县| 锡林郭勒盟| 六盘水市| 双流县| 隆昌县| 于田县| 吉林省| 万载县| 陈巴尔虎旗| 蕲春县| 镇坪县| 塔城市| 民丰县| 九龙城区| 天峻县| 开阳县| 江门市| 平远县| 小金县| 抚州市| 泾阳县| 潜江市| 临颍县| 商水县| 庆云县| 昌邑市| 大冶市| 华安县| 延边| 孝昌县| 龙川县| 江北区| 石景山区| 梧州市|