吳鐘強(qiáng),張耀文,商琳
(1.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210046; 2. 南京大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210046)
基于語義特征的多視圖情感分類方法
吳鐘強(qiáng)1,2,張耀文1,2,商琳1,2
(1.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210046; 2. 南京大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210046)
情感分析也稱為意見挖掘,是對(duì)文本中所包含的情感傾向進(jìn)行分析的技術(shù)。目前很多情感分析工作都是基于純文本的。而在微博上,除了文本,大量的圖片信息也蘊(yùn)含了豐富的情感信息。本文提出了一種基于文本和圖像的多模態(tài)分類算法,通過使用潛在語義分析,將文本特征和圖像特征分別映射到同維度下的語義空間,得到各自的語義特征,并用SVM-2K進(jìn)行分類。利用新浪微博熱門微博欄目下爬取的文字和配圖的微博數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,通過融合文本和圖像的語義特征,情感分類的效果好于單獨(dú)使用文本特征或者圖像特征。
情感分析;文本挖掘;潛在語義分析;多模態(tài);語義特征;特征融合;特征提取
隨著互聯(lián)網(wǎng)的快速發(fā)展,微博自2006年以來已經(jīng)成為社交網(wǎng)絡(luò)的最主要應(yīng)用之一。用戶可以通過手機(jī)或平板電腦等終端設(shè)備在微博上發(fā)布動(dòng)態(tài)。近年來,從微博數(shù)據(jù)中挖掘出有價(jià)值的信息引起了很多研究者的關(guān)注。情感分析或意見挖掘,是一種對(duì)人們發(fā)表的觀點(diǎn)、表達(dá)的情感或商品評(píng)價(jià)進(jìn)行分析的技術(shù)[1]。隨著Pang等[2]將機(jī)器學(xué)習(xí)方法成功應(yīng)用在情感分類之后,情感分析領(lǐng)域不斷涌現(xiàn)新的工作,針對(duì)于粒度的不同可以分為文檔級(jí)別[2](document level)、句子級(jí)別[3](sentence level)和方面級(jí)別[4-5](aspect level)。情感分析的應(yīng)用也越來越廣泛,如Liu等[6]將其用于預(yù)測銷售業(yè)績上,Mishne等[7]使用博文的情感來預(yù)測電影票房,O’Connor將文本中的情感與票選關(guān)聯(lián)[8]。但是絕大多數(shù)研究都只是基于文本,結(jié)合微博圖像進(jìn)行情感分類的工作較少。但圖像也是傳達(dá)情感信息的重要渠道。對(duì)于文本和圖像并存的情況,圖像也可以作為傳播情感的載體,如果僅對(duì)文本部分進(jìn)行特征的提取,可能導(dǎo)致對(duì)微博整體情感特征提取的缺失,使得整體情感分類的結(jié)果不理想。
要使用不同視圖的特征就涉及特征融合問題。特征融合被廣泛應(yīng)用在多個(gè)領(lǐng)域,如目標(biāo)跟蹤和識(shí)別[9]、圖像處理[10]等領(lǐng)域,主要可以分為串行融合和并行融合[11]。
本文通過復(fù)數(shù)矩陣融合的方式并使用潛在語義分析[2](latent semantic analysis, LSA)技術(shù)提出了基于語義特征的多視圖分類方法。首先,將文本和圖像并行融合之后的特征,通過潛在語義分析將原始的文本和圖像特征映射到低維的概念空間(語義空間)得到文本和圖像的語義特征;然后,通過語義特征訓(xùn)練分類器;最后,將分類器用于微博的情感分類。實(shí)驗(yàn)通過爬取的新浪微博數(shù)據(jù)集驗(yàn)證了本文提出的方法能夠有效地提高多視圖情感分類的效果,同時(shí)分析了幾個(gè)常用特征的利弊。
1.1 潛在語義分析概念
在信息檢索或者文本分析領(lǐng)域,通常使用向量空間模型[12](vector space model, VSM)來表示一篇文檔。它將一篇文檔或者一段話表示成向量,方便進(jìn)行各種數(shù)學(xué)處理。雖然此種方法在一些應(yīng)用中可以獲得不錯(cuò)的效果,但在實(shí)際生活中,可能存在多次同義的問題,而VSM并不能很好地發(fā)現(xiàn)詞與詞之間在語義上的關(guān)系。
LSA可以在一定程度上解決上述問題。LSA源自信息檢索領(lǐng)域問題:如何從query中找到相關(guān)的文檔[13]。LSA試圖表達(dá)一個(gè)詞背后隱藏的語義信息,它把詞和文檔都映射到一個(gè)語義空間并在這個(gè)空間內(nèi)進(jìn)行各種運(yùn)算。這種想法是受到心理語言學(xué)家的啟發(fā)[14]。LSA認(rèn)為文本中的詞語存在著潛在的語義結(jié)構(gòu),同義詞被映射到相同的語義空間之后應(yīng)該有很大的關(guān)聯(lián)度。
1.2 潛在語義分析
LSA是一種無監(jiān)督的學(xué)習(xí)技術(shù),處理的是詞-文檔矩陣(在本文中處理的是文本和圖像特征融合后的復(fù)數(shù)矩陣)。構(gòu)建詞-文檔矩陣之后,LSA通過使用奇異值分解[15](singular value decomposition,SVD)技術(shù)將詞-文檔矩陣分解,可以將原始高維空間中表示的詞和文檔投射到低維語義空間。
式中:U為m×m的矩陣,Σ為m×n矩陣,V為n×n矩陣。矩陣U、V為奇異向量組成的正交方陣。Σ是奇異值的對(duì)角矩陣,Σ=diag(σ1,σ2,…,σn),其中σ1,σ2,…σn是矩陣N的n個(gè)奇異值,且σ1≥σ2≥…≥σn。得到了奇異值之后,取前r個(gè)最大的奇異值以及對(duì)應(yīng)的特征向量即可以得到矩陣的低階近似,如式(2)所示:
現(xiàn)有的情感分類研究工作很多都是圍繞文本展開的,但微博除了文本還存在大量的圖片,如果能夠?qū)⑽谋竞蛨D片結(jié)合,就可以獲得比純文本更多的信息量。但若僅僅使用原始特征,有可能帶來維度災(zāi)難問題。
本文提出的基于語義特征的多視圖情感分類方法將文本和圖像特征并行融合,并使用LSA抽取各自的語義特征,其流程如圖1所示。
圖1 基于語義特征的多視圖情感分類方法流程圖 Fig.1 Flow chart of sentiment classification of microblogs based on semantic features
圖像和文本的特征融合,在信息檢索領(lǐng)域里的跨模型檢索(cross-modal retrieval)中已經(jīng)有相應(yīng)的應(yīng)用。但使用較多的融合方式是文本和圖像特征的串行融合[10]。
Wang等[16]在3D目標(biāo)檢索時(shí),使用的兩組特征串行融合方式如式(3)所示:
(3)
式中:m表示樣本的個(gè)數(shù),n表示第1個(gè)視圖的特征維度,t表示第2個(gè)視圖的特征維度。αij是第i個(gè)樣本的第j維特征,βij是第i個(gè)樣本的第j維特征。
但是這樣將兩種不同屬性的特征強(qiáng)行拼接在一個(gè)特征空間中,應(yīng)用到微博中會(huì)失去原有的物理特性:一條微博是由文字和配圖組成的整體。一條微博的文字和配圖有一定的內(nèi)在聯(lián)系,而不是兩個(gè)獨(dú)立的個(gè)體。基于并行融合方法[10],本文對(duì)于融合前后的文本和圖像特征使用復(fù)數(shù)進(jìn)行表示。將文字圖片的特征使用復(fù)數(shù)進(jìn)行融合,可以反應(yīng)微博的整體關(guān)系,即復(fù)數(shù)的實(shí)部表示文本特征,虛部表示圖像特征。由于復(fù)數(shù)矩陣分解之后仍為復(fù)數(shù)矩陣,故分解之后的實(shí)部和虛部分別對(duì)應(yīng)文本和圖像的語義特征。
文本特征和圖像特征融合方法如式(4)所示,將融合之后的復(fù)合特征稱為一個(gè)新的文檔dj。
式中:實(shí)部αj為文本特征向量,虛部βj為圖像特征向量,θ是權(quán)重因子。極端情況:
當(dāng)θ→0時(shí),融合的特征dj≈αj,此時(shí)近似于純文本特征。
當(dāng)θ→+∞時(shí),則dj≈βj,即此時(shí)近似于使用純圖像特征的分類效果。
在本文工作中,我們將文本和圖片同等對(duì)待,因此設(shè)θ=1。假設(shè)有m條微博,文本和圖像的語義空間的維度為n。那么由復(fù)數(shù)構(gòu)成新的文檔集合用矩陣表示如式(5)所示:
式中:αij是第i條微博文本的第j維特征,βij是第i條微博圖像對(duì)應(yīng)的第j維特征。
現(xiàn)在分詞短語做后置定語時(shí)在意義上相當(dāng)于一個(gè)定語從句,它與所修飾詞的關(guān)系是主動(dòng)關(guān)系,在轉(zhuǎn)換時(shí)要注意動(dòng)詞的主語和時(shí)態(tài)。例如上述一句可轉(zhuǎn)換為:
對(duì)上面的復(fù)數(shù)矩陣N進(jìn)行奇異值分解并進(jìn)行低階近似,把高維的空間映射到低維的語義空間。將其映射到語義空間之后,再分別提取分解后低階近似矩陣的每個(gè)元素的實(shí)部和虛部,得到文本和圖片在低維空間的新特征,即語義特征。最后將提取的文本和圖片的語義特征用于訓(xùn)練多視圖分類器SVM-2K[17],并使用測試集測試模型分類結(jié)果。具體步驟如下:
1)提取微博數(shù)據(jù)中的文本數(shù)據(jù)和圖像數(shù)據(jù),然后將文本和圖像數(shù)據(jù)分成訓(xùn)練集和測試集。
2)分別對(duì)文本和圖像進(jìn)行預(yù)處理,并提取文本和圖像的特征。
3)將文本特征和圖像特征進(jìn)行融合,形成一個(gè)復(fù)數(shù)矩陣。對(duì)該復(fù)數(shù)矩陣進(jìn)行奇異值分解降維。將降維后的矩陣分離實(shí)部和虛部分別得到文本的語義特征和圖片的語義特征,語義特征提取過程如算法所示。
4) 將該語義特征在SVM-2K分類器中進(jìn)行訓(xùn)練,然后用測試集驗(yàn)證。
5)得到測試集的情感分類結(jié)果。
算法語義特征提取
輸入trainset, testset;
輸出lsa_trainset, lsa_testset。
1)txtimgtr←Text(trainset) + i×Image(trainset);
/* Text函數(shù)取數(shù)據(jù)集中的文本數(shù)據(jù),Image函數(shù)取數(shù)據(jù)集中的圖像數(shù)據(jù),i為虛數(shù)的單位i*/;
2)txtimage←Text(testset) + i × Image(testset);
3)COMPS_LSA←300 ;
4)comTxtImgTr←txtimgtrT
/* txtimgtrT為矩陣txtimgtr的轉(zhuǎn)置*/;
5)[U,Σ,VT]=svd(comTxtImgTr,COMPS_LSA);
6)US←U(∶, 1∶COMPS_LSA);
7)SS← S(1∶COMPS_LSA, 1∶COMPS_LSA);
/* 對(duì)矩陣進(jìn)行奇異值分解,取前COMPS_LSA=300個(gè)最大的奇異值,也即為語義空間的維度*/;
8)comTxtImgTe←comTxtImgTe·U·inv(SS);
9)comTxtImgTr ←comTxtImgTrT·US·inv(SS);
/* inv為取矩陣的逆的函數(shù)*/;
10)lsa_Ttr←Text(comTxtImgTr);
11)lsa_Tte←Text(comTxtImgTe);
12)lsa_Itr←Image(comTxtImgTr);
13)lsa_Ite←Image(comTxtImgTe);
14)return lsa_Ttr+lsi_Itr, lsa_Tte + lsi_Ite。
本節(jié)實(shí)驗(yàn)是為了驗(yàn)證多視圖語義特征融合的有效性。我們使用了基于復(fù)數(shù)表示的文本特征和圖像特征的并行融合方法,并將其進(jìn)行潛在語義分析。將文本特征和圖像特征分別映射到同維度下語義空間,得到各自的語義特征,將得到的語義特征用于訓(xùn)練分類器,最后使用測試集驗(yàn)證了微博情感分類的效果。
3.1 數(shù)據(jù)集
實(shí)驗(yàn)的數(shù)據(jù)集為爬蟲從新浪微博的熱門微博下爬取的。為了完成本文的任務(wù),在爬取微博的時(shí)候僅僅保留同時(shí)含有文字和配圖的微博。最終留下1 000條微博數(shù)據(jù)并手動(dòng)進(jìn)行標(biāo)注。為了驗(yàn)證所提出方法的有效性我們采取了交叉驗(yàn)證的方式,其中700條數(shù)據(jù)作為訓(xùn)練集,300條數(shù)據(jù)作為測試集。
數(shù)據(jù)采集過程如圖2所示。
圖2 新浪微博數(shù)據(jù)采集過程Fig.2 Sina micro-blog data acquisition process
將得到的微博數(shù)據(jù)作如下數(shù)據(jù)預(yù)處理:
1)過濾微博的一些冗余信息,如網(wǎng)址、轉(zhuǎn)發(fā)對(duì)象、表情符號(hào)等。
2)將得到的微博文本和圖像分離并編號(hào),同一條微博的文本和圖片編號(hào)相同。
3)分詞:我們使用漢語分詞系統(tǒng)ICTCLAS[18]對(duì)微博的文本進(jìn)行分詞。
4)去除停用詞:分詞后,去除一些無意義的停用詞。
3.2 實(shí)驗(yàn)設(shè)計(jì)
實(shí)驗(yàn)中我們?cè)O(shè)置LSA語義空間的維度r=300,分別用向量空間模型(vector space model)和布爾模型(Bool model)進(jìn)行加權(quán)。由于Tan等[19]已經(jīng)證明對(duì)于情感分類來說,6 000維度已經(jīng)可以充分表示文本。除了選取6 000作為特征維度,我們展示了特征維度為5 000維下的實(shí)驗(yàn)結(jié)果。
在文本特征選擇時(shí),使用了文檔頻率(document frequency, DF)、互信息(mutual information, MI)、卡方分布(Chi-squared distribution, CHI)和信息增益(Information Gain, IG)這4種文本特征選擇的方法,并比較了這4種特征做情感分類時(shí)的結(jié)果;對(duì)于圖像,我們提取了圖像的亮度、飽和度、色相、紋理、灰度共生矩陣。然后將提取的特征通過LSA映射到一個(gè)語義空間得到各自的語義特征,最后將文本和圖像的語義特征使用SVM-2K進(jìn)行分類,并使用測試集測試得到情感分類的結(jié)果。通過實(shí)驗(yàn)結(jié)果驗(yàn)證本文提出的基于文本和圖像的語義特征情感分類方法的有效性。
3.3 實(shí)驗(yàn)結(jié)果
表1展示了文本特征為5 000維度時(shí),使用純文本特征、純圖像與使用文本和圖像結(jié)合的語義特征多視圖分類的結(jié)果對(duì)比。表1對(duì)比了DF、CHI、MI和IG這4種文本特征選擇方式對(duì)于不同分類方法結(jié)果的影響,表中的SVM-2K是指使用基于文本特征結(jié)合圖像語義特征的多視圖分類器。
表1 5 000維度的布爾模型
表2展示了文本特征為6 000維度時(shí)各種分類方法的對(duì)比,特征為布爾模型。
表2 6 000維度的布爾模型
表3展示了文本特征為5 000維度時(shí),使用純文本特征、純圖像與使用文本和圖像結(jié)合的語義特征多視圖分類的結(jié)果對(duì)比,同樣對(duì)比了DF、CHI、MI和IG這4種特征選擇方式對(duì)于各種分類方法結(jié)果的影響。
表3 5 000維度的向量空間模型
表4展示了文本特征為6 000維度時(shí)各種分類方法的對(duì)比,特征的加權(quán)方式為向量空間模型。
表4 6 000維度的向量空間模型
實(shí)驗(yàn)最后對(duì)比了不使用語義特征的多視圖分類效果。為分析各個(gè)特征對(duì)于結(jié)果的影響,表5匯總了本文所提出方法情感分類精度結(jié)果。
表5基于語義特征的多視圖情感分類方法分類精度統(tǒng)計(jì)
Table5Accuracyofmulti-viewsentimentclassificationofmicroblogsbasedonsemanticfeatures
特征提取方法表1表2表3表4平均值DF0.8090.7910.650.770.755CHI0.8120.810.810.830.816MI0.8060.780.790.820.799IG0.810.770.8060.7850.793
3.4 實(shí)驗(yàn)分析
特征抽取方法的比較:通過表5可知,使用本文方法時(shí)CHI特征表現(xiàn)得最好,平均正確率為81.6%;DF表現(xiàn)得最不穩(wěn)定,有時(shí)效果不錯(cuò)(如表1所示),有時(shí)表現(xiàn)得很差(如表3所示)。
語義特征:可以用不同的方式得到一個(gè)文檔的語義特征,例如,可以用LDA[20]或者針對(duì)于文本較短的情況改進(jìn)的LDA模型[21-22]對(duì)文本進(jìn)行聚類,用聚類的結(jié)果對(duì)文本進(jìn)行再分析。圖像也可以使用類似的方法。但把文本特征和圖像特征分開進(jìn)行語義映射,會(huì)失去二者的內(nèi)在聯(lián)系。
詞項(xiàng)特征和語義特征:通過對(duì)比,我們可以發(fā)現(xiàn),語義特征的分類精度最好的是81.6%,最壞情況是75.5%;而未經(jīng)過LSA處理的純文本特征最好情況是75.75%,最壞情況是74.5%。不難看出,使用經(jīng)過LSA得到的語義特征,有助于提升微博情感分類的精度。不僅整體的分類效果更好,而且各個(gè)子分類器的分類效果也比純文本特征有所提高。這表明,進(jìn)行情感分類工作時(shí)在語義級(jí)別處理并行融合后特征能得到更好的分類效果。
在用戶發(fā)的帶有文本和圖片的微博數(shù)據(jù)中,我們可以發(fā)現(xiàn),本文所提出的基于語義特征的多視圖微博情感分類方法的效果明顯優(yōu)于只考慮純文本的情況。例如,微博“我希望躺在向日葵上,即使沮喪,也能朝著陽光”,其配圖如圖3所示。若使用純文本將其分類得到的是負(fù)面的,而若采用本文提出的多視圖語義特征方法將其分類得到的為正面情感。再如,微博“一個(gè)人不會(huì),也不可能,將祂的全部呈現(xiàn)給你。你所看到的永遠(yuǎn)是祂的局部,而局部永遠(yuǎn)是美好的?!逼渑鋱D如圖4所示。若僅使用純文本分類則分類結(jié)果為正面情感。采用本文提出的方法,則得到的是負(fù)面情感,而負(fù)面情感更加符合事實(shí)的判斷。進(jìn)而說明了本文方法的有效性。
圖3 示例1配圖Fig.3 Image in case 1
圖4 示例2配圖Fig.4 Image in case 2
本文首先利用并行特征融合方式,將文本和圖像合理地組合在一起,然后用潛在語義分析技術(shù),將文本和圖像特征統(tǒng)一地映射到一個(gè)語義空間,最后使用多視圖分類器SVM-2K進(jìn)行分類。實(shí)驗(yàn)表明,基于本文多視圖的語義特征方法的情感分類獲得了比單純的文本特征或者圖像特征更好的效果。使用融合后的語義特征不管是文本特征做情感分類還是單從圖像特征做情感分類,都比原來的分類精度有所提高。但是在3.1小節(jié)數(shù)據(jù)預(yù)處理時(shí)難免會(huì)剔除一些有用的信息,如表情、終端信息、轉(zhuǎn)發(fā)信息、地理位置信息等。如何有效地利用這些因素提高情感分類精度有待進(jìn)一步的研究。
[1]LIU B. Sentiment analysis and opinion mining[J]. Synthesis lectures on human language technologies, 2012, 5(1): 1-167.
[2]PANG T B, PANG B, LEE L. Thumbs up? Sentiment classification using machine learning[J].Proceedings of EMNLP, 2002: 79-86.
[4]QIU G, LIU B, BU J, et al. Opinion word expansion and target extraction through double propagation[J]. Computational linguistics, 2011, 37(1): 9-27.
[5]WU Y, ZAHNG Q, HUANG X, et al. Phrase Dependency Parsing for Opinion Mining[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA, 2009: 1533-1541.
[6]LIU Y, HUANG X, AN A, et al. ARSA: a sentiment-aware model for predicting sales performance using blogs[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA, 2007: 607-614.
[7]MISHNE G, GLANCE N S. Predicting movie sales from blogger sentiment[C]//National Conference on Artificial Intelligence. Menlo Park, USA, 2006: 155-158.
[8]O’CONNOR B, BALASUBRAMANYAN R, ROUTLEDGE B R, et al. From tweets to polls: linking text sentiment to public opinion time series[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Menlo Park, USA, 2010: 122-129.
[9]CHIANG H C, MOSES R L, POTTER L C. Model-based Bayesian feature matching with application to synthetic aperture radar target recognition[J]. Pattern recognition, 2001, 34(8): 1539-1553.
[10]MCCULLOUGH C L. Feature and data-level fusion of infrared and visual images[J]. Proceedings of SPIE-the international society for optical engineering, 1999, 3719: 312-318.
[11]YANG J, YANG J Y, ZHANG D, et al. Feature fusion: parallel strategy vs. serial strategy[J]. Pattern recognition, 2003, 36(6): 1369-1381.
[12]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[M]. New York:ACM, 1975: 613-620.
[13]DEERWESTER S, DUMAIS S T, FURNAS G W. Indexing by latent semantic analysis[J]. Journal of the american society for information science, 1990, 41: 391-407.
[14]REHDER B, SCHREINER M E, WOLFE M B W, et al. Using latent semantic analysis to assess knowledge: some technical considerations[J]. Discourse processes, 1998, 25(2/3): 337-354.
[15]GOLUB G H, REINSCH C. Singular value decomposition and least squares solutions[J]. Numerische mathematik,1970, 14(5): 403-420.
[16]WANG F, PENG J, LI Y. Hypergraph based feature fusion for 3-D object retrieval[J]. Neurocomputing, 2015, 151:612-619.
[17]FARQUHAR J D R, HARDOON D R, MENG H, et al. Two view learning: SVM-2K, theory and practice[C]//International Conference on Neural Information Processing Systems. Stroud sburg, USA, 2005: 355-362.
[18]ZHANG H P, YU H K, XIONG D Y, et al. HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language Processing-Volume 17. Stroudsburg, USA, 2003: 758-759.
[19]TAN S, ZHANG J. An empirical study of sentiment analysis for chinese documents[J]. Expert systems with applications, 2008, 34(4): 2622-2629.
[20]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine learning research, 2003, 3: 993-1022.
[21]ZHAO W X, JIANG J, WENG J, et al. Comparing twitter and traditional media using topic models[J]. Lecture notes in computer science, 2011, 6611: 338-349.
[22]YAN X, GUO J, LAN Y, et al. A biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. New York, USA, 2013: 1445-1456.
吳鐘強(qiáng),男,1992年生,碩士研究生,主要研究方向?yàn)槲谋就诰颉⑶楦蟹治觥?/p>
張耀文,男,1989年生,碩士研究生,主要研究方向?yàn)槲谋就诰?、情感分析?/p>
商琳,女,1973年生,副教授,博士,主要研究方向?yàn)橛?jì)算智能、 機(jī)器學(xué)習(xí)、 文本挖掘等。
Multi-viewsentimentclassificationofmicroblogsbasedonsemanticfeatures
WU Zhongqiang1, 2, ZHANG Yaowen1,2, SHANG Lin1,2
(1. State Key Laboratory of Novel Software Technology, Nanjing University, Nanjing 210046, China; 2. Department of Computer Science and Technology, Nanjing University, Nanjing 210046, China)
The objective in sentiment analysis is to analyze the sentiment tendency contained in subjective text. Most sentiment analysis methods deal with text only and ignore the information provided in the corresponding pictures. In this paper, we propose a multi-view microblog analysis method based on semantic features. Using latent semantic analysis, we map both the text and image features to the semantic space in the same dimensionality, and use SVM-2K to obtain and classify the respective semantic features. We conducted experiments by crawling text and pictures from popular microblogs. The results show that, by combining the semantic features of text and pictures, the sentiment classification result is better than that obtained using text or image features alone.
sentiment analysis; text mining; latent semantic analysis; multi-view; semantic features; feature fusion; feature extraction
10.11992/tis.201706026
http://kns.cnki.net/kcms/detail/23.1538.TP.20171021.1350.010.html
TP181
A
1673-4785(2017)05-0745-07
中文引用格式:吳鐘強(qiáng),張耀文,商琳.基于語義特征的多視圖情感分類方法J.智能系統(tǒng)學(xué)報(bào), 2017, 12(5): 745-751.
英文引用格式:WUZhongqiang,ZHANGYaowen,SHANGLin.Multi-viewsentimentclassificationofmicroblogsbasedonsemanticfeaturesJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 745-751.
2017-06-08. < class="emphasis_bold">網(wǎng)絡(luò)出版日期
日期:2017-10-21.
國家自然科學(xué)基金項(xiàng)目(61672276);江蘇省自然科學(xué)基金項(xiàng)目(20161406).
吳鐘強(qiáng).E-mail: wuzqchom@163.com.