杜敦英 竹翠 朱文軍 趙楓朝
摘要:結(jié)合目前從音頻和歌詞角度對歌曲情感分析的研究以及歌詞文本獨(dú)有特點(diǎn),提出一種基于文本標(biāo)題與位置權(quán)重相結(jié)合的歌詞情感分析方法。該方法考慮到出現(xiàn)在不同位置的特征詞權(quán)值對于歌詞分類的影響程度,采用層次分析法計算文本標(biāo)題、歌詞文本前、中、后不同位置特征詞的位置權(quán)重。通過樸素貝葉斯、最大熵模型、支持向量機(jī)等不同分類器的訓(xùn)練實(shí)現(xiàn)歌曲快樂、傷感、安靜、激昂4種情感分類。實(shí)驗表明,加入文本標(biāo)題與位置權(quán)重后的最優(yōu)F1值相比之前提升了4個百分點(diǎn),證明了該方法在提升歌詞情感分類性能方面的有效性。
關(guān)鍵詞:歌詞情感分析;情感分類;樸素貝葉斯;最大熵模型;支持向量機(jī);位置權(quán)重
Research on Lyric Sentiment Analysis Based on Position Weight
DU Dun?ying,ZHU Cui,ZHU Wen?jun,ZHAO Feng?chao
(Department of Informatics,Beijing University of Technology,Beijing 100124,China)
Abstract:Combining the current research on emotional analysis of songs from the perspective of audio and lyrics and the unique characteristics of lyrics text,we propose a method on lyrics sentiment analysis which is based on the text title and position weight.The algorithm takes into account of the influence degree of the feature words appearing in different positions on the classification of the songs. AHP is used to calculate the position weights of the text title, the front, middle and back of the text in different positions and trained by the NB, ME, SVM different classifier ,songs are finally divided into four emotional classification including happiness, sadness, quietness and passion. Experiments show that the optimal F1 value after adding the text title and position weight is increased by 4 percentage points, which proves the effectiveness of this method in enhancing the performance of lyric sentiment classification.
Key Words:lyric sentiment analysis; sentiment classification;NB;ME;SVM; position weight
0?引言
隨著人工智能、模式識別技術(shù)的飛速發(fā)展和人民生活品質(zhì)的提高,音樂成為生活中必不可少的交流媒介之一。音樂通常蘊(yùn)含豐富的情感,由于信息檢索系統(tǒng)及音樂推薦系統(tǒng)的需要,情感分類技術(shù)[1?4]應(yīng)運(yùn)而生并成為當(dāng)今研究熱點(diǎn)。
歌曲可以通過演唱風(fēng)格、音樂編曲形式、歌詞等多角度表達(dá)歌曲情感。歌曲情感分類研究主要基于音頻分析[5]、歌詞分析以及兩者相結(jié)合的研究形式。對于一首廣為流傳的歌曲,副歌部分往往傳唱度最高,強(qiáng)烈的情感從該處體現(xiàn),因此每首歌不同詞的位置對于整首歌曲情感的表達(dá)有重要作用。本文將歌詞文本分為開頭、中間、結(jié)尾3個部分以區(qū)分不同位置的特征詞,然后結(jié)合標(biāo)題與歌詞文本開頭、中間、結(jié)尾4個不同位置,通過計算位置因子,采用不同分類模型融合探究歌詞情感分類問題。
1?相關(guān)研究
目前,對歌曲情感的分類研究大都從音頻和歌詞的角度進(jìn)行分析,在音頻研究中,常見通過從音樂節(jié)奏、旋律音頻數(shù)據(jù)中提取相關(guān)情感特征進(jìn)行歌曲情感分析。Lee J Y等[6]在2014年提出基于音樂高光檢測的音樂情感分類方法,應(yīng)用高斯混合模型和AdaBoost算法,將節(jié)奏特征與音色特征相結(jié)合并基于音樂高光片段改善音樂情感分類性能。2015年,趙偉[7]以多音軌角度為出發(fā)點(diǎn),提取聲學(xué)5個方面的特征,利用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行100多次訓(xùn)練,最后將音樂情感分為8個類別,在給定誤差范圍內(nèi)準(zhǔn)確率大于90%,取得了較好效果。2017年,Lin 等[8]提出基于two-level的支持向量機(jī)模型的音樂情感識別系統(tǒng),以二分法為每個音樂剪輯分配一個情感類別,將流行、搖滾、爵士、藍(lán)調(diào)等不同類型的音樂進(jìn)行快樂、悲傷、平靜、憤怒4種類別的情感分類,也取得了不錯的效果。在歌詞研究方面,2008年He 等[9]著眼于如何在歌詞本文中提取有意義的語言特征以輔助進(jìn)行音樂情感分類,在著名的n-gram語言模型框架下,提出了3種預(yù)處理方法和一系列具有不同階數(shù)的語言模型以提取更多的語義特征。王靜[10]在基于歌詞的音樂情感分析中采用ME、SVM、LDA 3種分類模型研究歌詞對情感分類的影響。Turney[11]提出了無監(jiān)督學(xué)習(xí)逐點(diǎn)互信息情感分類方法,通過把每篇文本中的所有具有情感傾向的短語的情感傾向值相加,根據(jù)平均情感傾向判斷文本整體情感傾向。夏云慶等[12]提出基于情感向量空間模型的歌詞情感分析方法,該模型考慮了特征定義中的情感單元,采用更具有區(qū)分性的支持向量進(jìn)行歌曲情感分類研究,結(jié)果顯示基于文本的方法比基于音頻的方法更有效[13]。在結(jié)合歌詞分析與音頻分析的研究中,2011年,孫向琨[14]提出基于向量夾角的多標(biāo)記k近鄰算法,將該方法與TF-IDF算法結(jié)合,以情感詞多義性為研究對象進(jìn)行音樂情感分類研究。2012年,程一峰[15]提出基于TF-IDF音頻和歌詞特征融合模型的音樂情感分析研究,首先利用單一模態(tài)的歌詞特征對音樂進(jìn)行情感分析,再通過融合歌詞和音頻兩種模態(tài),構(gòu)建SVM分類器進(jìn)行音樂情感分析。2017年,Abburi等[16]演示了一種使用歌詞和音頻信息提取歌曲情感的方法,研究發(fā)現(xiàn)通過整首歌曲表現(xiàn)情感的情況非常少見,因為完整的歌曲將包含更多令人困惑的信息(特征),而在音頻方面,一首歌曲的前30秒對于檢測歌曲的情感比歌曲的最后30秒或從整首歌曲中獲得的效果都好。
以上研究思路都未考慮特征詞位置信息這一重要因素。歌詞文本不同于微博短文本、淘寶評論等文本,歌詞文本的明顯特征是文本中有重復(fù)特征詞,特別是副歌部分,往往含載了豐富的情感,所以不同特征詞的位置對情感分類具有影響。因此從文本角度出發(fā),采用樸素貝葉斯、最大熵模型、支持向量機(jī)3種模型研究特征詞位置對歌詞情感分析的影響。
2?算法框架與原理
2.1?歌詞情感分析流程
在了解中文文本分類方法基本原理和相關(guān)技術(shù)并明確中文文本分詞的基礎(chǔ)上,進(jìn)行歌詞情感分析,流程包括:①通過基于方差的卡方檢驗CHI進(jìn)行合理的特征選擇,以挑選出有效的、能夠表達(dá)情感的詞匯作為研究特征項;②詳細(xì)分析中文歌詞與情感的關(guān)系,結(jié)合CHI構(gòu)建適用于本研究的情感詞匯表;③引入位置因子概念表示該位置特征詞對情感分類的影響程度,基于TF-IDF算法采用統(tǒng)計的方法,對特征詞進(jìn)行詞頻統(tǒng)計,并結(jié)合位置因子計算各特征詞位置權(quán)重;④在純歌詞文本加上文本標(biāo)題并結(jié)合位置權(quán)重的基礎(chǔ)上依次進(jìn)行遞進(jìn)實(shí)驗,采用NB、ME、SVM訓(xùn)練多個二值分類器,并基于投票機(jī)制確定歌詞最終的情感類別。
歌詞情感分析整體架構(gòu)如圖1所示。
圖1?歌詞情感分析流程
2.2?樸素貝葉斯算法
樸素貝葉斯算法(Naive Bayes,NB)是基于貝葉斯定理與特征條件獨(dú)立性假設(shè)的分類方法[17]。隨機(jī)變量X表示輸入特征向量,隨機(jī)變量Y表示輸出類別標(biāo)簽,給定訓(xùn)練數(shù)據(jù)集:
其中,?x?i=(x(1)?i,x(2)?i,…,x(n)?i)表示第i個樣本有n維,y?i={c?1,c?2,…,c?k}表示共有k個類別。
計算訓(xùn)練集所有樣本中每個類別的先驗概率:
對每個特征屬性取值,分別計算所屬類別條件概率:
其中,x(j)?i表示第i樣本中的第j個特征;a?jl表示第j個特征可能取的第l個值;I是一個指示函數(shù)。
對于未知標(biāo)簽的數(shù)據(jù)樣本,通過學(xué)習(xí)到的模型計算后驗概率分布,設(shè)x=(x(1),x(2),…,x(n))?T?,則:
因分母對所有?C?k?相同,可省略,將后驗概率最大的類作為當(dāng)前文本情感類別:
當(dāng)概率值為0時會對后驗概率計算結(jié)果造成偏差,影響最終分類性能,因此在實(shí)驗計算過程中引入拉普拉斯平滑的貝葉斯估計方法解決該問題。
2.3?最大熵模型
最大熵原理由Jaynes提出,他認(rèn)為在學(xué)習(xí)概率模型時,在所有可能的概率模型分布中,熵最大的模型為最佳模型。其中熵又稱為自信息,是衡量一個隨機(jī)變量的不確定性指標(biāo)。隨機(jī)變量熵值越大,表示不確定性越大。如果X是一個離散型隨機(jī)變量,取值空間為?R,其概率分布為P(X=x?i)=p?i,i=1,2,…,N,則X熵H(p)定義為:
最大熵模型(Maximum Entropy Model,ME)是基于最大熵原理提出的,學(xué)習(xí)目標(biāo)是用最大熵原理選擇最好的分類模型[17]。最大熵分類尋找一個關(guān)于p(y|x)的模型,使模型在滿足相關(guān)約束條件下,使條件熵最大。ME的學(xué)習(xí)過程是求解最大熵模型的過程,對于給定的訓(xùn)練數(shù)據(jù)集?T={(x?1,y?1),(x?2,y?2),…,(x?N,y?N)}(其中x?i為訓(xùn)練樣本,y?i為樣本x?i類別)以及特征函數(shù)fi(x,y),i=1,2,…,n?,ME的學(xué)習(xí)可以形式化為約束最優(yōu)化問題。
為簡化問題求解,通過構(gòu)造拉格朗日函數(shù)將帶約束的原始問題轉(zhuǎn)換為無約束的最優(yōu)化對偶問題,求解出ME一般形式。
2.4?支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)是經(jīng)典機(jī)器學(xué)習(xí)算法處理分類問題時使用最廣泛的機(jī)器學(xué)習(xí)模型之一,在解決小樣本、非線性及高維模式識別中表現(xiàn)出獨(dú)特優(yōu)勢。SVM的基本思想是在向量空間中尋找一個分類超平面,超平面需讓所有樣本點(diǎn)中距離超平面最近的訓(xùn)練樣本點(diǎn)具有最大幾何間隔,從而使超平面具有唯一性[17]。利用該平面對兩類數(shù)據(jù)進(jìn)行正確劃分,給定數(shù)據(jù)集為:
其中?x?i?∈R?n,y?i∈{-1,+1},i=1,2,3,…,N。
尋找?guī)缀伍g隔最大的超平面可以表示為帶約束的最優(yōu)化問題。
其中γ表示最大化超平面關(guān)于訓(xùn)練集的幾何間隔,約束條件表示超平面關(guān)于每個訓(xùn)練樣本點(diǎn)的幾何間隔至少是γ。通過函數(shù)間隔與幾何間隔γ=/‖w‖的關(guān)系,取=1,最大化1/‖w‖等價于最小化‖w‖?2/2,使最優(yōu)化問題變?yōu)椋?/p>
線性可分支持向量機(jī)最優(yōu)化問題,以它作為原始最優(yōu)化問題,應(yīng)用拉格朗日對偶性引入拉格朗日乘子?α?構(gòu)造拉格朗日函數(shù),其中最優(yōu)化問題變?yōu)椋?/p>
通過SMO算法求得最優(yōu)解,然后計算:
最后求得“最大間隔”超平面為:
分類決策函數(shù)為:
2.5?CHI特征選擇方法
卡方檢驗CHI[18]是一種常用的特征選擇方法,假設(shè)特征詞?t與類別c相互獨(dú)立,通過觀察理論值與實(shí)際值的偏差確定假設(shè)是否正確,以此度量特征詞t與類別c的相關(guān)程度。二者之間的卡方值計算公式為:
其中參數(shù)N為數(shù)據(jù)集中歌詞文本總數(shù),A為包含特征詞t且屬于類別c的文本數(shù),B為包含特征詞t但不屬于類別c的文本數(shù),C為不含特征詞t但屬于類別c的文本數(shù),D為不含特征詞t且不屬于類別c的文本數(shù)。
可以看出,N是不變的,所以式(14)分子中的N和分母中的(A+C)(B+D)可以省略。
卡方值越小,說明特征詞t與類別c相互獨(dú)立性越大,即假設(shè)正確,二者不相關(guān);反之若卡方值越大,則表示假設(shè)錯誤,說明特征詞t與類別c緊密相關(guān)。
2.6?TF-IDF傳統(tǒng)權(quán)重算法
詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF_IDF)用以評估特征詞對于訓(xùn)練數(shù)據(jù)集中的某個文本的重要程度。其主要思想是:若某個特征詞在當(dāng)前文本中出現(xiàn)得頻率高,同時在其它文本中很少出現(xiàn),那么認(rèn)為該特征詞具有很好的類別區(qū)分能力。TF?ID?F由兩部分組成,詞頻(Term Frequency,TF)表示特征詞在文檔d中出現(xiàn)的頻率。對于在某一特定文本的特征詞來說,其重要性可表示為:
其中n?i,j是該特征詞t?i在文件d?j中出現(xiàn)的次數(shù),分母表示在文件d?j中所有特征詞出現(xiàn)的次數(shù)之和。
逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含特征詞t的文本越少,則說明特征詞t具有很好的類別區(qū)分能力。逆向文件頻率是一個特征詞普遍重要性的度量。某一特征詞的IDF可以由總文本數(shù)目除以包含該特征詞的文本數(shù)目,再將得到的商取對數(shù)得到,表示為:
其中l(wèi)og的分子表示數(shù)據(jù)集文本總數(shù),分母表示包含詞語?t?i?的文本數(shù)目,一般情況下以分母加1的形式防止分母為0 。
IDF結(jié)構(gòu)簡單,不能有效反映單詞重要程度和特征詞分布情況,即未考慮位置信息,無差別處理在文本不同位置的詞語,但對于歌詞文本來說,文本標(biāo)題特征詞的重要程度跟文本中間或文本前后特征詞重要程度不同。因此可以將處于文本不同位置的特征詞賦予不同的權(quán)重。
3?基于位置權(quán)重算法分析
3.1?基本思想
鑒于傳統(tǒng)的特征權(quán)重計算算法TF-IDF認(rèn)為文本中出現(xiàn)靠前的特征詞和靠后的特征詞重要性相同,無法體現(xiàn)特征詞位置信息的特點(diǎn),基于位置權(quán)重算法提出一種新的特征權(quán)重算法,在歌詞情感分析場景中,考慮到歌詞文本不同于微博短文本、淘寶評論等文本,歌詞文本最不可忽略的一點(diǎn)就是文本中有重復(fù)的特征詞,特別是副歌部分,或?qū)η楦蟹诸惍a(chǎn)生影響?;诖藢⒏柙~文本分為前、中、后3個部分以區(qū)分不同位置特征詞,然后結(jié)合文本標(biāo)題與歌詞文本前、中、后4個不同位置,利用AHP分別置于不同位置因子,面向不同位置特征詞的位置因子進(jìn)行分組實(shí)驗。
3.2?AHP位置權(quán)重算法
借鑒TF-IDF中詞頻思想,對特征詞進(jìn)行詞頻統(tǒng)計,加入文本標(biāo)題,利用文本前、中、后不同位置的位置因子計算每個特征詞權(quán)重,通過位置因子表示不同位置特征詞對最終情感分類的貢獻(xiàn)程度。定義TTFL為基于文本標(biāo)題和位置權(quán)重的算法,其中TTFL=T*TF*L,TF表示特征詞在當(dāng)前文本中的詞頻,T代表文本標(biāo)題的位置因子,L代表文本歌詞文本前、中、后不同位置的位置因子。在計算位置因子時,根據(jù)AHP[19]求解。AHP算法原理是將復(fù)雜評價指標(biāo)排列為一個有序、遞階層次結(jié)構(gòu)的整體,然后在各評價指標(biāo)間進(jìn)行兩兩比較、判斷,計算各評價指標(biāo)的相對重要性系數(shù),即權(quán)重。具體步驟如下:
(1)構(gòu)建兩兩比較的判斷矩陣。判斷矩陣合理性受標(biāo)度合理性影響的程度。標(biāo)度是指評價者對各個評價指標(biāo)重要性等級差異量化概念。針對歌曲情感分類,假設(shè)比較n個位置因子X={x?1,x?2,…,x?n}對歌曲最后情感類別C的影響大小,兩兩比較建立判斷矩陣A=(rij)n×n。
x?i與x?j對C的影響之比為r?ij,判斷矩陣A=(r?ij)n×n滿足:
上述矩陣為正互反矩陣,參考1-9標(biāo)度比例標(biāo)度法判斷矩陣構(gòu)建,如表1所示。
其中n為4,假設(shè)用x?1、x?2、x?3、x?4表示文本標(biāo)題和歌詞文本前、中、后的位置因子,則判斷矩陣A為:
(2)層次單排序。計算判斷矩陣A的最大特征根λ和其對應(yīng)的歸一化后的特征向量:
由此得到特征向量是文本標(biāo)題和歌詞文本前、中、后的位置因子。λ和W的計算方法為:
步驟1:矩陣每一列歸一化得到新矩陣B:
步驟2:對按列歸一化的矩陣B再按行求和:
W?i=∑nj=1B?ij,i=1,2,…,n(20)
步驟3:將向量歸一化得到最終的特征向量:
步驟4:計算最大特征根:
(3)檢驗判斷矩陣?A?的一致性。檢驗判斷矩陣一致性是指當(dāng)需要確定權(quán)重的指標(biāo)較多時,矩陣內(nèi)初始權(quán)數(shù)可能出現(xiàn)矛盾,對于階數(shù)較高的判斷矩陣,難以直接判斷其一致性,需要進(jìn)行一致性檢驗。但本文由于指標(biāo)個數(shù)較少,故不作一致性檢驗。
經(jīng)過AHP算法計算后的位置因子將分別作為TTFL中的T和L進(jìn)行實(shí)驗驗證,當(dāng)某個特征詞屬于文本標(biāo)題的特征詞時,公式中T代入為相應(yīng)的位置因子,而L取值為1,反之L代入歌詞文本前、中或后的特征詞位置因子,此時T取值為1。
4?實(shí)驗驗證與結(jié)果分析
4.1?實(shí)驗數(shù)據(jù)來源與預(yù)處理
由于本文研究對象是中文歌曲的多情感分類問題,為保證數(shù)據(jù)可信度,抓取酷狗音樂、酷我音樂4個類別下的歌詞文本,其中去除中混雜或居多的歌詞文本后,各類別分別計300篇,共計1 200篇歌詞文本作為實(shí)驗最終數(shù)據(jù)集。
中文分詞采用的是結(jié)巴分詞中的精確模式,切分歌詞文本最精確部分,并去掉停用詞、消除歧義詞。在特征提取方面,利用CHI計算特征詞與類別卡方值,排序構(gòu)建固定維度的情感詞典以將每個歌詞文本轉(zhuǎn)成統(tǒng)一維度的詞向量。
4.2?實(shí)驗過程
本文基于歌詞文本和文本標(biāo)題以及位置權(quán)重進(jìn)行歌曲情感分類。在分類器訓(xùn)練過程中以二值分類器為基準(zhǔn),基于4種類別訓(xùn)練?C?2?4個二分類器,將數(shù)據(jù)樣本分別在C?2?4個分類器進(jìn)行訓(xùn)練,最后利用C?2?4?個分類器投票,投票最高的類別作為當(dāng)前樣本的最終情感類別。實(shí)驗中選用的分類器模型是樸素貝葉斯、最大熵模型、支持向量機(jī),其中ME的最大迭代次數(shù)max_iter和SVM目標(biāo)函數(shù)懲罰參數(shù)?C?設(shè)置為50,SVM使用默認(rèn)徑向基核函數(shù)。
4.3?實(shí)驗結(jié)果與分析
對不同特征維度、文本標(biāo)題和位置權(quán)重進(jìn)行多組對比實(shí)驗。在對分類器性能進(jìn)行評測時,應(yīng)用最常用的K折交叉驗證隨機(jī)將數(shù)據(jù)劃分為K個大小相同的子集,使用(K-1)個子集數(shù)據(jù)作為訓(xùn)練集,剩下的子集作為測試集進(jìn)行多組實(shí)驗,最后選用性能最好的模型作為最終結(jié)果。以準(zhǔn)確率、召回率、F?1值作為評價指標(biāo)進(jìn)行衡量。
實(shí)驗1將中文歌詞文本分詞后,通過CHI算法構(gòu)建不同維度情感詞典,并將歌詞文本按照詞頻轉(zhuǎn)成相應(yīng)維度詞向量,對文本標(biāo)題不作考慮,并且認(rèn)為歌詞文本中每一位置的特征詞重要程度相同,實(shí)驗結(jié)果如圖2所示。
圖2中橫坐標(biāo)軸代表3種不同分類器,縱坐標(biāo)軸表示4種情感類別最終分類準(zhǔn)確率,實(shí)驗從不同特征維度分別進(jìn)行3個分類器的訓(xùn)練,可知取特征數(shù)為5 000時的效果優(yōu)于其它維度時的效果,其中SVM分類效果最好。
標(biāo)題是對一篇文章內(nèi)容的高度概括,代表文章主體意思,歌詞標(biāo)題亦然,因此實(shí)驗2在之前基礎(chǔ)上將文本標(biāo)題也作為特征詞加入,實(shí)驗結(jié)果如圖3所示。
分析結(jié)果可知,相比于之前只考慮純文本歌詞的情況,在加入文本標(biāo)題的特征詞后分類結(jié)果較之前有一定提升。
實(shí)驗3綜合考慮歌詞文本結(jié)合文本標(biāo)題,對不同位置特征詞位置因子進(jìn)行實(shí)驗,設(shè)文本標(biāo)題特征詞位置因子和歌詞文本中間位置的特征詞位置因子相等,且大于其它兩個位置特征詞位置因子,其中位置因子表示權(quán)重,具體值由AHP算法計算得到。實(shí)驗表明,在考慮文本標(biāo)題的同時衡量位置權(quán)重,在一定程度上影響了歌曲情感,此時經(jīng)AHP計算出的位置因子只有兩個值,分別代表文本標(biāo)題、歌詞文本中間特征詞和歌詞文本前、后特征詞的權(quán)重。當(dāng)特征數(shù)是5 000時,屬于NB持平的狀況,而ME提高了1個百分點(diǎn),SVM精確率達(dá)到了88%。
與實(shí)驗3相比,實(shí)驗4認(rèn)為文本標(biāo)題的特征詞位置因子最大,歌詞文本中間位置的特征詞位置因子次之,其它兩個位置的特征詞位置因子最小且相等,特征數(shù)為5 000,實(shí)驗結(jié)果如圖4所示。
本次實(shí)驗顯示,經(jīng)AHP計算的4個位置因子及樸素貝葉斯分類器分類效果明顯提高,整體效果仍然優(yōu)于不考慮位置權(quán)重時的情況。
基于實(shí)驗1、實(shí)驗2、實(shí)驗4的比較如表2和圖5所示。表2和圖5分別展示的是不同分類器在加入不同考慮因素時,?F?1值和精確率的比較,其中表2中x軸表示分類器,y?軸表示遞進(jìn)增加的考慮因素??梢钥闯霰疚奶岢龅幕谖恢脵?quán)重的歌詞情感分類方法將歌曲類別分為快樂、傷感、安靜、激昂,比只用歌詞文本的分類性能[20?21]有明顯提升,進(jìn)一步說明特征詞位置因素對最終歌詞情感分類情況是有影響的。
5?結(jié)語
本文提出利用融合文本標(biāo)題和基于位置權(quán)重的歌詞情感分析方法,衡量不同位置特征詞對分類的影響,并通過實(shí)驗證明了相對于現(xiàn)有特征權(quán)重計算方法和歌詞情感分析研究,加入特征詞位置權(quán)重后不僅節(jié)省執(zhí)行時間,對于歌詞情感分類效果也明顯提升。后續(xù)研究將對位置權(quán)重進(jìn)行更加深入的分析,擴(kuò)大場景應(yīng)用范圍。在影評、詩歌、商品評論等領(lǐng)域場景及微博熱搜榜詞條、新聞標(biāo)題黨檢測方面也可借鑒位置權(quán)重以提高情感分類性能。
參考文獻(xiàn):
[1]?WU H, LI J, XIE J. Maximum entropy?based sentiment analysis of online product reviews in Chinese[C].International Conference on Automotive Engineering, Mechanical and Electrical Engineering, 2017:559?562.
[2]?WANG C, JIA Y, HUANG J M, et al. Retweet prediction in Sina Weibo based on entity?level sentiment analysis[C]. International Conference on Artifial Intelligence,2017:343?350.
[3]?KAUTER M V D, BREESCH D, HOSTE V. Fine?grained analysis of explicit and implicit sentiment in financial news articles[J]. Expert Systems with Applications, 2015, 42(11):4999?5010.
[4]?YANG H L, CHAO A F. Sentiment analysis for Chinese reviews of movies in multi?genre based on morpheme?based features and collocations[J]. Information Systems Frontiers, 2015, 17(6):1335?1352.
[5]?張偉,謝湘.基于HMM的音樂情感識別研究[C].全國人機(jī)語言通訊學(xué)術(shù)會議, 2007:1?5.
[6]?LEE J Y, KIM J Y, KIM H G. Music emotion classification based on music highlight detection[C].International Conference on Information Science and Applications, 2014:1?2.
[7]?趙偉.基于BP神經(jīng)網(wǎng)絡(luò)的音樂情感分類及評價模型[J]. 電子設(shè)計工程, 2015(8):71?74.
[8]?LIN C, LIU M, HSIUNG W, et al. Music emotion recognition based on two?level support vector classification[C]. International Conference on Machine Learning and Cybernetics, 2017:375?389.
[9]?HE H, JIN J, XIONG Y, et al. Language feature mining for music emotion classification via supervised learning from lyrics[C].?Third International Symposium on Advances in Computation and Intelligence,2008:426?435.
[10]?王靜.基于歌詞的音樂情感分類技術(shù)研究[D].沈陽:東北大學(xué), 2012.
[11]?TURNEY P D. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics, 2002:417?424.
[12]?XIA Y, WANG L, WONG K F, et al. Sentiment vector space model for lyric?based song sentiment classification[C]. Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers,2008:133?136.
[13]?夏云慶,楊瑩,張鵬洲,等.基于情感向量空間模型的歌詞情感分析[J].中文信息學(xué)報,2010,24(1):99?104.
[14]?孫向琨.音樂內(nèi)容和歌詞相結(jié)合的歌曲情感分類方法研究[D].蘇州:蘇州大學(xué), 2011.
[15]?程一峰.基于TF?IDF的音頻和歌詞特征融合模型的音樂情感分析研究[D].重慶:重慶大學(xué), 2012.
[16]?ABBURI H, SAI E, GABGASHETTY S V, et al. Multimodal sentiment analysis of Telugu songs[C].Proceedings of the 4th Workshop on Sentiment Analysis where AI meets Psychology ,2016:?48?53.
[17]?李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社, 2012.
[18]?邱云飛,王威,劉大有,等.基于方差的CHI特征選擇方法[J].計算機(jī)應(yīng)用研究,2012,29(4):1304?1306.
[19]?王學(xué)軍,郭亞軍,蘭天.構(gòu)造一致性判斷矩陣的序關(guān)系分析法[J]. 東北大學(xué)學(xué)報:自然科學(xué)版, 2006, 27(1):115?118.
[20]?DAKSHINA K, SRIDHAR R. LDA based emotion recognition from lyrics[M].Newyork:Springer International Publishing, 2014.
[21]?YANG D, LEE W S. Music emotion identification from lyrics[C]. IEEE International Symposium on Multimedia, 2009:624?629.