• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文歌詞文本的情感分類綜述

      2021-03-15 07:01楊帆余華平
      電腦知識與技術(shù) 2021年3期
      關(guān)鍵詞:深度學習

      楊帆 余華平

      摘要:隨著生活條件的普遍提高,人們從物質(zhì)文化需求轉(zhuǎn)為更高的精神追求,音樂因為蘊含著豐富的情感,自然就成人們發(fā)泄、享受生活必不可少的一部分。音樂是情感表達的一種重要形式,也就是說情感是音樂語義信息中最重要的成分之一,歌詞的情感分類在音樂的檢索和推薦等方面應用廣泛,情感分類算法的優(yōu)劣決定了用戶能找到適合的音樂,音樂廠商能留住更多的用戶。

      關(guān)鍵詞:情感分類;分類算法;深度學習

      中圖分類號:TP391? ? ? 文獻標識碼:A

      文章編號:1009-3044(2021)03-0207-02

      Abstract: With the general improvement of living conditions, people have changed from material and cultural needs to higher spiritual pursuits. Music, because it contains rich emotions, naturally becomes an indispensable part for people to vent and enjoy life. Music is an important form of emotion expression, that is to say, emotion is one of the most important components in music semantic information. Emotion classification of lyrics is widely used in music retrieval and recommendation, etc. The quality of emotion classification algorithm determines that users can find suitable music and music manufacturers can retain more users.

      Key words: Classification of emotions; Classification algorithm; deep learning

      1 引言

      人們對音樂服務得到要求要來越高,音樂軟件公司能否快速且準確為用戶提供合適的音樂,決定了其能否在市場上有一席之地,而歌詞文本情感分類在軟件生產(chǎn)商面對用戶的音樂推薦和檢索上有著重要作用。論文將從開始基于詞典的分類方法,到后來使用機器學習出來這類二分類問題,最后深度學習的崛起應用于情感分類這一過程逐一介紹。

      2 分類類型

      中文歌詞情感分類基于分類模型可以分為三種類型,第一個是基于情感詞典和樣本數(shù)據(jù)的句法結(jié)構(gòu)、第二個是根據(jù)機器學習來做的,例如Bayes、SVM等、第三個是深度學習的方法,例如LSTM+CNN、BERT+CNN等。當然還有考慮混合的,像是詞典與機器學習混合的方法和隨意性較大的弱標注信息的情感分類,目前的基于詞典的算法基本上都混合了機器學習,而弱標注是利用比如評論中表情包、emoji表情作為樣本信息,所以相對一般的分類算法隨意性更大。

      2.1基于詞典的情感分類方法

      基于詞典的文本情感分類流程包括樣本數(shù)據(jù)預處理、分詞(結(jié)巴分詞等)、訓練詞典、詞典判斷。

      詞典方法的核心是詞典和規(guī)則,首先是詞典的創(chuàng)建,詞典包括情感詞典(積極詞匯和消極詞匯)、程度詞典、否定詞典和連詞詞典。詞典中最重要的就是情感詞典,情感詞典的詞匯越準確豐富,在分類標注歌詞的極性(積極、消極、中性)和強度(情感表達的強度)時效果就越好。但一般情感詞典中詞匯量有限,需要通過同義詞來擴充情感詞典,將情感詞匯放到同義詞林中得到對應的同義詞近義詞,在用例如Word2Vec算法計算相似度,篩選相似度足夠的匯總成新的情感詞典。

      詞典創(chuàng)建之外就是“規(guī)則”,規(guī)則是需要人工根據(jù)句子結(jié)構(gòu)設(shè)計的,比如現(xiàn)在有句子:

      “雖然這件衣服樣式好看,但是質(zhì)量確實不行”

      句子中有連詞“雖然…但是…”,情感詞“好看”“不行”。賦值權(quán)重可以設(shè)定前后占比2:8,所以這句話的情感P=雖然(0.2)*好看(1)+但是(0.8)*不行(-1)=-0.6,所以這句子是消極情緒的。同時情感詞之間的強度也不是全一致的,像“痛苦”和“沉默”他們的消極程度是不一樣,還有程度副詞帶來的影響,像是“難過”和“十分難過”,“傷心”和“傷心欲絕”這些信息應該都要考慮在句子評分中?;谠~典的分類實現(xiàn)流程如下

      (1) 將中文歌詞文本進行分句,接下來以分句為單位進行處理;

      (2) 從分句中逐詞查找到連詞和否定詞,并標記他們的位置;

      (3) 再從分句逐詞找到情感詞,從詞典中得到該情感詞極性及其強度;

      (4) 這里判斷(是否有連詞),通過連詞位置,確定前句與后句權(quán)重占比,再次判斷(是否有否定詞),根據(jù)否定詞位置判斷是否需要雙重否定;若不包含連詞、否定詞,則略過該步驟;

      (5) 累加本句情感計算評分;

      (6) 重復上述步驟計算歌詞文本的評分,若為正,則為積極,若為負,則為消極。

      基于詞典的情感分類方法本質(zhì)上依賴于詞典的創(chuàng)建和規(guī)則的設(shè)計,但是過程人才是唯一的判斷標準,在歌詞外還可能需要考慮歌手所在地的文化等先驗知識。同時一個句子里相同詞語的不同組合,不同語氣都會帶來不同情感。

      2.2基于機器學習的情感分類方法

      支持向量機SVM和貝葉斯算法都是機器學習中常用的文本分析算法,樣本處理,分詞,去停用詞,將歌詞樣本分為了積極和消極兩大類,標為0和1。與處理完成后使用TFIDF權(quán)值計算,結(jié)果給SVM和樸素貝葉斯等分類算法。

      1)TFIDF

      TF即詞頻,是文本統(tǒng)計信息之一,簡單來說就是單詞在文本中的出現(xiàn)頻率。IDF即逆向文檔頻率,詞的普遍重要性信息,簡單來說就是文檔總數(shù)/包含該詞匯的文檔數(shù),再取對數(shù)得到的值。TFIDF即TF*IDF所得到的值,可以衡量某個詞在所有文檔中的重要程度。假設(shè)一個文檔A詞數(shù)為n,有一詞匯的出現(xiàn)次數(shù)為t,且在x份文件中出現(xiàn)在w文檔里。

      2)SVM

      SVM支持向量機本質(zhì)是一個二分類模型,當樣本線性可分時,有無數(shù)條將樣本分開線,通過硬間隔最大化,生成一個線性可分支持向量機。當樣本線性不可分時,就非線性轉(zhuǎn)換,軟間隔最大化,生成非線性支持向量機。

      3)NB

      NB樸素貝葉斯,假定一個特征影響區(qū)別于其他特征,對于歌詞情感分類,就是假定他的特征詞之間相互獨立。NB還是利用了概率統(tǒng)計進行學習分類,預測當前歌詞文本屬于各個類別的可能性,并歸為可能性最大的一類。

      2.3基于深度學習的情感分類方法

      上面的分類方法有的已經(jīng)達到了80%以上的正確率,達到了某些行業(yè)的生產(chǎn)環(huán)境,但是還是有不小的提升空間,另外一方面,傳統(tǒng)的分類方法需要有專業(yè)人員的人工設(shè)計和先驗知識,開發(fā)成本上有相當?shù)南拗啤?/p>

      基于深度學習下的情感分類方法不需要有語言專家和數(shù)據(jù)挖掘?qū)<姨匾庠O(shè)計,首先歌詞的中文文本語義豐富,我們要將歌詞文本用一種計算機能懂的方式寫出來,就是把句子中的詞編號,語義相近聯(lián)想在一起的編號就相近,這樣在識別學習過程中就能夠提高模型的準確率。但是就像歌詞中有“士兵”可能聯(lián)想到士兵-戰(zhàn)爭-死亡-消極情緒,也有可能是士兵-英雄-勝利-積極情緒,所以中文的語義是多維的,句子就是詞的集合,每個詞都是高維向量(詞向量),那么句子就是一個包含多個高維向量的矩陣。模型不能直接處理這個高維的矩陣,我們需要首先把矩陣給鋪開抹平,直接將所有向量拼接成一個特別長向量是不合理,所以需要像卷積神經(jīng)網(wǎng)絡CNN等方法保留大多數(shù)有用信息編碼成一維向量,CNN就像處理圖像識別一樣通過卷積池化將矩陣降維。除此之外還有RNN和LSTM之類的,他們考慮到文本中詞語的先后順序?qū)φZ義的表達影響。一個使用LSTM的分類算法如下:

      3 總結(jié)

      文本的情感分類已經(jīng)有多年的發(fā)展,而中文歌詞文本的情感分類也因為深度學習的廣泛流行和不俗效果在近年有了長足的發(fā)展。但是還是有許多能改進的地方,像是因為歌詞要考慮與旋律的配合可能使用日常不常用的詞匯,或是對常用詞匯的縮寫和顛倒,而且音樂作為一種流行文化很容易接收一些網(wǎng)絡新詞熱詞,可以通過對分類后積極樣本和消極樣本的詞頻統(tǒng)計和篩選,提取并放入情感詞典,比如有一個網(wǎng)絡熱詞“藍瘦香菇”出現(xiàn)在多個消極樣本中,而積極樣本沒有,可將它放到消極詞典中。還有語氣再對情緒表達中也有著關(guān)鍵的作用,同樣一句“你是真的開心啊”他的感嘆句,反問句,陳述句包含的情緒都不一致,所以歌詞的文本的情感分類還需要進一步的發(fā)展。

      參考文獻:

      [1] 王潔,朱貝貝.面向中文歌詞的音樂情感分類方法[J].計算機系統(tǒng)應用,2019,28(8):24-29.

      [2] 張成博.基于FV-SA-SVM的電影評論情感分析[D].上海:上海師范大學,2020.

      [3] 丁森華,邵佳慧,李春艷,等.文本情感分析方法對比研究[J].廣播電視信息,2020(4):92-96.

      [4] 曾奇.面向微博的短文本分類算法研究[D].成都:電子科技大學,2019.

      【通聯(lián)編輯:梁書】

      猜你喜歡
      深度學習
      從合坐走向合學:淺議新學習模式的構(gòu)建
      搭建深度學習的三級階梯
      有體驗的學習才是有意義的學習
      利用網(wǎng)絡技術(shù)促進學生深度學習的幾大策略
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
      構(gòu)建“單元整合、主題牽引”詩歌鑒賞“深度學習”課堂的策略
      黎城县| 全州县| 江陵县| 西宁市| 商洛市| 天全县| 玉林市| 清水河县| 德昌县| 弥勒县| 海南省| 仙游县| 会理县| 南皮县| 尉氏县| 右玉县| 余江县| 余姚市| 修武县| 阳江市| 于田县| 柘荣县| 阿图什市| 子长县| 板桥市| 屯留县| 南京市| 高唐县| 衡阳市| 蓝田县| 福清市| 紫金县| 田阳县| 贵州省| 垫江县| 东安县| 浏阳市| 镇安县| 汶川县| 滁州市| 桃源县|