摘要:微博情感分析主要在于發(fā)現(xiàn)用戶對某種熱點事件的觀點和態(tài)度,已有的研究,諸如SVM、CRF等傳統(tǒng)算法,付出了昂貴的手工標(biāo)注的代價。本文在研究情感分析、深度學(xué)習(xí)等技術(shù)的基礎(chǔ)上,提出了一種新的技術(shù)方案:即通過網(wǎng)絡(luò)爬蟲技術(shù)從微博上抓取部分?jǐn)?shù)據(jù),經(jīng)過詞料預(yù)處理后,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入樣本,并基于SVM/RNN構(gòu)建分類器。最后在給定的測試集中判斷每個句子的情感傾向性,實驗結(jié)果良好。
關(guān)鍵詞:微博情感分析;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);分類器
中圖分類號:TPl81 文獻標(biāo)識碼:A DOI:10.3969/j.issn.1003 6970.2016.05.006
本文著錄格式:劉艷梅.深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究[J].軟件,2016,37(5):22-24
0.引言
隨著移動互聯(lián)網(wǎng)的發(fā)展,社交應(yīng)用也進入到新的階段,借助LBS、興趣、通訊錄等功能,以解決用戶溝通、分享、服務(wù)、娛樂等為立足點,滿足用戶不同場景下需求。根據(jù)CNNIC對當(dāng)前社交應(yīng)用市場的分析,在綜合社交領(lǐng)域,典型應(yīng)用一微博,網(wǎng)民使用率33.5%。主要滿足用戶對興趣信息的需求,是用戶獲取和分享“新聞熱點”、“興趣內(nèi)容”、“專業(yè)知識”、“輿論導(dǎo)向”的重要平臺。同時,在幫助用戶基于共同興趣拓展社交關(guān)系方面也起到了積極的作用。
情感分析,也稱為觀點挖掘,指的是分析說話者在傳達信息時所隱含的情況狀態(tài)、態(tài)度、意見進行判斷或者評估。目前,情感分析的主要研究方法還是一些基于機器學(xué)習(xí)的傳統(tǒng)算法,例如,SVM、信息熵、CRF等。這些方法歸納起來有3類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。而當(dāng)前大多數(shù)基于有監(jiān)督學(xué)習(xí)的研究取得了不錯的成績。但有監(jiān)督學(xué)習(xí)依賴于大量人工標(biāo)注的數(shù)據(jù),而且由于人的主觀理解不同,樣本標(biāo)注的標(biāo)注很難確立,也很難保證標(biāo)注樣本的質(zhì)量。相反的,無監(jiān)督學(xué)習(xí)不需要人工標(biāo)注數(shù)據(jù)訓(xùn)練模型,降低標(biāo)注的代價。
1.深度學(xué)習(xí)簡介
深度學(xué)習(xí)的概念最早由多倫多大學(xué)的G E.Hinton等人于2006年提出,指基于樣本數(shù)據(jù)通過一定的訓(xùn)練方法得到包含多個層級的深度網(wǎng)絡(luò)結(jié)構(gòu)的機器學(xué)習(xí)過程。深度神經(jīng)網(wǎng)絡(luò)分為以下3類(如圖l所示)。
深度學(xué)習(xí)有三個主要環(huán)節(jié):第一,用無監(jiān)督方式訓(xùn)練系統(tǒng),即用大量未標(biāo)注樣本逐層提煉,無導(dǎo)向自動形成特征。這一過程類似于人通過眼、耳等感官系統(tǒng)接收圖像、聲音信息后,自動在腦中形成不同類別信息印象。第二,調(diào)準(zhǔn)。這一過程用一些己標(biāo)注樣本對特征分類,并根據(jù)分類結(jié)果進一步調(diào)整系統(tǒng)參數(shù),優(yōu)化系統(tǒng)在區(qū)分不同類別信息上的性能。第三,測試,用系統(tǒng)未見識過的樣本數(shù)據(jù)檢驗系統(tǒng)學(xué)習(xí)效果,例如樣本正確分類率、質(zhì)量評估與主觀評估關(guān)聯(lián)度等。