曾子濟(jì) 鮑磊 閆瑾
摘要:B站作為當(dāng)下最受年輕用戶歡迎的智媒平臺(tái),吸引了大量的年輕人。B站評(píng)論是用戶對(duì)視頻不同態(tài)度的集合,如何廣泛收集意見,觀察用戶情況,并針對(duì)實(shí)際情況優(yōu)化對(duì)青少年的教育方法,早已成為青少年研究領(lǐng)域的熱點(diǎn)。本文進(jìn)行了基于B站用戶評(píng)論的相關(guān)研究。通過對(duì)評(píng)論進(jìn)行數(shù)據(jù)預(yù)處理,并構(gòu)建神經(jīng)網(wǎng)絡(luò)對(duì)評(píng)論的情感傾向做出預(yù)測(cè),獲取了基于B站指定視頻集合的用戶情感傾向,并探究了B站用戶評(píng)論分析在輿情監(jiān)控、教育領(lǐng)域的應(yīng)用前景。
關(guān)鍵詞:智慧媒體;青少年;教育;情感分析
0.引言
智慧媒體[1]是以互聯(lián)網(wǎng)為基礎(chǔ),智能提供符合用戶需求內(nèi)容和服務(wù)的一種新型傳播媒體。智慧媒體對(duì)青少年的影響主要有積極方面和消極方面:
已有研究表明,智慧媒體的使用可以幫助個(gè)體形成積極的自我概念、促進(jìn)人際交流、獲得社會(huì)支持。
但是,智慧媒體使用也會(huì)帶來(lái)一系列負(fù)面影響,可能會(huì)導(dǎo)致睡眠障礙、外貌焦慮和身材焦慮等后果。
《2020年度全國(guó)未成年人互聯(lián)網(wǎng)使用情況的調(diào)研報(bào)告》[2]顯示,2020年,我國(guó)未成年互聯(lián)網(wǎng)普及率為94.9%,比2019年提升1.8個(gè)百分點(diǎn)。說明隨著數(shù)字時(shí)代發(fā)展,孩子們首次觸網(wǎng)的年齡越來(lái)越小,互聯(lián)網(wǎng)對(duì)青少年群體的影響也受到社會(huì)各方的廣泛關(guān)注。
1.研究方法
1.1數(shù)據(jù)源的選取
克勞銳在《2020上半年短視頻內(nèi)容發(fā)展盤點(diǎn)報(bào)告》提到,過去三年,B 站新增用戶平均年齡為21歲,18-35歲用戶占比達(dá)到78%。為了更好地研究智媒對(duì)當(dāng)代青少年產(chǎn)生的影響,本文選取B站作為數(shù)據(jù)來(lái)源。
1.2數(shù)據(jù)特點(diǎn)
經(jīng)過研究發(fā)現(xiàn),B站用戶評(píng)論具有以下特征:
(1)文字稀疏性。通常B站評(píng)論文本由詞語(yǔ)和短句構(gòu)成,文字稀疏。
(2)實(shí)時(shí)性。B站信息的傳播具有很強(qiáng)的實(shí)時(shí)性,用戶評(píng)論更是如此。
(3)交互性。用戶的轉(zhuǎn)發(fā)、評(píng)論等行為表明了B站具有很強(qiáng)的互動(dòng)性。
1.3數(shù)據(jù)獲取方法
本文通過計(jì)算機(jī)爬蟲對(duì)評(píng)論進(jìn)行獲取。該方法優(yōu)勢(shì)在于能自動(dòng)化運(yùn)行。
1.4模型構(gòu)建
1.4.1語(yǔ)料預(yù)處理
在收集到B站評(píng)論文本之后,去除掉其中的噪聲和無(wú)用數(shù)據(jù),然后對(duì)B站文本進(jìn)行文本預(yù)處理,將評(píng)論文本切分成單獨(dú)的詞語(yǔ)。
文本預(yù)處理之后,計(jì)算機(jī)無(wú)法識(shí)別預(yù)處理得到的詞語(yǔ)。需要利用數(shù)學(xué)模型將這些無(wú)規(guī)則的文本轉(zhuǎn)換成結(jié)構(gòu)化的表示,以便計(jì)算機(jī)讀取和識(shí)別。
1.4.2模型訓(xùn)練
LSTM[3],是一種特殊的 RNN,能夠?qū)W習(xí)長(zhǎng)期依賴性,在許多問題上表現(xiàn)非常出色。
本文選取LSTM來(lái)對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)測(cè),首先需要對(duì)標(biāo)注好的數(shù)據(jù)訓(xùn)練詞向量,通過引入模型,指定訓(xùn)練數(shù)據(jù)、詞向量維度、最小詞頻和迭代輪次進(jìn)行訓(xùn)練,得到訓(xùn)練好的詞向量。然后定義神經(jīng)網(wǎng)絡(luò),設(shè)置網(wǎng)絡(luò)超參數(shù)來(lái)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
2.結(jié)果與討論
2.1數(shù)據(jù)說明
本文對(duì)針對(duì)2022年4月16日的B站熱門視頻(共十部)進(jìn)行評(píng)論爬取,爬取視頻的相關(guān)信息如表2-1所示。
2.2結(jié)果
針對(duì)爬取到的評(píng)論數(shù)據(jù),本文首先對(duì)評(píng)論進(jìn)行分詞和向量化,實(shí)驗(yàn)數(shù)據(jù)預(yù)處理后進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2-2所示。
模型的各項(xiàng)評(píng)價(jià)指標(biāo)如表2-3所示。
從結(jié)果來(lái)看,本文構(gòu)造的情感詞典和情感值計(jì)算方法是理想的。
2.3討論
隨著數(shù)據(jù)時(shí)代非結(jié)構(gòu)化數(shù)據(jù)的暴增,從中獲取有價(jià)值的信息將成為日后研究的主流,同時(shí)也具有極大的應(yīng)用價(jià)值,如:
1)網(wǎng)絡(luò)輿情監(jiān)控。通過對(duì)用戶評(píng)論的情感分析,可以生成網(wǎng)民對(duì)同一事件不同的態(tài)度和觀點(diǎn),獲得對(duì)一個(gè)事件的整體性觀點(diǎn)和看法。
2)為教育決策提供依據(jù)。大數(shù)據(jù)時(shí)代,數(shù)據(jù)已成為決策的支撐力量,教育部門可以針對(duì)分析結(jié)果制定相應(yīng)的政策,提高教育水平。
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)將會(huì)成為創(chuàng)造力和效益的代表,合理利用數(shù)據(jù),未來(lái)將會(huì)創(chuàng)造無(wú)限可能。
3.結(jié)論與展望
本文結(jié)合機(jī)器學(xué)習(xí)和計(jì)算機(jī)爬蟲技術(shù)對(duì)智慧媒體用戶評(píng)論進(jìn)行分析,驗(yàn)證了模型的有效性。在大數(shù)據(jù)時(shí)代,結(jié)合大數(shù)據(jù)收集和機(jī)器學(xué)習(xí)算法對(duì)海量數(shù)據(jù)進(jìn)行處理并從中提取價(jià)值必將是未來(lái)趨勢(shì),這一方向也值得我們投入大量精力進(jìn)行研究。
參考文獻(xiàn):
[1]王越,徐天晟.不同智媒平臺(tái)的青少年模式差異研究綜述[J].科技視界,2020,(16):260-261.
[2]2020年度全國(guó)未成年人互聯(lián)網(wǎng)使用情況的調(diào)研報(bào)告(解讀稿)[J].中國(guó)共青團(tuán),2021(15):13-14.
[3]Graves, Alex.(2012). Long Short-Term Memory.10.1007/978-3-642-24797-2_4.
本文章為國(guó)家社會(huì)科學(xué)基金項(xiàng)目《數(shù)據(jù)賦能的智慧媒體對(duì)青少年行為模式變化影響的研究》(項(xiàng)目編號(hào):19BXW120)支持的研究所取得的階段性成果。