武永嬌 黃寧
為了解決電影評(píng)分體系的打分機(jī)制存在諸多不足,提出基于Python網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的電影口碑研究方法。以2部電影為例,利用該技術(shù)將電影網(wǎng)站上的用戶(hù)評(píng)論提取下來(lái),并對(duì)其進(jìn)行自然語(yǔ)言處理情感分析,通過(guò)實(shí)驗(yàn)分析得出的情感分?jǐn)?shù)可以表示用戶(hù)對(duì)于電影的態(tài)度,作為一種評(píng)判電影口碑的重要依據(jù)。
1.引言
電影口碑對(duì)于電影營(yíng)銷(xiāo)的重要性不言而喻,目前國(guó)內(nèi)對(duì)于電影口碑的研究很少,除了比較具有代表性的豆瓣電影評(píng)分,其他相關(guān)機(jī)構(gòu)的數(shù)據(jù)都很難有參考價(jià)值,而豆瓣電影評(píng)分體系的打分機(jī)制本身也存在諸多不足,因此,提出一種更權(quán)威的電影口碑研究方法成為亟待解決的問(wèn)題。
觀眾對(duì)于一部電影的評(píng)論能夠真實(shí)反映對(duì)于該部電影的態(tài)度。詳細(xì)的文字描述可以表達(dá)出觀眾的主觀態(tài)度,運(yùn)用大數(shù)據(jù)Python技術(shù),以豆瓣平臺(tái)億萬(wàn)觀眾所發(fā)表的文字為研究對(duì)象。實(shí)現(xiàn)對(duì)電影評(píng)論的文本挖掘和情感分析,理論與實(shí)際操作相結(jié)合進(jìn)行研究,解決電影營(yíng)銷(xiāo)中遇到的問(wèn)題,進(jìn)而對(duì)營(yíng)銷(xiāo)人員如何有效應(yīng)用大數(shù)據(jù)提供啟示,使其可以用于營(yíng)銷(xiāo)決策。
2.信息提取
2.1 Python技術(shù)與信息提取
網(wǎng)絡(luò)爬蟲(chóng)是一種通過(guò)既定規(guī)則,可自動(dòng)地抓取網(wǎng)頁(yè)信息的計(jì)算機(jī)程序。通過(guò)Python技術(shù),可以方便、快捷和高效地對(duì)電影評(píng)論實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)爬取和網(wǎng)頁(yè)解析,部分代碼如圖1所示。其中Requests庫(kù),可以對(duì)豆瓣網(wǎng)頁(yè)爬取,獲取網(wǎng)絡(luò)頁(yè)面,Beautiful Soup庫(kù),可以有效地解析HTML頁(yè)面的內(nèi)容,并且提取相關(guān)的信息。
2.2情感分析
情感分析又稱(chēng)意見(jiàn)挖掘,簡(jiǎn)而言之,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、推理和歸納的過(guò)程,采取基于深度學(xué)習(xí)的情感分析方法,實(shí)現(xiàn)步驟如下:
文本預(yù)處理包括以下3部分。①分詞:在語(yǔ)言學(xué)中,詞作為最小的獨(dú)立情感單元具有豐富的情感內(nèi)涵。②詞性標(biāo)注:詞性是指根據(jù)詞的特點(diǎn)用來(lái)劃分詞類(lèi)的根據(jù)。包括名詞、動(dòng)詞、助詞、形容詞、副詞和連詞等。③去停用詞和特殊字符:停用詞是指在自然語(yǔ)言處理中可以過(guò)濾掉的一些沒(méi)有實(shí)際意義的功能詞,這些詞在文本中出現(xiàn)的頻率較高,但對(duì)文本的情感分析卻沒(méi)有實(shí)際的影響,如代詞“這”、“那”,助詞“的”、“了”,介詞“在”,語(yǔ)氣助詞“呢”、“啊”等。有研究表明去除這些無(wú)實(shí)義的高頻停用詞能夠減少數(shù)據(jù)的噪音,降低特征向量的空間維度并提高情感分類(lèi)的準(zhǔn)確率。
3.觀眾對(duì)電影的態(tài)度分析
3.1電影《戰(zhàn)狼2》口碑分析
利用網(wǎng)絡(luò)爬蟲(chóng)將豆瓣網(wǎng)上電影《戰(zhàn)狼2》的500條熱門(mén)短評(píng)抓取下來(lái),對(duì)這些評(píng)論文本數(shù)據(jù)進(jìn)行情感分析。每條評(píng)論文本數(shù)據(jù)進(jìn)入情感分析處理后會(huì)得到一個(gè)0 ~1的概率值,其中1表示該文本的情感是積極的;0表示文本的情感是極度消極的,圖2為《戰(zhàn)狼2》短評(píng)的情感分析散點(diǎn)圖。
根據(jù)分析結(jié)果,《戰(zhàn)狼2》的態(tài)度評(píng)分為0.79,如圖3所示。
由此可見(jiàn),根據(jù)評(píng)論文本得出,觀眾對(duì)于電影《戰(zhàn)狼2》的態(tài)度是相當(dāng)積極的,這與《戰(zhàn)狼2》在票房上所獲得的成功、豆瓣網(wǎng)上的高分是一致的。
3.2電影《捉妖記2》口碑分析
與上一節(jié)相同,采取相同的方法對(duì)電影《捉妖記2》的口碑進(jìn)行分析?!蹲窖?》并沒(méi)有取得前作《捉妖記》那樣的成功,被視為是一部失敗的續(xù)集,其在豆瓣網(wǎng)上參與評(píng)分人數(shù)132 973人,評(píng)分為5.0分。
同樣,抓取《捉妖記2》的500條熱門(mén)短評(píng)進(jìn)行情感分析,得到散點(diǎn)圖如圖4所示。
《捉妖記2》的情感分為0.57,如圖5所示。
3.3分析結(jié)果
由以上2節(jié)的分析可知,根據(jù)豆瓣網(wǎng)站上的電影評(píng)論,觀眾對(duì)于《戰(zhàn)狼2》的情感分為0.79,對(duì)于《捉妖記2》的情感分為0.57。這表明,觀眾對(duì)于《戰(zhàn)狼2》與《捉妖記2》這兩部電影,偏愛(ài)《戰(zhàn)狼2》的程度明顯高于《捉妖記2》。這個(gè)研究結(jié)果與實(shí)際票房和身邊觀眾的實(shí)際感受等都是一致的,說(shuō)明這種基于Python技術(shù)電影口碑的研究是有效的。
4.結(jié)束語(yǔ)
這種基于Python大數(shù)據(jù)的分析方法可以彌補(bǔ)現(xiàn)有電影口碑研究方法的不足,對(duì)于電影口碑,電影的立項(xiàng)、制作、發(fā)行和上映等環(huán)節(jié)都可以做出針對(duì)性的部署,從而提高效率,獲得更高的收益。
本案例旨在說(shuō)明大數(shù)據(jù)技術(shù)在電影營(yíng)銷(xiāo)中的應(yīng)用,將這種方法推廣,不局限于比較兩部電影的口碑優(yōu)劣,而對(duì)整個(gè)電影市場(chǎng)中觀眾的態(tài)度做研究,可以得到一些對(duì)于電影營(yíng)銷(xiāo)極具意義的參考意見(jiàn)。所采用的網(wǎng)絡(luò)爬蟲(chóng)在抓取網(wǎng)頁(yè)上的評(píng)論時(shí)采用單線程的方式,效率較低,從長(zhǎng)遠(yuǎn)來(lái)看其爬蟲(chóng)效率需要優(yōu)化,有進(jìn)一步提高的空間。