楊雨凡
摘要:近年來,中國電影產(chǎn)業(yè)迅猛發(fā)展,電影票房作為衡量電影商業(yè)效益的重要指標(biāo),其高低成敗直接影響到了電影后續(xù)相關(guān)產(chǎn)業(yè)的發(fā)展與定位。因此,對電影票房數(shù)據(jù)的分析顯得尤為必要。本文基于2015年至2017年三年在中國上映的1366部電影,結(jié)合國內(nèi)外研究分析了影響電影票房的各個因素,并采用統(tǒng)計學(xué)方法和數(shù)據(jù)挖掘技術(shù),對電影票房進(jìn)行了匯總分析、聚類分析和關(guān)聯(lián)規(guī)則分析。
關(guān)鍵詞:數(shù)據(jù)挖掘;電影;票房分析;聚類;關(guān)聯(lián)規(guī)則
中圖分類號:F27文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.16723198.2020.25.020
0引言
電影作為文化產(chǎn)業(yè)的重要組成部分,已成為人們生活中不可或缺的一種娛樂方式。票房反映了一部電影的商業(yè)效益,對后續(xù)電影拍攝計劃和方向有著重大影響,也是衡量一部電影是否盈利與是否成功的重要指標(biāo)。然而,國產(chǎn)電影只有極少數(shù)是盈利的,70%的國產(chǎn)電影都面臨虧損,高投入低收益的電影也不在少數(shù),如《上海堡壘》等電影。因此,對電影票房的有效分析將有利于降低電影投資市場的風(fēng)險,對電影投資、制作及營銷各個階段都有著重要的指導(dǎo)性意義。而目前國內(nèi)電影票房的研究還處在經(jīng)驗(yàn)分析階段,依賴于專家判斷,缺乏數(shù)據(jù)技術(shù)支撐。為引導(dǎo)電影產(chǎn)業(yè)的理性決策,對電影票房的數(shù)據(jù)分析顯得尤為必要。
胡小莉等選取了2007-2009年在國內(nèi)上映的電影,用SPSS統(tǒng)計分析軟件,分析了影響電影票房的因素。吳發(fā)翔等選取了2015年上映的國產(chǎn)電影,運(yùn)用C5.0決策樹算法構(gòu)建了票房預(yù)測模型。王秋萍利用K-means聚類算法和BP神經(jīng)網(wǎng)絡(luò),分析了票房影響因素和網(wǎng)絡(luò)平臺特征,提出票房預(yù)測模型。這些已有的研究選取電影多上映于2015年前,缺乏時效性,同時數(shù)據(jù)較少,所得出的結(jié)論相對缺乏數(shù)據(jù)支撐。
本文選取2015-2017三年間在中國上映的1366部電影作為數(shù)據(jù)集,對電影票房數(shù)據(jù)分別進(jìn)行了匯總分析、聚類分析和關(guān)聯(lián)規(guī)則分析。
1數(shù)據(jù)的組成與處理
本文的數(shù)據(jù)來源于電影票房官方網(wǎng)站——中國票房網(wǎng)(http://www.cbooo.cn/),通過爬蟲抓取了2015年至2017年這三年間在中國上映的1366部電影票房的數(shù)據(jù)。
為盡可能保證數(shù)據(jù)的全面性,本文分析的電影數(shù)據(jù)包括以下10項(xiàng):
(1)電影名稱;
(2)電影票房;
(3)電影類型。包括愛情、動作、科幻、喜劇等類型;
(4)上映時間;
(5)制式。包含2D、3D、IMAX這三種制式;
(6)國家地區(qū);
(7)發(fā)行公司。本文此類數(shù)據(jù)進(jìn)行了預(yù)處理,將其分為好萊塢八大發(fā)行公司、中國十大發(fā)行公司和其他發(fā)行公司;
(8)導(dǎo)演影響力。本文對電影導(dǎo)演數(shù)據(jù)進(jìn)行了預(yù)處理,通過計算該導(dǎo)演在此之前所導(dǎo)的前兩部電影票房和來反映導(dǎo)演影響力;
(9)主演影響力。本文對電影主演數(shù)據(jù)進(jìn)行了預(yù)處理,通過計算該主演在此之前所主演的前兩部電影票房和來反映主演影響力;
(10)同期競爭力。電影票房很大程度會受到同期所上映電影的影響,本文通過計算所有在該電影上映前后一周的電影票房和來表示同期競爭力。
2統(tǒng)計分析
為了統(tǒng)計電影在中國各個季度上映的情況,本文使用Excel表格的分類匯總功能,分別統(tǒng)計了2015年至2017年每季度上映電影數(shù)量和票房的總和,結(jié)果如圖1所示。2015年至2017年,每年的第三季度都是電影上映數(shù)量的高峰,這是因?yàn)榈谌径劝钇跈n,不少國內(nèi)外的商業(yè)大片通常會選擇在這個檔期上映,以取得更高的觀影量和收入。而每年第一季度上映的電影數(shù)量則處于波谷,這可能是因?yàn)榈谝患径劝R歲檔,上映的電影類型多為喜劇,而動作、科幻等其他類型電影通常不會選擇賀歲檔上映,造成上映電影類型較為單一,因此上映電影數(shù)量少。
此外,本文也統(tǒng)計了各季度上映電影的票房總和,結(jié)果如圖2所示。在2015年至2017年的三年間,每季度的票房總收入起伏較大,這說明在一年的不同時間段,人們的消費(fèi)水平和娛樂需求有著較大波動。此外,每年第三季度的票房在全年均處于較高水平,這說明在每年7月至9月的暑期檔,人們的娛樂需求和消費(fèi)水平均較高。相反,每年第一季度上映的電影數(shù)量較少,而票房也較低。通過數(shù)據(jù)分析可知,票房走勢與上映電影數(shù)量的趨勢大致相符。
2.1類型分析
不同電影類型有著不同的目標(biāo)觀影群體,而不同觀影群體的消費(fèi)能力也不盡相同。本文統(tǒng)計了2015年至2017年間,不同類型的電影在各個季度取得的票房,結(jié)果如圖3所示,動作和喜劇類型的電影取得的票房遠(yuǎn)高于其它類型的電影,2017年尤為明顯。相反,藝術(shù)片、紀(jì)錄片、災(zāi)難和驚悚類型的電影票房則處于低水平。而動畫、奇幻和愛情類型的電影票房則處于中等水平。這說明,動作、喜劇等適合各年齡段的電影越來越受到人們的青睞,特別是動作類型的商業(yè)大片,由于具有強(qiáng)大沖擊力,使得視覺效果較好,深受人們的喜愛。
2.2制式分析
本文統(tǒng)計了2015至2017年間,不同制式的電影在每個季度取得的票房,結(jié)果如圖4所示,IMAX電影總體上比 2D、3D電影取得的票房更高。這是因?yàn)镮MAX電影票價高于 2D和3D電影,而隨著經(jīng)濟(jì)水平的日益提高,人們?yōu)榱双@得極佳的觀影效果而更愿意體驗(yàn)高票價的IMAX電影。同時,擅長制作IMAX電影的公司基本都是大型電影公司,使用IMAX技術(shù)的電影也都是高投入、高質(zhì)量的影片,因此票房也較高。
3通過數(shù)據(jù)挖掘技術(shù)分析電影票房
3.1聚類分析
為了更深入地分析電影票房,本文使用了K-means聚類算法對2015年至2017年在中國上映的電影進(jìn)行了聚類。K-means算法的原理如下:首先,隨機(jī)選取K個對象{C1,C2,…,Ck}作為初始化的中心點(diǎn);然后,計算剩余的對象與這K個聚類中心點(diǎn)之間的距離,把每個對象分配給距離它最近的聚類中心Ck;之后,根據(jù)聚類好的對象集合重新計算出K個集合的新中心點(diǎn);最后,重復(fù)分配和劃分新中心點(diǎn)的步驟,直到(1)低于閾值數(shù)量的對象被重新分配給不同的聚類,或(2)于閾值數(shù)量的聚類中心不再發(fā)生變化,或(3)誤差平方和局部最小。
本文采用第2章所述的數(shù)據(jù)元素,使用IBM SPSS Modeler數(shù)據(jù)分析軟件進(jìn)行K-means聚類。通過模型訓(xùn)練和優(yōu)化分析,最終選取了K=3的聚類模型將電影數(shù)據(jù)分成三類(平均輪廓為0.3):第一類(58.6%)為由普通的中國制片公司在普通檔期發(fā)行的2D愛情電影,同時主演影響力較低,導(dǎo)演影響力較高,同期競爭力較低,這類電影的電影票房也較低;第二類(25.1%)為由中國十大電影制片公司在普通檔期發(fā)行的歐美2D動作電影,主演影響力較高,導(dǎo)演影響力很高,同期競爭力較低,這類電影的票房較高;第三類(16.3%)為由普通的中國制片公司在暑期檔發(fā)行的2D愛情電影,主演影響力較高,導(dǎo)演影響力較高,同期競爭力較高,取得的電影票房一般。
3.2關(guān)聯(lián)規(guī)則分析
為了分析影響電影票房的各因素間的關(guān)聯(lián)規(guī)則,本文使用了Apriori算法。關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中,X為關(guān)聯(lián)規(guī)則的前項(xiàng),Y為關(guān)聯(lián)規(guī)則的后項(xiàng)。衡量一個關(guān)聯(lián)規(guī)則優(yōu)劣的指標(biāo)是支持度和置信度,支持度指所有事務(wù)中同時包含X、Y事務(wù)的百分比,置信度指包含X的事務(wù)中,也包含Y的百分比。
本文對電影票房數(shù)據(jù)進(jìn)行了關(guān)聯(lián)規(guī)則分析,結(jié)果表明:
(1)若某電影主演影響力低,上映時間為普通檔期,發(fā)行國家地區(qū)為中國大陸,制式為2D,則該電影票房大概率為非常低(支持度22.474%,置信度9316%)。原因可能是主演知名度低,票房號召力較弱,而在普通檔期上映的電影在宣傳上不占優(yōu)勢,人們在普通檔期的消費(fèi)需求較弱,且2D電影票價較低,造成票房較低。
(2)若某電影主演影響力低,導(dǎo)演影響力低,發(fā)行國家地區(qū)為中國大陸,則該電影票房大概率會較低(支持度29.941%,置信度92.91%)。原因可能是導(dǎo)演技術(shù)平平,主演演技一般,導(dǎo)致產(chǎn)出的電影質(zhì)量不高,造成低票房。
4總結(jié)與展望
對電影票房的數(shù)據(jù)分析可以從一定程度減少電影投資的風(fēng)險,并對電影各階段的宣發(fā)策略有著指導(dǎo)性意義。本文基于2015年至2017年三年間在中國上映的電影票房數(shù)據(jù),通過統(tǒng)計分析,發(fā)現(xiàn)電影票房與上映數(shù)量的相似趨勢,并分析了不同季度類型和制式與電影票房的關(guān)系。此外,本文通過聚類分析,將電影分為三類,并分析得出不同級別票房的電影所具有的特征。最后,本文對影響電影票房的因素做了關(guān)聯(lián)規(guī)則分析,結(jié)果再次驗(yàn)證了主演影響力、上映時間、導(dǎo)演影響力等對于電影票房的影響顯著。
然而,本文分析的數(shù)據(jù)還僅限于在中國上映的電影數(shù)據(jù),在今后的工作中,筆者擬抓取國外所上映的電影數(shù)據(jù),聚焦于分析國內(nèi)外電影票房,并探索電影票房預(yù)測模型。
參考文獻(xiàn)
[1]王煉,賈建民.基于網(wǎng)絡(luò)搜索的票房預(yù)測模型——來自中國電影市場的證據(jù)[J].系統(tǒng)工程理論與實(shí)踐,2014,34(12):30793090.
[2]王艷,金天星.市場營銷與風(fēng)險評估:雙重視角下的電影票房預(yù)測[J].中國電影市場,2012,(3):1112.
[3]胡小莉,李波,吳正鵬.電影票房的影響因素分析[J].中國傳媒大學(xué)學(xué)報(自然科學(xué)版),2013,(01):42+6570.
[4]吳發(fā)翔,江西財經(jīng)大學(xué)軟件與通信工程學(xué)院,吳發(fā)翔,等.一種基于C5.0決策樹算法的票房預(yù)測研究[J].科技廣場,2016,(4):186192.
[5]劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計算機(jī)應(yīng)用與軟件,2009,26(1):146149.