用隨機(jī)森林回歸算法預(yù)測電影評分

2021-11-24 05:08:43王紫薇

科學(xué)與生活 2021年18期

關(guān)鍵詞：隨機(jī)森林機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘

摘要：本文從中國電影市場實(shí)際出發(fā)，選擇導(dǎo)演、題材、主演、編劇、區(qū)域?yàn)橛捌u分的影響特征，對其做特征工程處理，提出了基于隨機(jī)森林算法的電影評分預(yù)測模型。

關(guān)鍵詞：隨機(jī)森林;電影評分;數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí)

隨著數(shù)據(jù)挖掘技術(shù)的成熟，目前可以運(yùn)用數(shù)據(jù)挖掘技術(shù)從大量的數(shù)據(jù)中挖掘到事物間的聯(lián)系并預(yù)測其發(fā)展方向。電影評分預(yù)測模型可以在電影上映前預(yù)測其評分，觀眾就可以根據(jù)預(yù)測評分有選擇地觀影，電影院也可以選擇性制定排片計(jì)劃，電影周邊產(chǎn)業(yè)也有了參考。

一、隨機(jī)森林算法

隨機(jī)森林回歸模型就是綜合幾個(gè)創(chuàng)建好的決策樹模型，其預(yù)測結(jié)果由所有決策樹模型的預(yù)測結(jié)果平均得到。算法基本步驟如下：

（一）抽樣：在訓(xùn)練數(shù)據(jù)集S中進(jìn)行有放回抽樣，得到K組數(shù)據(jù)集，每組數(shù)據(jù)集分為兩種，抽中和未抽中的，每組數(shù)據(jù)集通過訓(xùn)練生成決策樹。

（二）生長：利用訓(xùn)練數(shù)據(jù)訓(xùn)練每棵決策樹。

（三）利用未被抽中的數(shù)據(jù)檢驗(yàn)?zāi)Ｐ蜏?zhǔn)確度。

（四）用最終模型預(yù)測新數(shù)據(jù)集，全部決策樹的預(yù)測結(jié)果取平均值就是最終預(yù)測結(jié)果。

二、基于隨機(jī)森林算法的電影評分預(yù)測模型

根據(jù)中國大陸電影市場現(xiàn)實(shí)情況，實(shí)驗(yàn)選導(dǎo)演、編劇、主演、類型、國家地區(qū)作為特征。

（一）導(dǎo)演水平特征

把影片評分和評價(jià)人數(shù)當(dāng)作一個(gè)特征組合來表示導(dǎo)演水平特征，如公式（2-1）所示：

Director= ，n=min（5，n） ? ? ? ? ? ? ? ? ? ? ? （2-1）

n表示導(dǎo)演執(zhí)導(dǎo)該部電影之前最近執(zhí)導(dǎo)的n部電影，n≦5;Rk表示導(dǎo)演拍攝的第k部電影的評分;Pk表示評分人數(shù)。

（二）編劇水平特征

本實(shí)驗(yàn)取編劇所創(chuàng)作的距離這部電影最近的n部電影，n≦5，如公式（2-2）所示：

Writer= ，n=min（5，n） ? ? ? ? ? ? ? ? ? ? ? ? （2-2）

Rk表示編劇創(chuàng)作的第k部電影的評分;Pk表示編劇創(chuàng)作的第k部電影的評分人數(shù)。

（三）演員水平特征：

本實(shí)驗(yàn)選演員主演的距離該電影上映時(shí)間最近的n部同種題材電影，n≦5，主演水平特征如公式（2-3）所示：

Actor= ?，n=min（5，n），m=主要參演人員 ? ?（2-3）

Rik表示第i位主演拍攝第k部電影的評分;Pik表示評分人數(shù);Wi表示主演在該電影所占權(quán)重。主演為2人時(shí)，權(quán)重為：0.6，0.4;主演為3人時(shí)，權(quán)重為：0.5，0.3，0.2;主演為4人及以上時(shí)，權(quán)重為0.4，0.3，0.2，0.1。

（四）題材類型

本實(shí)驗(yàn)選取上一年該類型的所有電影，計(jì)算其平均得分作為此題材電影的綜合評分，見公式（2-4）與（2-5）：

Type= Ri*Wi，n=min（5，n） ? ? ? ? ? ? ? ? ? ? ? ? ? ?（2-4）

Ri= ，n=選取范圍內(nèi)類型為i的電影數(shù)量 ? ? ? ?（2-5）

Rik表示第k部i類型電影評分;Pik表示評分人數(shù);Ri表示綜合評分;Wi表示權(quán)重。

（五）區(qū)域特征

本實(shí)驗(yàn)參考上一年此區(qū)域電影平均得分，計(jì)算得到此電影的參考評分，見公式（2-6）：

Country= ，n=選取范圍內(nèi)同國家地區(qū)的電影數(shù)量 ?（2-6）

Rk表示第k部電影的評分;Pk表示第k部電影的評分人數(shù)。

三、實(shí)驗(yàn)和結(jié)果分析

（一）實(shí)驗(yàn)過程

隨機(jī)森林算法回歸建模：

本實(shí)驗(yàn)采用spark mllib中的random forest包來實(shí)現(xiàn)隨機(jī)森林算法。我們把處理好的特征和影片評分轉(zhuǎn)換成Labeledpoint，Labeledpoint表示帶標(biāo)簽的數(shù)據(jù)點(diǎn)，構(gòu)造的Labeledpoint如公式（3-1）

（Rate，{Director，Wrter，Cast，Type，Country}） ? ? ? ? ? ?（3-1）

利用mllibtree.RandomForest的trainRegressor（）方法構(gòu)建隨機(jī)森林回歸模型。該方法返回一個(gè)weightedEnsembleModel對象，本實(shí)驗(yàn)使用它的predict（）方法預(yù)測測試集。然后，把測試數(shù)據(jù)輸入到建立好的隨機(jī)森林模型中進(jìn)行預(yù)測。

（二）實(shí)驗(yàn)結(jié)果

基于隨機(jī)森林回歸模型使用數(shù)據(jù)集中5部電影，本實(shí)驗(yàn)分別對這些電影的評分進(jìn)行預(yù)測。將這5部電影的相關(guān)數(shù)據(jù)輸入模型，計(jì)算所有的電影得分。結(jié)果如表1。

從表2可以發(fā)現(xiàn)，基于隨機(jī)森林算法的電影預(yù)測模型的預(yù)測結(jié)果和電影的真實(shí)評分總體上區(qū)別不大。

四、總結(jié)和展望

本文從中國電影市場實(shí)際出發(fā)，選擇導(dǎo)演、題材、主演、編劇、區(qū)域?yàn)橛捌u分的影響特征，對其做特征工程處理，提出了基于隨機(jī)森林算法的電影評分預(yù)測模型。該模型能夠?yàn)榇蟊娡扑]電影提供有價(jià)值的參考，具有實(shí)際的意義。

參考文獻(xiàn)

[1]耿娟，郭明欣.豆瓣Top250電影數(shù)據(jù)挖掘及評分預(yù)測[J].河北企業(yè)， 2021（02）：11-13.

[2]陸君之.基于隨機(jī)森林回歸算法的電影評分預(yù)測模型[J].江蘇通信， 2018，34（01）：75-78.

[3]劉明昌.豆瓣網(wǎng)站電影在線評分的混合預(yù)測模型研究[D].河北大學(xué)， 2017.

[4]呂紅燕，馮倩.隨機(jī)森林算法研究綜述[J].河北省科學(xué)院學(xué)報(bào)，2019，36 （03）：37-41.

作者簡介

王紫薇（1997—），女，漢族，遼寧沈陽人，學(xué)生，碩士，天津工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院，研究方向：數(shù)據(jù)挖掘與建模。