• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      用隨機(jī)森林回歸算法預(yù)測電影評分

      2021-11-24 05:08:43王紫薇
      科學(xué)與生活 2021年18期
      關(guān)鍵詞:隨機(jī)森林機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘

      摘要:本文從中國電影市場實(shí)際出發(fā),選擇導(dǎo)演、題材、主演、編劇、區(qū)域?yàn)橛捌u分的影響特征,對其做特征工程處理,提出了基于隨機(jī)森林算法的電影評分預(yù)測模型。

      關(guān)鍵詞:隨機(jī)森林;電影評分;數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí)

      隨著數(shù)據(jù)挖掘技術(shù)的成熟,目前可以運(yùn)用數(shù)據(jù)挖掘技術(shù)從大量的數(shù)據(jù)中挖掘到事物間的聯(lián)系并預(yù)測其發(fā)展方向。電影評分預(yù)測模型可以在電影上映前預(yù)測其評分,觀眾就可以根據(jù)預(yù)測評分有選擇地觀影,電影院也可以選擇性制定排片計(jì)劃,電影周邊產(chǎn)業(yè)也有了參考。

      一、隨機(jī)森林算法

      隨機(jī)森林回歸模型就是綜合幾個(gè)創(chuàng)建好的決策樹模型,其預(yù)測結(jié)果由所有決策樹模型的預(yù)測結(jié)果平均得到。算法基本步驟如下:

      (一)抽樣:在訓(xùn)練數(shù)據(jù)集S中進(jìn)行有放回抽樣,得到K組數(shù)據(jù)集,每組數(shù)據(jù)集分為兩種,抽中和未抽中的,每組數(shù)據(jù)集通過訓(xùn)練生成決策樹。

      (二)生長:利用訓(xùn)練數(shù)據(jù)訓(xùn)練每棵決策樹。

      (三)利用未被抽中的數(shù)據(jù)檢驗(yàn)?zāi)P蜏?zhǔn)確度。

      (四)用最終模型預(yù)測新數(shù)據(jù)集,全部決策樹的預(yù)測結(jié)果取平均值就是最終預(yù)測結(jié)果。

      二、基于隨機(jī)森林算法的電影評分預(yù)測模型

      根據(jù)中國大陸電影市場現(xiàn)實(shí)情況,實(shí)驗(yàn)選導(dǎo)演、編劇、主演、類型、國家地區(qū)作為特征。

      (一)導(dǎo)演水平特征

      把影片評分和評價(jià)人數(shù)當(dāng)作一個(gè)特征組合來表示導(dǎo)演水平特征,如公式(2-1)所示:

      Director= ,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? (2-1)

      n表示導(dǎo)演執(zhí)導(dǎo)該部電影之前最近執(zhí)導(dǎo)的n部電影,n≦5;Rk表示導(dǎo)演拍攝的第k部電影的評分;Pk表示評分人數(shù)。

      (二)編劇水平特征

      本實(shí)驗(yàn)取編劇所創(chuàng)作的距離這部電影最近的n部電影,n≦5,如公式(2-2)所示:

      Writer= ,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? ? (2-2)

      Rk表示編劇創(chuàng)作的第k部電影的評分;Pk表示編劇創(chuàng)作的第k部電影的評分人數(shù)。

      (三)演員水平特征:

      本實(shí)驗(yàn)選演員主演的距離該電影上映時(shí)間最近的n部同種題材電影,n≦5,主演水平特征如公式(2-3)所示:

      Actor= ?,n=min(5,n),m=主要參演人員 ? ?(2-3)

      Rik表示第i位主演拍攝第k部電影的評分;Pik表示評分人數(shù);Wi表示主演在該電影所占權(quán)重。主演為2人時(shí),權(quán)重為:0.6,0.4;主演為3人時(shí),權(quán)重為:0.5,0.3,0.2;主演為4人及以上時(shí),權(quán)重為0.4,0.3,0.2,0.1。

      (四)題材類型

      本實(shí)驗(yàn)選取上一年該類型的所有電影,計(jì)算其平均得分作為此題材電影的綜合評分,見公式(2-4)與(2-5):

      Type= Ri*Wi,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2-4)

      Ri= ,n=選取范圍內(nèi)類型為i的電影數(shù)量 ? ? ? ?(2-5)

      Rik表示第k部i類型電影評分;Pik表示評分人數(shù);Ri表示綜合評分;Wi表示權(quán)重。

      (五)區(qū)域特征

      本實(shí)驗(yàn)參考上一年此區(qū)域電影平均得分,計(jì)算得到此電影的參考評分,見公式(2-6):

      Country= ,n=選取范圍內(nèi)同國家地區(qū)的電影數(shù)量 ?(2-6)

      Rk表示第k部電影的評分;Pk表示第k部電影的評分人數(shù)。

      三、實(shí)驗(yàn)和結(jié)果分析

      (一)實(shí)驗(yàn)過程

      隨機(jī)森林算法回歸建模:

      本實(shí)驗(yàn)采用spark mllib中的random forest包來實(shí)現(xiàn)隨機(jī)森林算法。我們把處理好的特征和影片評分轉(zhuǎn)換成Labeledpoint,Labeledpoint表示帶標(biāo)簽的數(shù)據(jù)點(diǎn),構(gòu)造的Labeledpoint如公式(3-1)

      (Rate,{Director,Wrter,Cast,Type,Country}) ? ? ? ? ? ?(3-1)

      利用mllibtree.RandomForest的trainRegressor()方法構(gòu)建隨機(jī)森林回歸模型。該方法返回一個(gè)weightedEnsembleModel對象,本實(shí)驗(yàn)使用它的predict()方法預(yù)測測試集。然后,把測試數(shù)據(jù)輸入到建立好的隨機(jī)森林模型中進(jìn)行預(yù)測。

      (二)實(shí)驗(yàn)結(jié)果

      基于隨機(jī)森林回歸模型使用數(shù)據(jù)集中5部電影,本實(shí)驗(yàn)分別對這些電影的評分進(jìn)行預(yù)測。將這5部電影的相關(guān)數(shù)據(jù)輸入模型,計(jì)算所有的電影得分。結(jié)果如表1。

      從表2可以發(fā)現(xiàn),基于隨機(jī)森林算法的電影預(yù)測模型的預(yù)測結(jié)果和電影的真實(shí)評分總體上區(qū)別不大。

      四、總結(jié)和展望

      本文從中國電影市場實(shí)際出發(fā),選擇導(dǎo)演、題材、主演、編劇、區(qū)域?yàn)橛捌u分的影響特征,對其做特征工程處理,提出了基于隨機(jī)森林算法的電影評分預(yù)測模型。該模型能夠?yàn)榇蟊娡扑]電影提供有價(jià)值的參考,具有實(shí)際的意義。

      參考文獻(xiàn)

      [1]耿娟,郭明欣.豆瓣Top250電影數(shù)據(jù)挖掘及評分預(yù)測[J].河北企業(yè), 2021(02):11-13.

      [2]陸君之.基于隨機(jī)森林回歸算法的電影評分預(yù)測模型[J].江蘇通信, 2018,34(01):75-78.

      [3]劉明昌.豆瓣網(wǎng)站電影在線評分的混合預(yù)測模型研究[D].河北大學(xué), 2017.

      [4]呂紅燕,馮倩.隨機(jī)森林算法研究綜述[J].河北省科學(xué)院學(xué)報(bào),2019,36 (03):37-41.

      作者簡介

      王紫薇(1997—),女,漢族,遼寧沈陽人,學(xué)生,碩士,天津工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院,研究方向:數(shù)據(jù)挖掘與建模。

      猜你喜歡
      隨機(jī)森林機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于隨機(jī)森林算法的飛機(jī)發(fā)動機(jī)故障診斷方法的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      通化市| 正蓝旗| 万载县| 龙南县| 肥西县| 洮南市| 曲松县| 海晏县| 改则县| 清涧县| 浦江县| 康平县| 龙岩市| 新民市| 广平县| 潢川县| 安丘市| 临潭县| 敖汉旗| 临湘市| 柘城县| 金湖县| 吴江市| 中牟县| 阜阳市| 专栏| 邳州市| 扶风县| 东乡族自治县| 厦门市| 龙门县| 台山市| 晴隆县| 张家港市| 雅安市| 曲沃县| 文登市| 河曲县| 岫岩| 法库县| 怀化市|