• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的IPTV視頻評(píng)估模型

      2018-08-15 08:15:34顧軍華王守彬武君艷張素琪
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)估

      顧軍華 高 星 王守彬 武君艷 張素琪

      1(河北工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院 天津 300401)2(河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室 天津 300401)3(天津商業(yè)大學(xué)信息工程學(xué)院 天津 300134)

      0 引 言

      伴隨中國(guó)網(wǎng)絡(luò)信息技術(shù)和“三網(wǎng)融合”的推進(jìn)發(fā)展,IPTV行業(yè)的發(fā)展規(guī)模和發(fā)展速度都呈現(xiàn)快速增長(zhǎng)的態(tài)勢(shì)。截至2016年12月末,IPTV用戶達(dá)到8 673萬戶[1],較2015年增加了4 084萬戶,增長(zhǎng)率為89%,快速發(fā)展的同時(shí)也面臨著巨大的挑戰(zhàn)。無論是IPTV平臺(tái)還是傳統(tǒng)媒體平臺(tái),洞察和理解用戶的需求是每一個(gè)媒體平臺(tái)發(fā)展的重中之重。目前,依據(jù)視頻供應(yīng)商提供的視頻信息作為評(píng)估體系的指標(biāo),并依據(jù)經(jīng)驗(yàn)設(shè)定指標(biāo)權(quán)重的方法建立的評(píng)估模型均已無法準(zhǔn)確地評(píng)估視頻,不能滿足IPTV受眾群體的需求。利用新媒體和傳統(tǒng)媒體的海量視頻數(shù)據(jù)建立一套完整的IPTV視頻評(píng)估體系,并利用IPTV平臺(tái)已經(jīng)積累的歷史收視數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘建立針對(duì)IPTV受眾群體的評(píng)估模型是解決目前視頻評(píng)估困境的重要途徑。

      視頻評(píng)估體系中各指標(biāo)的確定是建立視頻評(píng)估模型的基礎(chǔ)。2009年喻國(guó)明等[2]提出電視節(jié)目的收視率無法代表觀眾真實(shí)的滿意度,更無法測(cè)量電視媒體的社會(huì)影響;2011年劉燕南[3-4]提出節(jié)目的評(píng)估指標(biāo)體系,應(yīng)從指導(dǎo)力、影響力、傳播力、專業(yè)性幾個(gè)指標(biāo)來選擇和定檔節(jié)目,國(guó)內(nèi)常見的電視節(jié)目評(píng)估體系是指為實(shí)現(xiàn)評(píng)估目的而構(gòu)建的一套多指標(biāo)、綜合性、定量化的評(píng)估系統(tǒng),一般是將各種待評(píng)要素指標(biāo)化和可測(cè)化,主要采用量化方式處理不同指標(biāo)之間的關(guān)系,最終形成由各種指標(biāo)、權(quán)重和數(shù)學(xué)運(yùn)算組成的系統(tǒng);2013年潘洪濤[5]提出大數(shù)據(jù)框架下的收視評(píng)估體系不僅要反映用戶對(duì)視頻內(nèi)容的認(rèn)知效果,更應(yīng)該能洞見用戶對(duì)視頻內(nèi)容的情感效果,并且能利用評(píng)估指標(biāo)進(jìn)一步預(yù)測(cè)用戶對(duì)視頻內(nèi)容的態(tài)度;2015年韓瑞娜等[6]提出在網(wǎng)絡(luò)電視平臺(tái)、傳統(tǒng)電視平臺(tái)、手機(jī)等多屏發(fā)展的時(shí)代下,對(duì)于視頻的評(píng)估要關(guān)注視頻的收視度和滿意度;2016年楊狀振[7]提出把電視節(jié)目?jī)?nèi)容的輿論引導(dǎo)力、社會(huì)影響力、內(nèi)容傳播力、和專業(yè)化制作水平納入評(píng)價(jià)體系,提高評(píng)價(jià)體系的科學(xué)性。目前,針對(duì)IPTV視頻的評(píng)估體系還未見報(bào)道,因此,本文基于新媒體視頻大數(shù)據(jù)和傳統(tǒng)媒體視頻大數(shù)據(jù)從視頻收視度、視頻影響度和視頻內(nèi)容三個(gè)方面提出一個(gè)較為完善且實(shí)用的視頻評(píng)估體系,體系中各個(gè)指標(biāo)數(shù)據(jù)可以通過網(wǎng)絡(luò)爬蟲技術(shù)獲取,將其作為建立視頻評(píng)估模型的基礎(chǔ)。

      建立評(píng)估模型的常用的方法有層次分析法和主成份分析法。層次分析法需要輸入指標(biāo)之間的判斷矩陣,需要先驗(yàn)知識(shí)和人工干預(yù)。主成分分析法選取多指標(biāo)中的一部分重要指標(biāo)作為評(píng)估模型的輸入,一定程度上損失了評(píng)估準(zhǔn)確度。人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)在信息評(píng)估方面的研究,在國(guó)際上已經(jīng)取得了很多成果。胡偉雄等[8]指出利用BP神經(jīng)網(wǎng)絡(luò)建立評(píng)價(jià)模型對(duì)于評(píng)價(jià)的準(zhǔn)確度有更高的價(jià)值;于戰(zhàn)果等[9]提出基于BP神經(jīng)網(wǎng)絡(luò)的部隊(duì)后勤機(jī)動(dòng)平臺(tái)維修能力的評(píng)估模型;張忠偉等[10]提出了采用基于BP神經(jīng)網(wǎng)絡(luò)來進(jìn)行體脂百分比評(píng)估模型的構(gòu)建;戴晗[11]提出了基于BP神經(jīng)網(wǎng)絡(luò)的機(jī)場(chǎng)類項(xiàng)目前期風(fēng)險(xiǎn)評(píng)估模型。本文首次提出利用BP神經(jīng)網(wǎng)絡(luò)建立視頻評(píng)估模型,采用具有三層結(jié)構(gòu)的ANN反向傳播模型,利用ANN的并行性、容錯(cuò)性和自學(xué)習(xí)等特點(diǎn),以及ANN具有以任意精度逼近任何連續(xù)的非線性函數(shù)的功能[12],來準(zhǔn)確地反映視頻評(píng)估體系中各個(gè)指標(biāo)和視頻隱式評(píng)分之間的復(fù)雜關(guān)系。

      綜上,本文綜合新媒體和傳統(tǒng)媒體的視頻大數(shù)據(jù)完善了IPTV視頻評(píng)估體系,并利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行各大視頻網(wǎng)站的視頻相關(guān)數(shù)據(jù)采集;利用IPTV平臺(tái)已經(jīng)積累的歷史收視數(shù)據(jù)來計(jì)算視頻在IPTV平臺(tái)上的隱式評(píng)分;將視頻在評(píng)估體系中的各個(gè)指標(biāo)數(shù)據(jù)作為輸入,視頻隱式評(píng)分作為輸出,使用BP神經(jīng)網(wǎng)絡(luò)建立視頻評(píng)估模型。實(shí)驗(yàn)證明,所構(gòu)建的評(píng)估模型能夠更加全面、準(zhǔn)確地評(píng)估視頻。本文在Spark大數(shù)據(jù)平臺(tái)上建立BP神經(jīng)網(wǎng)絡(luò)的并行評(píng)估模型,證明基于大數(shù)據(jù)的視頻評(píng)估模型,能夠更準(zhǔn)確地評(píng)估視頻,并且提高了構(gòu)建評(píng)估模型的效率。

      1 基于大數(shù)據(jù)的IPTV視頻評(píng)估體系

      IPTV視頻評(píng)估體系的各指標(biāo)是評(píng)估IPTV視頻的重要依據(jù),是建立視頻評(píng)估模型的基礎(chǔ)。本文通過綜合文獻(xiàn)和IPTV已有的評(píng)估體系,分析新媒體和傳統(tǒng)媒體海量視頻數(shù)據(jù),總結(jié)出更為完善的IPTV視頻評(píng)估體系。新的視頻評(píng)估體系從視頻收視度、視頻影響度和視頻內(nèi)容三個(gè)方面進(jìn)行完善。視頻收視度包括視頻的播放量和票房;視頻影響度包括網(wǎng)絡(luò)評(píng)分、獲獎(jiǎng)情況、上映時(shí)間、上映地區(qū)和首播平臺(tái)等;視頻內(nèi)容包括視頻的創(chuàng)作團(tuán)隊(duì)、視頻的所屬類型,視頻創(chuàng)作團(tuán)隊(duì)包含有導(dǎo)演、演員、原著和制片人,所屬類型按照新聞、電影、電視劇、體育、生活、財(cái)經(jīng)等14個(gè)大類分了不同的標(biāo)簽。利用爬蟲技術(shù),分別從評(píng)估體系中各個(gè)指標(biāo)對(duì)應(yīng)的數(shù)據(jù)來源處進(jìn)行數(shù)據(jù)采集,完善后的評(píng)估體系和各指標(biāo)數(shù)據(jù)來源如表1所示。

      表1 完善之后的IPTV視頻評(píng)估體系

      2 基于BP神經(jīng)網(wǎng)絡(luò)的視頻評(píng)估模型

      對(duì)于完善之后的視頻評(píng)估體系,如何確立各個(gè)指標(biāo)對(duì)最終視頻受歡迎程度之間的作用強(qiáng)弱是建立視頻評(píng)估模型的重要任務(wù)。目前,IPTV的編輯們只是將視頻各項(xiàng)指標(biāo)的分?jǐn)?shù)按照經(jīng)驗(yàn)所設(shè)定的權(quán)重進(jìn)行累加得到視頻的總評(píng)分,并不能準(zhǔn)確的反映出IPTV受眾群體的喜好。本文提出利用BP神經(jīng)網(wǎng)絡(luò)來分析IPTV歷史數(shù)據(jù)并建立視頻評(píng)估模型,將IPTV已上線視頻對(duì)應(yīng)視頻評(píng)估體系中的各項(xiàng)指標(biāo)數(shù)據(jù)作為評(píng)估模型的輸入,首次引入能反映這些視頻受歡迎程度的隱式評(píng)分作為視頻評(píng)估模型的輸出,從而提高視頻評(píng)估的準(zhǔn)確度。

      2.1 隱式評(píng)分

      視頻在IPTV平臺(tái)上的受歡迎程度是視頻評(píng)估模型的重要輸出信息,據(jù)此建立的視頻評(píng)估模型才能真正反映IPTV受眾群體的喜好。在IPTV實(shí)際應(yīng)用中,受到電視平臺(tái)的操作性和傳統(tǒng)用戶收視習(xí)慣等條件的影響,用戶往往不愿意給出視頻收看后的評(píng)分和喜好程度等信息,因此隱式反饋方法更適用于IPTV平臺(tái)對(duì)視頻受歡迎程度的衡量。隱式反饋是通過分析用戶的收視行為數(shù)據(jù),間接得到用戶對(duì)視頻的偏好信息,綜合所有用戶對(duì)同一視頻的偏好信息即可獲得該視頻的受歡迎程度。

      本文的研究團(tuán)隊(duì)在以往的研究中已經(jīng)提出從用戶收視行為中提取用戶對(duì)某個(gè)視頻的觀看時(shí)長(zhǎng)、以及觀看時(shí)長(zhǎng)與節(jié)目總時(shí)長(zhǎng)的比值兩個(gè)指標(biāo)作為衡量用戶偏好的依據(jù),找出了用戶收視行為與隱式評(píng)分存在的關(guān)系?;谑找晻r(shí)長(zhǎng)和收視比值的隱式評(píng)分模型公式如下:

      β·cos2(scaleij·π)·scaleij]

      (1)

      式中的scoreij為用戶i對(duì)視頻j的隱式評(píng)分,其中α和β分別是收視時(shí)長(zhǎng)和收視比值的權(quán)重因子,timeij為用戶i對(duì)視頻j的收視時(shí)長(zhǎng),avg_timej為用戶i的平均收視時(shí)長(zhǎng),scaleij為用戶i對(duì)視頻j的收視時(shí)長(zhǎng)占視頻j總時(shí)長(zhǎng)的比值,n為同一用戶對(duì)同一視頻的收視行為次數(shù)。

      式(1)得到的隱式評(píng)分為一個(gè)用戶對(duì)看過的一個(gè)視頻的隱式評(píng)分,針對(duì)同一視頻j,計(jì)算所有用戶對(duì)該視頻的平均評(píng)分,即為視頻j的隱式評(píng)分,公式如下:

      (2)

      2.2 視頻評(píng)估體系各指標(biāo)的量化和歸一化

      IPTV平臺(tái)上的視頻類型包括電影、電視劇、新聞、紀(jì)錄片、綜藝和體育等14個(gè)大類。采集來的視頻指標(biāo)信息包括表1中的若干指標(biāo),各個(gè)指標(biāo)的含義和單位各不相同,為了能夠?qū)⑺兄笜?biāo)用以建立評(píng)估模型,需要對(duì)各指標(biāo)進(jìn)行量化處理。在進(jìn)行評(píng)估模型的訓(xùn)練之前,還需要對(duì)輸入數(shù)據(jù)和輸出數(shù)據(jù)進(jìn)行歸一化處理,以使數(shù)據(jù)在同一數(shù)量級(jí),從而加快神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度,提高網(wǎng)絡(luò)的收斂性和最終模型的準(zhǔn)確度。根據(jù)完善之后的IPTV視頻評(píng)估體系,結(jié)合實(shí)際采集到的視頻信息,本文以電視劇類型為例說明各個(gè)指標(biāo)量化和歸一化的方法。

      電視劇涉及到的評(píng)估指標(biāo)有八項(xiàng),分別是:播放量、網(wǎng)絡(luò)評(píng)分、導(dǎo)演、演員、首播平臺(tái)、上映時(shí)間、上映地區(qū)和視頻類型。其中播放量和網(wǎng)絡(luò)評(píng)分可直接在各大視頻網(wǎng)站獲取,直接計(jì)算兩項(xiàng)平均值記為C1、C2,電視劇的導(dǎo)演、主演員和首播平臺(tái)都是固定的因素,由視頻評(píng)估專家按照導(dǎo)演的獲獎(jiǎng)情況、主演員的職業(yè)等級(jí)和首播衛(wèi)視的級(jí)別情況給出的量化標(biāo)準(zhǔn)直接打分,量化后分別記為C3、C4、C5。電視劇的上映時(shí)間,上映地區(qū)和視頻類型涉及到的影響因素較多,綜合多個(gè)視頻評(píng)估專家的意見,將這三個(gè)評(píng)估指標(biāo)分別細(xì)分為多個(gè)實(shí)際因素,然后采用層次分析法計(jì)算各因素權(quán)重,將因素權(quán)重作為這三項(xiàng)評(píng)估指標(biāo)的量化標(biāo)準(zhǔn)。下面以上映時(shí)間為例說明采用層次分析法建立量化標(biāo)準(zhǔn)的過程。

      首先總結(jié)評(píng)估專家的意見,結(jié)合電視劇上映時(shí)間的實(shí)際情況,將上映時(shí)間涉及到的實(shí)際因素分為四類,分別對(duì)應(yīng)著不同的時(shí)間段,建立的量化模型如圖1所示。

      圖1 量化模型圖

      然后針對(duì)四個(gè)實(shí)際因素的相對(duì)重要性,由評(píng)估專家進(jìn)行打分,兩兩比較得到判斷矩陣。

      表2中“1”表示為兩個(gè)元素相比較,具有同等的重要性,“3”表示為兩個(gè)元素相比較,一個(gè)元素比另一個(gè)元素比較重要,數(shù)值的大小表示重要程度的強(qiáng)弱。

      表2 上映時(shí)間C6判斷矩陣

      通過求解矩陣的最大特征根和特征向量,計(jì)算得到一致性指標(biāo)CI=0.006 4,一致性比率CR=0.007 1<0.1,說明結(jié)果有效。最大特征值對(duì)應(yīng)的單位特征向量為w=(0.587 2,0.217 9,0.122 8,0.072)T。

      由此得到四個(gè)因素所對(duì)應(yīng)的權(quán)重。將各因素的權(quán)重作為上映時(shí)間C6的量化標(biāo)準(zhǔn),即:

      (3)

      同理可得上映地區(qū)C7,視頻類型C8的量化標(biāo)準(zhǔn)如下:

      (4)

      (5)

      綜上,用Input表示評(píng)估模型的輸入向量,用Output表示評(píng)估模型的輸出向量,其中Imp表示IPTV電視劇的隱式評(píng)分。合成后表示公式如下。

      Input={C1,C2,C3,C4,C5,C6,C7,C8}

      (6)

      Output={Imp}

      (7)

      進(jìn)行訓(xùn)練之前需要對(duì)各項(xiàng)輸入數(shù)據(jù)和輸出數(shù)據(jù)分別進(jìn)行歸一化處理,將數(shù)據(jù)限定在[0,1],歸一化的公式如下:

      (8)

      式中:Xmax,Xmin分別代表在該項(xiàng)數(shù)據(jù)中的最大值和最小值,Xi為最初數(shù)據(jù)。

      2.3 基于BP神經(jīng)網(wǎng)絡(luò)建立視頻評(píng)估模型

      BP神經(jīng)網(wǎng)絡(luò)是一種多層的前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱含層和輸出層三部分組成,各層神經(jīng)元之間的權(quán)值通過反向傳播的方法調(diào)整,是目前應(yīng)用較多的神經(jīng)網(wǎng)絡(luò)模型之一,它能學(xué)習(xí)和存儲(chǔ)大量的輸入輸出映射關(guān)系而無需事先揭示出描寫這些關(guān)系的數(shù)學(xué)方程[13]。本文使用BP神經(jīng)網(wǎng)絡(luò)建立視頻評(píng)估模型,其中輸入層的節(jié)點(diǎn)數(shù)設(shè)定為8,各節(jié)點(diǎn)分別對(duì)應(yīng)著C1、C2、C3、C4、C5、C6、C7、C8;隱含層的節(jié)點(diǎn)數(shù)設(shè)定為10;由于輸入的各項(xiàng)指標(biāo)得到的評(píng)估值只有一項(xiàng),故將輸出層的節(jié)點(diǎn)數(shù)設(shè)定為1,對(duì)應(yīng)著視頻的隱式評(píng)分Imp。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。

      圖2 BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖

      訓(xùn)練過程包括前向傳播和反向傳播兩個(gè)過程。首先輸入層接收輸入信息,經(jīng)過隱含層處理再將輸出信息傳遞至輸出層,通過計(jì)算輸出層的輸出信息與對(duì)應(yīng)視頻隱式評(píng)分的誤差來調(diào)整神經(jīng)元之間的權(quán)值。經(jīng)過反復(fù)的迭代訓(xùn)練,使得誤差逐漸下降。

      3 基于SPARK的并行化視頻評(píng)估模型

      利用BP神經(jīng)網(wǎng)絡(luò)來建立評(píng)估模型的一個(gè)主要問題是IPTV已有的歷史數(shù)據(jù)量巨大,傳統(tǒng)的串行方式不能承擔(dān)大數(shù)據(jù)規(guī)模下的不斷迭代和計(jì)算的過程。IPTV的一個(gè)用戶在一個(gè)星期內(nèi)的收視行為在2 000條左右,而IPTV的總用戶超過了8 000萬,如果想得到一個(gè)準(zhǔn)確有效的評(píng)估模型,需要綜合 IPTV平臺(tái)上所有用戶的收視行為進(jìn)行模型建立。目前,分布式的機(jī)器學(xué)習(xí)在大規(guī)模數(shù)據(jù)挖掘方面非常有效,參數(shù)服務(wù)器[14-17]使得學(xué)習(xí)算法易于部署在大規(guī)模集群上。Spark是一個(gè)基于內(nèi)存的分布式計(jì)算平臺(tái),它擁有Hadoop MapReduce的全部?jī)?yōu)點(diǎn),從而不再需要讀寫Hadoop分布式文件系統(tǒng)HDFS(Hadoop Distributed File System),提高了并行計(jì)算的速度[18],這使得它在大數(shù)據(jù)分析處理方面相較于其他平臺(tái)更加高效。Spark的核心抽象模型是彈性分布式數(shù)據(jù)集RDD[19](Resilient Distributed Datasets),Spark為RDD提供了各種功能的操作,這使得數(shù)據(jù)集的處理更加高效快捷。本文基于Spark平臺(tái)實(shí)現(xiàn)了BP神經(jīng)網(wǎng)絡(luò)的并行化算法,用以處理視頻評(píng)估模型的大數(shù)據(jù)量訓(xùn)練過程。

      3.1 BP神經(jīng)網(wǎng)絡(luò)并行化訓(xùn)練流程

      本文將BP神經(jīng)網(wǎng)絡(luò)算法部署到Spark數(shù)據(jù)處理框架上進(jìn)行并行訓(xùn)練。在BP神網(wǎng)絡(luò)的訓(xùn)練中有在線學(xué)習(xí)模式和批量處理學(xué)習(xí)模式兩種。在線學(xué)習(xí)模式是每計(jì)算一個(gè)樣本數(shù)據(jù)的誤差就進(jìn)行網(wǎng)絡(luò)權(quán)重的調(diào)整,批量處理學(xué)習(xí)模式是指在對(duì)于樣本集中的所有樣本完成訓(xùn)練后,利用所有樣本總誤差梯度調(diào)整網(wǎng)絡(luò)權(quán)重[20]。與在線學(xué)習(xí)模式相比,批量處理的學(xué)習(xí)模式不僅提高了收斂速度,而且有效地避免了訓(xùn)練數(shù)據(jù)的輸入順序?qū)W(wǎng)絡(luò)模型的影響,因此本文采用了批量處理的學(xué)習(xí)模式進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。具體的BP神經(jīng)網(wǎng)絡(luò)算法并行化訓(xùn)練流程如圖3所示。

      圖3 算法并行化訓(xùn)練流程圖

      BP神經(jīng)網(wǎng)絡(luò)并行化訓(xùn)練具體步驟如下:

      步驟1:將訓(xùn)練數(shù)據(jù)集切分成多個(gè)子集,并且存儲(chǔ)到HDFS上;

      步驟2:Master節(jié)點(diǎn)將設(shè)置的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)集子集以及網(wǎng)絡(luò)初始化權(quán)重發(fā)給Worker節(jié)點(diǎn),使得每個(gè)Worker節(jié)點(diǎn)都實(shí)例化一個(gè)完整的神經(jīng)網(wǎng)絡(luò);

      步驟3:在每個(gè)Worker節(jié)點(diǎn)上,使用批量訓(xùn)練的方式將部分訓(xùn)練數(shù)據(jù)集子集作用于神經(jīng)網(wǎng)絡(luò)上,并行地進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;

      步驟4:Worker將訓(xùn)練更新之后的網(wǎng)絡(luò)權(quán)重返回給Master節(jié)點(diǎn);

      步驟5:Master節(jié)點(diǎn)更新權(quán)重并計(jì)算期望輸出與實(shí)際輸出的誤差,判斷誤差和迭代次數(shù)是否滿足要求,若滿足則結(jié)束訓(xùn)練,否則返回步驟2繼續(xù)訓(xùn)練;

      步驟6:輸出訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型。

      3.2 RDD數(shù)據(jù)集流轉(zhuǎn)過程

      Spark平臺(tái)的優(yōu)勢(shì)在于基于內(nèi)存的計(jì)算,RDD的各種操作是在內(nèi)存上進(jìn)行,算法實(shí)現(xiàn)過程中對(duì)RDD進(jìn)行的一系列算子操作和數(shù)據(jù)集的轉(zhuǎn)換過程就顯得極其重要。本次實(shí)驗(yàn)在并行訓(xùn)練階段涉及到的RDD算子操作和數(shù)據(jù)集流轉(zhuǎn)過程如圖4所示。

      圖4 并行化訓(xùn)練階段數(shù)據(jù)集轉(zhuǎn)換圖

      (1) 首先,將訓(xùn)練的數(shù)據(jù)集切分成多個(gè)子集,存儲(chǔ)在HDFS里。

      (2) 啟動(dòng)Spark集群,執(zhí)行程序,使用collect算子將數(shù)據(jù)子集作為RDD輸入到各個(gè)Worker節(jié)點(diǎn)。圖示為三個(gè)Worker節(jié)點(diǎn),對(duì)應(yīng)的RDD分片數(shù)可根據(jù)進(jìn)程所需的內(nèi)存大小設(shè)定。

      (3) Driver進(jìn)程讀取初始化的神經(jīng)網(wǎng)絡(luò)權(quán)值,并使用broadcast算子將權(quán)值傳遞到各個(gè)Worker節(jié)點(diǎn)中。

      (4) 各個(gè)Worker節(jié)點(diǎn)使用初始化的權(quán)值實(shí)例出一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。

      (5) 采用批量訓(xùn)練的方式,將數(shù)據(jù)子集作用于各個(gè)Worker節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)上,進(jìn)行迭代訓(xùn)練后輸出網(wǎng)絡(luò)權(quán)值。

      (6) Master節(jié)點(diǎn)綜合各個(gè)Worker節(jié)點(diǎn)的輸出,得到最終的網(wǎng)絡(luò)權(quán)值。

      (7) 使用SaveAsTextFile算子將訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型輸出到HDFS中。

      4 實(shí)驗(yàn)結(jié)果分析

      為了驗(yàn)證本文提出的基于大數(shù)據(jù)構(gòu)建視頻評(píng)估模型的有效性,實(shí)驗(yàn)選取2015年12月到2016年4月某市IPTV平臺(tái)的1 000個(gè)用戶的收視行為,根據(jù)式(1)、式(2)計(jì)算獲得了視頻的隱式評(píng)分,然后通過網(wǎng)絡(luò)爬蟲技術(shù)對(duì)視頻進(jìn)行評(píng)估體系指標(biāo)信息的采集,按照2.2節(jié)中的方法進(jìn)行量化和歸一化,得到800 MB完整的實(shí)驗(yàn)數(shù)據(jù)。本實(shí)驗(yàn)主要驗(yàn)證兩方面性能:一是基于BP神經(jīng)網(wǎng)絡(luò)建立的視頻評(píng)估模型的有效性驗(yàn)證,二是并行化建立視頻評(píng)估模型有效性驗(yàn)證。

      4.1 基于BP神經(jīng)網(wǎng)絡(luò)的視頻評(píng)估模型的有效性驗(yàn)證

      為了驗(yàn)證IPTV視頻評(píng)估模型的有效性,實(shí)驗(yàn)選取200 MB訓(xùn)練數(shù)據(jù),首先在訓(xùn)練過程中采用交叉檢驗(yàn)的方式來驗(yàn)證評(píng)估模型的穩(wěn)定性,訓(xùn)練完成后得到IPTV視頻評(píng)估模型,然后用100條新的視頻數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù)集,用新評(píng)估模型和原有的評(píng)估模型分別對(duì)其進(jìn)行預(yù)測(cè),通過對(duì)比來驗(yàn)證評(píng)估模型的有效性。

      評(píng)估模型訓(xùn)練的過程中,采用K折交叉檢驗(yàn)的方式來驗(yàn)證評(píng)估模型的穩(wěn)定性,這里K=10。在每次的迭代訓(xùn)練過程中計(jì)算交叉檢驗(yàn)產(chǎn)生的均方誤差。從圖5可知,經(jīng)過30次的迭代訓(xùn)練,交叉檢驗(yàn)產(chǎn)生的誤差值整體呈現(xiàn)明顯的下降趨勢(shì)并逐漸趨于穩(wěn)定,這就說明基于BP神經(jīng)網(wǎng)絡(luò)建立的視頻評(píng)估模型較為穩(wěn)定。

      圖5 交叉檢驗(yàn)誤差圖

      訓(xùn)練結(jié)束后選取100條新的數(shù)據(jù)對(duì)評(píng)估模型的有效性進(jìn)行驗(yàn)證。用ebp表示基于BP神經(jīng)網(wǎng)絡(luò)建立的IPTV視頻評(píng)估模型預(yù)測(cè)得出的實(shí)驗(yàn)輸出與隱式評(píng)分的差值的絕對(duì)值,eold表示根據(jù)原評(píng)估模型預(yù)測(cè)得出的實(shí)驗(yàn)輸出與隱式評(píng)分之間差值的絕對(duì)值。圖6為ebp與eold之間的對(duì)比圖,其中實(shí)線表示ebp,虛線表示eold。

      圖6 差值對(duì)比圖

      從圖中可以明顯地看出,ebp的值從整體上要明顯小于eold,并且計(jì)算均方誤差得到MSEbp=0.003 143,MSEold=0.017 56,這就進(jìn)一步說明了基于BP神經(jīng)網(wǎng)絡(luò)建立的視頻評(píng)估模型更為準(zhǔn)確。

      4.2 并行化構(gòu)建視頻評(píng)估模型的有效性驗(yàn)證

      實(shí)驗(yàn)采用了基于內(nèi)存的分布式并行框架Spark進(jìn)行實(shí)現(xiàn),實(shí)驗(yàn)環(huán)境介紹如下:集群環(huán)境共包含6個(gè)節(jié)點(diǎn),其中5個(gè)為Worker節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)的配置相同,且處在同一個(gè)局域網(wǎng)內(nèi),操作系統(tǒng)為CentOs6.5,CPU為E5-2620 v4,核心頻率2.10 GHZ,節(jié)點(diǎn)內(nèi)存32 GB,使用了Scala編程語言,分布式平臺(tái)為Spark2.0.0。

      通過改變訓(xùn)練數(shù)據(jù)集的大小,分析Spark平臺(tái)在不同節(jié)點(diǎn)數(shù)目下構(gòu)建評(píng)估模型所需的時(shí)間,計(jì)算加速比來驗(yàn)證算法的并行性。實(shí)驗(yàn)將訓(xùn)練數(shù)據(jù)集分成200、400、600和800 MB,來計(jì)算不同大小訓(xùn)練數(shù)據(jù)集產(chǎn)生的加速比,加速比的公式如下:

      (9)

      式中:Sp代表加速比,Tp為使用1個(gè)節(jié)點(diǎn)時(shí)任務(wù)執(zhí)行的時(shí)間,Tp為使用 個(gè)節(jié)點(diǎn)時(shí)任務(wù)執(zhí)行的時(shí)間。

      實(shí)驗(yàn)結(jié)果如圖7所示,在4種不同大小的訓(xùn)練數(shù)據(jù)集下,加速比與節(jié)點(diǎn)數(shù)目的增加近似成正比的關(guān)系。并且隨著訓(xùn)練數(shù)據(jù)量的增加,產(chǎn)生的加速比逐漸趨于理想的狀態(tài)。由此可見,基于Spark的BP神經(jīng)網(wǎng)絡(luò)在處理大規(guī)模訓(xùn)練數(shù)據(jù)集的情況下構(gòu)建視頻評(píng)估模型有較好的并行性。

      圖7 BP神經(jīng)網(wǎng)絡(luò)并行化后加速比

      5 結(jié) 語

      針對(duì)目前IPTV視頻評(píng)估模型所面臨的準(zhǔn)確性問題,本文首先從視頻的收視度、視頻的影響度和視頻內(nèi)容三個(gè)方面完善了視頻評(píng)估體系;然后引入視頻的隱式評(píng)分來反映視頻的受歡迎程度,對(duì)IPTV上已上線視頻的各項(xiàng)信息進(jìn)行采集和量化后得到視頻的各項(xiàng)評(píng)估指標(biāo)數(shù)據(jù),再通過收集這些視頻的歷史收視情況得出視頻的隱式評(píng)分,將其分別作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)和輸出數(shù)據(jù)來訓(xùn)練評(píng)估模型;最后針對(duì)大數(shù)據(jù)的海量性,在Spark平臺(tái)上使用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了數(shù)據(jù)的并行化訓(xùn)練,建立了基于大數(shù)據(jù)的視頻評(píng)估模型。實(shí)驗(yàn)結(jié)果表明,本文提出的基于大數(shù)據(jù)的IPTV視頻評(píng)估模型提高了視頻評(píng)估的準(zhǔn)確度,并且在Spark平臺(tái)上建立評(píng)估模型具有良好的時(shí)間性能。

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)估
      CM節(jié)點(diǎn)控制在船舶上的應(yīng)用
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點(diǎn)圖快速構(gòu)建
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點(diǎn)
      評(píng)估依據(jù)
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      立法后評(píng)估:且行且盡善
      浙江人大(2014年5期)2014-03-20 16:20:25
      承德市| 武汉市| 佛坪县| 南郑县| 固镇县| 岳阳市| 芜湖县| 延边| 浦北县| 普格县| 康马县| 山丹县| 南充市| 景宁| 资中县| 清原| 久治县| 成安县| 克东县| 雅江县| 如东县| 沭阳县| 来安县| 民和| 加查县| 清镇市| 佛山市| 集安市| 阳曲县| 武城县| 东乌珠穆沁旗| 莒南县| 阿坝县| 上高县| 巴彦淖尔市| 页游| 醴陵市| 多伦县| 堆龙德庆县| 油尖旺区| 淮阳县|