• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于網(wǎng)絡小說熱度預測的CDN內容分發(fā)策略研究

      2018-11-16 08:00:18趙禮強
      中文信息學報 2018年10期
      關鍵詞:網(wǎng)絡小說分類預測

      趙禮強,姜 崇,靖 可

      (沈陽航空航天大學 經(jīng)濟與管理學院,遼寧 沈陽 110000)

      0 引言

      隨著網(wǎng)絡信息的海量爆發(fā),受限于互聯(lián)網(wǎng)服務器本身網(wǎng)絡帶寬處理能力,面對海量信息傳輸與分享,需要多次網(wǎng)絡轉發(fā),導致傳輸延時高且不穩(wěn)定,降低響應速度。內容分發(fā)網(wǎng)絡(content delivery network,CDN)就是為了有效解決此類問題,在現(xiàn)有的互聯(lián)網(wǎng)基礎上通過放置節(jié)點服務器于網(wǎng)絡各處,從而構成一層智能虛擬網(wǎng)絡架構。CDN系統(tǒng)通過分布式緩存/復制、負載均衡、流量控制及客戶端重定向等技術[1],當用戶對業(yè)務內容發(fā)起請求時,將請求重新導向距離用戶最近的服務節(jié)點上,更快、更精準地觸發(fā)信息和觸達每一位用戶,為用戶帶來更優(yōu)越的使用體驗。CDN在保障信息連續(xù)性的前提下,盡可能減少資源的轉發(fā)、傳輸、鏈路抖動等操作,有效解決網(wǎng)絡傳輸擁堵和用戶訪問延遲的問題,在流媒體與動態(tài)內容傳輸方面得到了廣泛應用。

      當對CDN進行內容副本部署時,過多的副本部署會增大空間占有率,降低空間有效利用率,過少的部署則會降低服務質量。只有部署流行度更高的內容副本時,才能提高系統(tǒng)效率[2]。內容副本部署策略不佳而進行的后期服務器調整會增加I/O負擔,耗費周期長,缺乏經(jīng)濟性[3]。因此合理優(yōu)化內容副本部署策略是實現(xiàn)CDN優(yōu)質服務的前提[4]。從用戶角度分析內容接收者的特征規(guī)律是一種優(yōu)化內容部署策略的研究思路。例如,借助信任度將信任機制引入對用戶的內容推送模型中,實現(xiàn)推策略[5]。以往的研究多是從用戶興趣的角度出發(fā),將用戶興趣與內容內外部流行度結合,對用戶群體有針對性地進行推送服務[6]。相關研究采用聚類的方式挖掘用戶之間的關系,向用戶推送相似內容[7],或通過挖掘節(jié)點隨機運動中隱藏的用戶社交特征和興趣特征,結合信息需求量,實現(xiàn)最大效用的內容推送[8]。這種基于用戶興趣來挖掘用戶關系和相似性從而實現(xiàn)內容推送的策略在微博的內容部署[9]和新聞內容部署[10]中都得到了應用。

      在流媒體服務器的內容分發(fā)策略部署中,針對視頻持續(xù)時間長、文件大等特點,芮蘭蘭等人[11]結合內容流行度和節(jié)點中心度的緩存策略解決了緩存冗余的問題,合理分配資源,提高了整體效用。但研究的重點集中在緩存的技術層面,對內容流行度的判別及與排名匹配標準的研究不足。熊慶昌等人通過研究用戶訪問規(guī)律,根據(jù)內容內外部流行度的分布情況而提出影片生存期的緩存技術,對內容分發(fā)策略的部署具有很好的參考價值[12];在楊傳棟等人的研究中同樣指出,由于流媒體內部流行度差距巨大,而提出采用不同的分段方法對流行度不同的內容進行部分推送策略[13]。綜上可以發(fā)現(xiàn),雖然對用戶興趣研究的角度不同,但最終落腳點依舊是內容的流行度,說明內容的流行度才是內容分發(fā)部署策略的關鍵。一方面,推技術雖然更適合內容請求集中的多媒體熱度內容,但由于缺乏對內容的預測機制,當用戶請求沒有被預分發(fā)內容命中,請求遠端源服務器時產生的網(wǎng)絡堵塞現(xiàn)象勢必會對用戶體驗造成負面影響[14]。另一方面,雖然流媒體服務器的研究對網(wǎng)絡小說服務器的內容分發(fā)有啟示作用,但針對流媒體持續(xù)時間長、文件大等特點提出的緩存策略并不適用于網(wǎng)絡小說。因此,從網(wǎng)絡小說熱度作為切入點研究內容分發(fā)策略就顯得更加適用和重要。目前通過結合微博[15]與網(wǎng)絡搜索[16]對電影票房和電視劇點播量進行預測,并挖掘票房和點播量影響因素的研究較多,但針對網(wǎng)絡小說熱度的研究以定性研究為主,缺乏科學的熱度評價標準,更缺乏針對網(wǎng)絡小說服務器內容分發(fā)策略而對網(wǎng)絡小說熱度進行預測的研究。

      本文通過定義網(wǎng)絡小說熱度概念,建立網(wǎng)絡小說熱度評價標準,采用分類算法對網(wǎng)絡小說熱度進行預測,旨在為高熱度網(wǎng)絡小說副本以合理優(yōu)化的策略部署到CDN系統(tǒng)中提供依據(jù)[17],減少后期對內容副本的調整,減輕I/O負擔,降低訪問延遲,提高CDN系統(tǒng)服務質量。

      1 數(shù)據(jù)的獲取與預處理

      起點中文網(wǎng)隸屬于國內最大的數(shù)字內容綜合平臺——閱文集團,是國內最大文學閱讀與寫作平臺之一,也是目前國內領先的原創(chuàng)文學門戶網(wǎng)站,樹立了行業(yè)領導地位,具有很高的影響力。

      起點中文網(wǎng)包含大量擁有龐大閱讀基群的優(yōu)質網(wǎng)絡小說,又囊括了眾多處在成長期的新生網(wǎng)絡小說,個例樣本鮮明,整體樣本題材豐富,使數(shù)據(jù)更全面充分,因此本文選擇起點中文網(wǎng)作為數(shù)據(jù)來源。

      1.1 數(shù)據(jù)來源

      本文選擇起點中文網(wǎng)作為網(wǎng)絡小說數(shù)據(jù)獲取源網(wǎng)站,采用八爪魚數(shù)據(jù)采集器作為數(shù)據(jù)采集工具。起點中文網(wǎng)網(wǎng)絡小說頁面的數(shù)據(jù)主要分為兩種,一種是不進行周期清零,從網(wǎng)絡小說創(chuàng)作開始,數(shù)據(jù)值隨著每天的增長而不斷的累積,如總點擊量、總推薦量等特征。另一種是積累一定周期后清零,新周期內重新統(tǒng)計的數(shù)據(jù)。如月票數(shù)以月為周期,月統(tǒng)計數(shù)據(jù)在月末清零,周打賞人數(shù)、周會員點擊、周推薦量等特征則是以周為周期,周統(tǒng)計數(shù)據(jù)在每周末清零。

      針對起點中文網(wǎng)的這一規(guī)律,本文選擇2017年6月30日作為采集數(shù)據(jù)的時間節(jié)點對網(wǎng)絡小說頁面數(shù)據(jù)進行抓取,旨在得到六月份網(wǎng)絡小說月票的月統(tǒng)計數(shù),同時該時間節(jié)點恰好作為六月份最后一周的周末,從而得到周打賞人數(shù)、周會員點擊、周推薦等特征的周統(tǒng)計數(shù)據(jù)。當一部網(wǎng)絡小說進入成熟期時,粉絲群體相對穩(wěn)定,周期數(shù)據(jù)增長量應當保持相對穩(wěn)定,而能夠保持穩(wěn)定增長的網(wǎng)絡小說熱度更持久,在網(wǎng)絡分發(fā)內容策略中需要被替換的概率更低。由于本文對網(wǎng)絡小說熱度的預測是一個狀態(tài)預測,因此選用結合歷史累積的數(shù)據(jù)特征和能反映常態(tài)的周期統(tǒng)計數(shù)據(jù)特征作為網(wǎng)絡小說抓取的對象,因為不考慮特定時間段而抓取的數(shù)據(jù)更能真實反映日常網(wǎng)絡小說的熱度情況。對起點中文網(wǎng)原創(chuàng)風云榜的501部網(wǎng)絡小說排名信息及網(wǎng)頁數(shù)據(jù)進行抓取,作為網(wǎng)絡小說熱度預測的初始知識庫。同時抓取5 649部有人氣排名但缺乏熱度評價的網(wǎng)絡小說作為熱度預測數(shù)據(jù)庫。

      1.2 數(shù)據(jù)特征

      網(wǎng)絡小說作為文學作品,具有文學價值但難以衡量轉化為數(shù)值信息的特征,因此很難通過網(wǎng)絡小說本身的內容分析而獲得量化信息。但通過讀者對網(wǎng)絡小說點擊量、推薦量、打賞、評論等特征以及作者創(chuàng)作網(wǎng)絡小說的相關信息則可以從側面反映網(wǎng)絡小說的受歡迎程度[18],即網(wǎng)絡小說的熱度。本文根據(jù)先驗知識與相關文獻參考,針對影響網(wǎng)絡小說熱度的特征在各個維度上進行選擇[19],具體變量選擇及數(shù)據(jù)描述如表1所示。

      表1 變量定義與數(shù)據(jù)描述

      續(xù)表

      2 熱度定義

      熱度是一個虛擬概念,也是一個綜合性的評價指標,用來衡量作品的受歡迎程度或銷售情況等。熱度概念在電影、電視劇的預測問題研究中較為普遍。電影熱度一般以票房作為表征進行分析預測,電視劇熱度一般以單集電視劇點播量作為表征進行分析預測。電影更傾向于一次性消費,通過設定票價與銷售票數(shù)的積累來獲得收益,電視劇則更傾向于一段時間內的持續(xù)消費,周期性播放的電視劇吸引的流量表現(xiàn)在點播量的積累上,從而獲得相應收益。比較之下,網(wǎng)絡小說則是綜合了電影、電視劇的雙重特點,同時具有區(qū)別于電影和電視劇的特殊特征。

      一方面,當網(wǎng)絡小說達到上架要求,從章節(jié)免費閱讀升級為章節(jié)VIP閱讀后,將會對網(wǎng)絡小說每一章節(jié)進行定價銷售,通過點擊量和單章節(jié)的定價來獲得當天網(wǎng)絡小說更新章節(jié)的銷售收益。因此,某一天某一章節(jié)的故事情節(jié)決定了當天章節(jié)銷售收益的高低,這一點與電影票房的概念相似。另一方面,網(wǎng)絡小說的章節(jié)更新周期是以日為單位,且一本網(wǎng)絡小說的完本一般需要持續(xù)更新至少一年以上,是一個持續(xù)性的消費,每天的點擊量積累形成總點擊量,大量的點擊代表網(wǎng)絡小說吸引的人氣和閱讀基礎,這一點與電視劇的點播量概念相似。最后,網(wǎng)絡小說擁有顯著區(qū)別于電影、電視劇的打賞投票機制。讀者可以根據(jù)個人意愿,以打賞、投月票、投推薦票的方式表達個人對網(wǎng)絡小說的喜愛和支持,打賞與月票的收益是與章節(jié)銷售收益獨立區(qū)分的收益。值得一提的是,雖然屬于個別現(xiàn)象,但不可否認個別網(wǎng)絡小說存在刷票、刷點擊的行為,造成諸如點擊量數(shù)據(jù)極高、推薦票等其他變量數(shù)據(jù)極低的畸形現(xiàn)象,如果單一從點擊量或其他某個單一變量來反映熱度概念,將不可避免受到人為或其他外部因素的干擾。

      綜合上述分析,本文認為用單一維度來衡量網(wǎng)絡小說熱度缺乏足夠的信服力,具有片面性。因此本文結合相關文獻以及網(wǎng)絡小說本身的特點進行了變量選擇,綜合定義網(wǎng)絡小說熱度,具體如下:

      (1) 閱讀基群維度。由總點擊量、總推薦量、周會員點擊量構成。點擊量和推薦量能夠直觀反映網(wǎng)絡小說的讀者總基群,周會員點擊量則反映一周內選擇VIP閱讀的讀者基群。

      (2) 閱讀收益維度。由月票、周打賞人數(shù)和周推薦票數(shù)構成。起點中文網(wǎng)采用周清和月清兩種方式更新網(wǎng)絡小說數(shù)據(jù),月票每月月末統(tǒng)計清零,周打賞人數(shù)和周推薦票數(shù)每周周末統(tǒng)計清零。由于打賞和月票收益與章節(jié)銷售獨立區(qū)別,閱讀收益反映的是讀者在購閱章節(jié)之后對網(wǎng)絡小說的額外支持度。

      (3) 閱讀討論維度。閱讀討論數(shù)的多少反映的是讀者在閱讀網(wǎng)絡小說后的感受反饋,也影響著新讀者選擇閱讀的意向。閱讀討論維度體現(xiàn)了網(wǎng)絡小說的話題討論參與熱度。

      2.1 綜合熱度評分

      本文根據(jù)原創(chuàng)風云榜501部排名網(wǎng)絡小說建立初始知識庫,采用1~4分評分制對每一部網(wǎng)絡小說(P)在選擇的維度(N、S、D)上進行熱度評分,加和得到每一部小說的綜合熱度評分HP。使用符號來標注信息:

      (1) 閱讀基群(N)、總點擊量(N1)、總推薦量(N2)、周會員點擊量(N3),i取值范圍為1,2,3。網(wǎng)絡小說(P)的閱讀基群熱度評分,如式(1)所示。

      (1)

      (2) 閱讀收益(S)、月票(S1)、周打賞人數(shù)(S2)、周推薦票(S3),j取值范圍為1,2,3。網(wǎng)絡小說(P)的閱讀收益熱度評分,如式(2)所示。

      (2)

      (3) 閱讀討論(D)。閱讀討論熱度評分,如式(3)所示。

      H(DP)

      (3)

      (4) 熱度評分(H)。一部網(wǎng)絡小說的綜合熱度評分由三個維度的評分加和獲得,如式(4)所示。

      (4)

      熱度評分數(shù)量級如表2所示。

      表2 熱度評分數(shù)量級

      2.2 數(shù)據(jù)擬合

      經(jīng)過數(shù)據(jù)預處理及統(tǒng)計分析發(fā)現(xiàn),初始知識庫中原創(chuàng)風云榜501部網(wǎng)絡小說的綜合熱度評分HP取值范圍為[7,28]。由于缺乏綜合熱度評分與熱度等級之間的對應關系,無法確定網(wǎng)絡小說熱度等級的取值規(guī)律。受到電影影片熱度通常符合Zipf分布的啟發(fā)[20],本文將501部網(wǎng)絡小說的人氣排名與綜合熱度評分分別采用傅里葉函數(shù)、有理函數(shù)、冪律分布、樣條插值平滑進行數(shù)據(jù)擬合。數(shù)據(jù)擬合分布圖如圖1~4所示。

      圖1 傅里葉數(shù)據(jù)擬合圖像

      圖2 有理函數(shù)數(shù)據(jù)擬合圖像

      圖3 樣條插值平滑數(shù)據(jù)擬合圖像

      圖4 冪律分布數(shù)據(jù)擬合圖像

      冪律分布函數(shù)為,如式(5)所示。

      Y=cX-r

      (5)

      其中X,Y是正的隨機變量,c,r均為大于零的常數(shù)。

      對比四種數(shù)據(jù)擬合圖像,樣條插值平滑數(shù)據(jù)擬合存在過擬合現(xiàn)象,偏差較大,不予考慮。比較有理函數(shù)數(shù)據(jù)擬合和傅里葉數(shù)據(jù)擬合,冪律分布數(shù)據(jù)擬合效果更優(yōu)。同時冪律分布數(shù)據(jù)擬合中確定系數(shù)為0.692 2(確定系數(shù)R-square,該值越接近1代表擬合程度越好),傅里葉數(shù)據(jù)擬合確定系數(shù)為0.405,有理函數(shù)數(shù)據(jù)擬合確定系數(shù)為0.426 6。

      根據(jù)數(shù)據(jù)擬合顯示,網(wǎng)絡小說綜合熱度評分與人氣排名的數(shù)據(jù)分布符合冪律分布,滿足帕累托定則,說明網(wǎng)絡小說80%的人氣集中在20%的熱度網(wǎng)絡小說之上,這一點符合當前網(wǎng)絡小說的現(xiàn)實認知。

      2.3 熱度等級劃分

      根據(jù)數(shù)據(jù)擬合挖掘出的數(shù)據(jù)分布規(guī)律,按照二八定律劃分網(wǎng)絡小說綜合熱度評分HP,將綜合熱度評分與冷、一般、熱、非常熱四級熱度等級對應。按照熱度評價標準,將抓取到5 649部只有人氣排名而沒有熱度評價的網(wǎng)絡小說進行分類。具體的熱度評價標準及網(wǎng)絡小說作品數(shù)的分類情況如表3所示。

      表3 網(wǎng)絡小說熱度評價標準

      2.4 特征選擇

      為了去除冗余特征,根據(jù)網(wǎng)絡小說的數(shù)據(jù)類型,使用對數(shù)據(jù)分布條件要求更寬松的Spearman秩相關系數(shù)來驗證熱度等級特征與其余特征之間的相關關系,Spearman秩相關系數(shù)公式,如式(6)所示。

      (6)

      其中N為樣本數(shù),di=Xi-Yi。

      將秩相關系數(shù)R的絕對值與Spearman秩相關系數(shù)統(tǒng)計表中的臨界值Wp進行比較,當|R|>Wp時則表明變化趨勢有顯著意義,當|R|<=Wp則表明變化趨勢沒有顯著意義。本文樣本數(shù)N為5649,數(shù)值較大,統(tǒng)計表中沒有給出具體WP,但是在同一顯著水平下,隨著樣本數(shù)的增大,臨界值減少。當n=30時,α=0.05的置信水平上,查表得:R=0.306。因此判斷,當R值高于0.306時,認為相關關系顯著。具體網(wǎng)絡小說熱度等級特征與其他特征秩相關系數(shù)見表4。

      表4 熱度相關性斯皮爾曼秩相關系數(shù)表

      續(xù)表

      根據(jù)表4特征判斷結果,去除相關關系不顯著的特征,剩余與網(wǎng)絡小說熱度等級特征有顯著相關的特征共有12個,據(jù)此建立預測網(wǎng)絡小說熱度等級的數(shù)學模型。

      2.5 熱度預測意義

      (1) 單獨依靠熱度評價標準判斷熱度的滯后性。由于內容分發(fā)網(wǎng)絡的分發(fā)策略是以預分發(fā)在服務器上的內容來命中用戶對內容的請求,減少用戶因無法從邊緣網(wǎng)絡獲得內容而需要請求源服務器的情況,需要提前預見用戶可能訪問的內容并命中,同時進行熱度內容的推送。而在數(shù)據(jù)生成后的熱度評價將很難對預分發(fā)內容的部署提供參考和指導,同時也無法根據(jù)內容的熱度變化情況提前預見并及時調整分發(fā)策略。

      (2) 通過預測機制的應用。首先,可以降低熱度評價標準中可能存在的人為因素影響。雖然人為刷票的行為在網(wǎng)站監(jiān)督和個人自覺的情況下被禁止,但這種行為仍然不可避免。由于無法從數(shù)據(jù)中判斷熱度評價標準中選取的七個特征變量是否存在刷票行為,因此借助作者創(chuàng)作字數(shù)、連載狀態(tài)等更多維度的綜合衡量,可以有效識別網(wǎng)絡小說真實熱度等級。其次,本文構建熱度評價標準時對網(wǎng)絡小說熱度等級的分值對照是依照初始知識庫中501部網(wǎng)絡小說的數(shù)據(jù)擬合得到的,這個標準對5 649部網(wǎng)絡小說的適用情況是需要通過機器學習來進一步更新特征權重和規(guī)律來獲得更準確的預測模型。

      因此,熱度評價標準是作為預測機制應用下的基礎構建,是為了實現(xiàn)對網(wǎng)絡小說熱度預測,從而為預分發(fā)內容的判斷進行的必要過程,對網(wǎng)絡小說內容分發(fā)策略的部署提供有效參考和指導。

      3 數(shù)據(jù)挖掘

      鑒于以上分析,當新獲取網(wǎng)絡小說信息時,根據(jù)相關性檢驗,選取作者號召力、評論數(shù)、累計創(chuàng)作字數(shù)、連載狀態(tài)、月票數(shù)量、作者創(chuàng)作作品數(shù)、周推薦數(shù)、總點擊量、總推薦數(shù)、總字數(shù)、總打賞人數(shù)、會員周點擊數(shù)共12個特征對網(wǎng)絡小說熱度等級建立預測模型。

      由于本文是針對網(wǎng)絡小說熱度四個等級進行預測,屬于分類預測,因此選擇貝葉斯網(wǎng)絡、邏輯回歸、隨機森林共三種典型分類算法。在WEKA數(shù)據(jù)挖掘平臺進行十折交叉驗證預測對比研究,旨在選擇更適用CDN的算法。[21]

      3.1 模型建立

      貝葉斯網(wǎng)絡通過學習尋找最佳樹結構,可以用來表示和推理不確定條件,同時貝葉斯網(wǎng)絡在概括樸素貝葉斯分類器的概率分布效果很好,能清晰地反映獨立性,作為機器學習工具有很好的分類優(yōu)勢[22]。基于貝葉斯網(wǎng)絡建立的網(wǎng)絡小說熱度預測模型如圖5所示。

      圖5 貝葉斯網(wǎng)絡

      在根據(jù)票房劃分成功電影的預測中,邏輯回歸有很好的應用[23],因此在這里選擇了邏輯回歸作為對比算法建立模型,邏輯回歸是一種廣義線性回歸,通過函數(shù)L將w*x+b對應一個隱狀態(tài)p,p=L(w*x+b),然后根據(jù)p與1-p的大小決定因變量的值。其本質是為了改變取值區(qū)間的矛盾和因變量、自變量之間關系而進行對數(shù)變換。實踐表明,變換后的因變量與自變量之間一般呈線性關系,從根本上是為解決因變量不是連續(xù)變量的約束問題?;谶壿嫽貧w建立的網(wǎng)絡小說熱度預測模型如表5所示。

      表5 邏輯回歸模型

      邏輯回歸模型中,Coefficients代表在Class分類下的變量對administration=1的系數(shù)。Odds Ratios代表在Class分類下的變量對administration=1的勝率。系數(shù)b與Odds Ratios的關系式,如式(7)所示。

      Odds Ratios=eCoefficients

      (7)

      Class=1代表熱度等級為冷,Class=2代表熱度等級為一般,Class=3代表熱度等級為熱,其余樣本認為熱度等級為非常熱。以Total clicks變量Class=3的Odds Ratios的值為8.410 3為例解釋邏輯回歸模型: 在其余變量都相同的條件下,總點擊量每提高一個單位,網(wǎng)絡小說熱度分類為熱的幾率提高841.03%。說明在其他條件都相同的情況下,點擊量越多,網(wǎng)絡小說熱度等級越高,符合實際情況。通過對邏輯回歸模型的觀察可以發(fā)現(xiàn),要判斷Class=3,即網(wǎng)絡小說熱度等級為熱時,影響熱度等級判斷的變量數(shù)比判斷Class=1和Class=2的變量數(shù)更多,說明判斷網(wǎng)絡小說熱度等級越高,需要考慮的變量越多,這與本文對熱度是一個綜合性指標的判斷相吻合。

      隨機森林是結合Bagging方法和決策樹方法建立的多功能機器學習算法[24],在隨機森林中,不同于CART模型只生成唯一的樹,而是生成很多決策樹,當基于某種屬性對對象進行分類判別時,隨機森林中的每一棵決策樹都會做出自我的分類選擇,進行“投票”,輸出結果取決于投票結果,分類選項的票數(shù)多者勝出,輸出該分類選項。

      隨機森林對變量(列)和數(shù)據(jù)(行)的隨機化使用可以避免過擬合現(xiàn)象,擁有較強的抗噪聲能力,無須對數(shù)據(jù)集進行規(guī)范化,可以大量處理高維數(shù)據(jù),針對本文網(wǎng)絡小說擁有12個特征類型數(shù)據(jù)有著很好的降維效果,同時輸出相關屬性的重要程度。本文通過隨機森林算法建立了100棵決策樹模型,每一棵樹帶有四個隨機特征,oob錯誤率為0.029,由于隨機森林無法顯示全部決策樹,在此不以展示。

      3.2 實驗結果

      由于在這些特征中包括數(shù)值特征與布爾型特征,總點擊量和總推薦量等數(shù)值特征數(shù)值過大,會影響布爾型特征在模型中的權重比例,因此對數(shù)值較大的特征進行MathExpression-E(A-MIN)/(MAX-MIN)數(shù)據(jù)預處理,將數(shù)值轉化到0至1之間。通過貝葉斯網(wǎng)絡、Logistic回歸、隨機森林三種算法對抓取到的5 649部網(wǎng)絡小說數(shù)據(jù)的熱度預測結果顯示如表6所示。

      表6 網(wǎng)絡小說熱度預測結果對比

      對比預測結果可以看出,隨機森林算法在分類正確率及錯誤率上明顯優(yōu)于貝葉斯網(wǎng)絡與邏輯回歸,其中Kappa檢驗是評價一致性的測量值,其大小是用一個由漸進及標準誤差構成的t統(tǒng)計量決定,當Kappa>0.75表示好的一致性(Kappa最大值為1),隨機森林算法的Kappa值達到0.952 2,說明兩次判斷的一致性很好。在其余誤差檢驗中,隨機森林算法都有著較好的顯示效果。

      這樣的預測結果雖然讓人欣喜,但這個結果是否令人足夠信服?本文從隨機森林算法原理對預測結果進行分析判斷,認為這樣一個結果是科學可信的,依據(jù)有以下幾點。

      (1) 隨機森林算法通過自助法(bootstrap)重采樣技術,使用決策樹作為弱學習器。從節(jié)點上所有的N個樣本特征中有放回地隨機選擇節(jié)點上的一部分樣本特征,這個數(shù)字小于N,假設為Nsub,生成多個決策樹組成隨機森林。這種有放回的隨機性選擇樣本的方法提高了模型的泛化能力,很好地降低了模型的方差。

      (2) 隨機森林的模型輸出采用投票法,對每一棵決策樹的分類結果進行統(tǒng)計,得到最多票數(shù)的類別或類別之一作為最終模型輸出,由于每一棵決策樹的左右子樹劃分都是根據(jù)最優(yōu)特征劃分,因此投票法輸出的結果更優(yōu),且在訓練后,可以給出各個特征對輸出的重要性。

      (3) 由于在建立每一棵決策樹的過程中,訓練樣本的采集采用了有放回的隨機性采集,保證了隨機性的需求,因此就算沒有進行剪枝,也不會出現(xiàn)過擬合情況。

      綜上所述,可以認為隨機森林算法對網(wǎng)絡小說的熱度預測結果是科學有效的。隨機森林算法對網(wǎng)絡小說熱度的預測結果相比Logistic回歸和貝葉斯網(wǎng)絡算法更優(yōu)。

      3.3 實驗分析

      根據(jù)實驗結果,本文選擇分類正確率達到97.079 1%的隨機森林算法作為網(wǎng)絡小說熱度預測及探尋網(wǎng)絡小說在CDN中的分布方法。如表7所示,為隨機森林預測參數(shù),其中TP Rate是真正率,代表被預測模型預測為正的正樣本,F(xiàn)P Rate是假正率,代表被預測模型預測為正的負樣本。分類器的分類效果越好,TP值越高,F(xiàn)P值越低。在四種熱度預測中,TP值均遠大于FP值,分類效果較好。將系統(tǒng)檢索到的相關文檔數(shù)為A,系統(tǒng)檢索到不相關文檔為B,相關但系統(tǒng)沒有檢索到的文檔為C,精度(Precision)=A/(A+B),召回率(Recall)=A/(A+C),F(xiàn)值(F-Measure)為精度與召回率的調和平均數(shù)。精度、召回率與F值是對分類器分類效果的度量值,值越大,代表結果質量越好,最高為1。

      從表7中可以看出,三種衡量指標值均很高,說明采用隨機森林算法對網(wǎng)絡小說熱度進行預測結果較好。ROC曲線又稱為感受性曲線,它是一個綜合性指標,用于反映連續(xù)變量的敏感性和特異性,通過構圖顯示敏感性與特異性的相互關系。曲線下面積越大,代表準確性越高,在表7中,四種熱度預測的ROC曲線面積反映了建立模型的分類器的分類準確性較高。

      表7 隨機森林分類參數(shù)

      通過混淆矩陣可以更直觀地看出隨機森林分類器對5 649部網(wǎng)絡小說的熱度分類情況,對角線代表分類正確的樣本,分類越集中在對角線,代表分類效果越好,具體的顯示結果如表8所示。

      表8 網(wǎng)絡小說熱度預測混淆矩陣

      預測模型對樣本的預測與樣本真實值匹配度高,分類效果好,具有很好的應用推廣性。

      4 結論

      在CDN系統(tǒng)推(Push)策略中存在由于缺乏網(wǎng)絡小說熱度判斷科學標準,主要依靠管理員的主觀經(jīng)驗判斷而存在預分發(fā)內容頻繁替換的現(xiàn)象。因此造成內容邊緣命中率低、用戶啟動延遲長、內容分發(fā)網(wǎng)絡服務器負擔重而嚴重影響服務質量的問題?;谏鲜鰡栴},考慮到預分發(fā)內容的熱度是直接決定邊緣命中率和用戶啟動延遲的因素,同時考慮到流媒體服務器的緩存策略并不適用于網(wǎng)絡小說服務器的前提下,將研究重點放在對網(wǎng)絡小說熱度的準確預測和判斷的問題上,為預分發(fā)內容的策略部署提供有效的參考和指導。通過建立網(wǎng)絡小說熱度評價標準,采用分類算法對網(wǎng)絡小說進行熱度預測。對比貝葉斯網(wǎng)絡、Logistic回歸與隨機森林三種分類方法對網(wǎng)絡小說熱度預測結果,顯示隨機森林算法預測準確率達到97.079%,有很好的預測效果,更適用于CDN系統(tǒng)對網(wǎng)絡小說熱度的預測。結果表明,表征網(wǎng)絡小說熱度的變量選擇有很好的解釋性,借助本文建立的網(wǎng)絡小說熱度評價標準,采用隨機森林算法對網(wǎng)絡小說進行熱度預測,可以為管理員對預分發(fā)內容熱度的判斷提供科學有效的判斷依據(jù),提前預判并及時調整最優(yōu)部署策略,提高CDN系統(tǒng)服務質量與運作效率。

      猜你喜歡
      網(wǎng)絡小說分類預測
      無可預測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預測卷(A卷)
      選修2-2期中考試預測卷(B卷)
      分類算一算
      網(wǎng)絡小說標桿作品2019
      分類討論求坐標
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      從影視改編看網(wǎng)絡小說的人物形象重塑——以《花千骨》為例
      網(wǎng)絡小說與明清小說之比較
      昌黎县| 遂宁市| 辰溪县| 宁武县| 舟山市| 冀州市| 遂平县| 仪征市| 宜黄县| 咸宁市| 綦江县| 抚松县| 临朐县| 喜德县| 奉新县| 汤阴县| 宣威市| 祥云县| 安义县| 英德市| 陆丰市| 衢州市| 庄河市| 阜阳市| 寿阳县| 太仆寺旗| 建始县| 驻马店市| 华蓥市| 五台县| 西和县| 江安县| 临潭县| 武汉市| 金秀| 历史| 游戏| 浦东新区| 井陉县| 张掖市| 双辽市|