• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于YouTube視頻分享系統(tǒng)的信息挖掘

      2018-06-20 03:34:56盧紅波錢亞冠
      關(guān)鍵詞:視頻流概率分布編碼

      盧紅波,錢亞冠,馬 駿

      (浙江科技學(xué)院曙光大數(shù)據(jù)學(xué)院,杭州310023)

      隨著Web2.0技術(shù)的成熟以及智能手機(jī)的普及,用戶可以通過視頻分享網(wǎng)站觀看、創(chuàng)建、共享和發(fā)布自己拍攝的視頻文件[1]。據(jù)統(tǒng)計(jì),目前互聯(lián)網(wǎng)流量中大概有25%~40%的成分是視頻流[2]。其中全球著名的視頻分享網(wǎng)站YouTube在視頻流量中占有很大的比例,因此也成為了網(wǎng)絡(luò)界重點(diǎn)研究和關(guān)注的對象。像YouTube這樣的視頻分享服務(wù)提供商與傳統(tǒng)上的VoD(video on demand)系統(tǒng)存在著很大的區(qū)別,最顯著的不同是YouTube具有在線社交網(wǎng)絡(luò)的特點(diǎn)[3]。在YouTube上,用戶可以自由地上傳自己拍攝的視頻文件,并分享給其他用戶;而其他用戶在看完視頻后,可以對其發(fā)表評論和評分。這種用戶之間的交互性是傳統(tǒng)VoD系統(tǒng)所不具備的。除了在用戶的交互性上存在差異外,兩者在傳輸協(xié)議上也存在差異[4]。YouTube采用HTTP/TCP協(xié)議從Web服務(wù)器將視頻流信息傳送到客戶端;而VoD系統(tǒng)則采用RTP/UDP協(xié)議,從專用的視頻服務(wù)器上將視頻流信息傳送到客戶端。YouTube在傳輸層采用面向連接的TCP協(xié)議,而在應(yīng)用層則采用傳統(tǒng)上用于傳輸HTML文件的HTTP協(xié)議封裝視頻流數(shù)據(jù),因此其行為特征和流量模式必然有別于普通的HTTP流量。由于商業(yè)上的保密性,YouTube等視頻分享服務(wù)商并沒有公開具體的技術(shù)細(xì)節(jié)[5]。因此,研究人員只能通過網(wǎng)絡(luò)爬蟲的方式收集分享視頻系統(tǒng)的元數(shù)據(jù)或通過被動測量的方式從網(wǎng)絡(luò)節(jié)點(diǎn)上獲取視頻數(shù)據(jù)。以往很多研究工作集中在服務(wù)器元數(shù)據(jù)的統(tǒng)計(jì)特性上,如視頻的長度、觀看的數(shù)量等信息或從流量中抽取的信息,如視頻流的持續(xù)長度等[6-9]。但我們的研究發(fā)現(xiàn),從YouTube內(nèi)容服務(wù)器上挖掘出的信息和從網(wǎng)絡(luò)節(jié)點(diǎn)中挖掘出的信息并不完全一致,視頻長度和觀看時(shí)間,編碼率和下載速率等均存在不一致性,服務(wù)器上的靜態(tài)信息不能完整地反映用戶的動態(tài)行為特征。而用戶的動態(tài)行為分析對提高視頻傳輸性能,設(shè)計(jì)視頻緩存算法和內(nèi)容分發(fā)網(wǎng)絡(luò)具有重要的意義。因此,本文綜合這兩方面的數(shù)據(jù)來進(jìn)行對比分析。

      1 數(shù)據(jù)集

      第一個(gè)數(shù)據(jù)集是通過YouTube提供的API[10],利用網(wǎng)絡(luò)爬蟲技術(shù)遍歷所有的視頻文件后抽取的元數(shù)據(jù)。這些元數(shù)據(jù)包括視頻ID、上傳者、視頻年齡、視頻類型、視頻長度、觀看量、編碼率、評級、評論、相關(guān)視頻等。我們獲得2個(gè)不同時(shí)間跨度的流量數(shù)據(jù)集,其中一個(gè)數(shù)據(jù)子集的時(shí)間跨度為14 d,另一個(gè)數(shù)據(jù)子集的時(shí)間跨度為1 d。第二個(gè)數(shù)據(jù)集是從網(wǎng)絡(luò)中的路由器上采集到的流量數(shù)據(jù),分離出YouTube視頻流量。我們通過五元組(源IP、源端口、目的IP、目的端口、協(xié)議號)來確定網(wǎng)絡(luò)流,又通過接收到第一個(gè)SYN包確定該網(wǎng)絡(luò)流的起始,接收到FIN包或超過某個(gè)時(shí)間間隔未收到數(shù)據(jù)包確定為網(wǎng)絡(luò)流的結(jié)束。該數(shù)據(jù)集包含的YouTube視頻網(wǎng)絡(luò)流的統(tǒng)計(jì)屬性有源IP地址、源端口號、目的IP地址、目的端口號、視頻傳輸開始時(shí)間、結(jié)束時(shí)間、數(shù)據(jù)包數(shù)、數(shù)據(jù)包平均大小、速率等。

      2 從服務(wù)器端分析用戶行為模式

      2.1 用戶請求數(shù)模型

      用戶請求的到達(dá)過程是用戶行為模式的主要特征,深入分析用戶請求的到達(dá)過程是容量規(guī)劃、用戶接納策略等的重要基礎(chǔ)。因此,我們對兩個(gè)不同時(shí)間跨度的流量數(shù)據(jù)集進(jìn)行了分析,其中一個(gè)數(shù)據(jù)集的時(shí)間跨度為14 d,共有16 637個(gè)用戶的611 968個(gè)視頻觀看請求;而另一個(gè)數(shù)據(jù)集的時(shí)間跨度為1 d,共有2 377個(gè)用戶發(fā)送的18 750個(gè)請求。

      用戶的視頻觀看請求數(shù)量是用戶的一個(gè)重要行為特征。圖1顯示了每個(gè)用戶分別在14 d和1 d內(nèi)發(fā)送的請求數(shù)累積概率分布(cumulative distribution function,CDF)情況,是典型的偏斜分布。由圖1可知,80%的用戶在1 d內(nèi)發(fā)出的觀看請求數(shù)少于10,在14 d內(nèi)少于40。圖2是雙對數(shù)坐標(biāo)下用戶請求數(shù)和用戶數(shù)之間的關(guān)系,由此可知這是典型的冪律關(guān)系。我們用Pareto、Weibull和Log-Normal這3種經(jīng)典偏斜分布對上述用戶請求分布建模,發(fā)現(xiàn)Log-Normal分布的擬合度最佳。其中14 d數(shù)據(jù)的Log-Normal分布的參數(shù) μ=2.353 7,σ=1.576 9;1 d 數(shù)據(jù)的分布參數(shù) μ=1.386 7,σ=1.130 3。

      圖1 單個(gè)用戶的請求數(shù)的累積概率分布Fig.1 CDF of request per client

      圖2 用戶數(shù)和請求數(shù)之間的冪律關(guān)系Fig.2 Scatter graph of requests and clients

      2.2 用戶請求的到達(dá)過程

      由于服務(wù)器的服務(wù)策略并不區(qū)分具體的用戶,它關(guān)注的僅是用戶請求的到達(dá)過程,因此對請求到達(dá)過程的建模對認(rèn)識用戶的行為特征及構(gòu)建高效的服務(wù)策略具有重要的意義。圖3顯示了用戶請求在內(nèi)容服務(wù)器端到達(dá)間隔的累積概率分布。通過擬合度最優(yōu)檢驗(yàn),Log-Normal分布最適合建模請求到達(dá)間隔,其中14 d數(shù)據(jù)集上的模型參數(shù) μ=-0.020 37,σ=1.195 2;1 d數(shù)據(jù)集上的模型參數(shù) μ=0.859 39,σ=1.169 6。上述概率模型的分析推翻了傳統(tǒng)上認(rèn)為請求到達(dá)間隔服從指數(shù)分布的假設(shè),即認(rèn)為到達(dá)過程是Poisson過程,例如文獻(xiàn)[11]把Web會話的到達(dá)建立為Poisson過程,即認(rèn)為請求到達(dá)過程是長相關(guān)的(long-range dependent,LRD)。但是我們的分析發(fā)現(xiàn),盡管YouTube等視頻分享網(wǎng)站的采用了HTTP協(xié)議,但其用戶行為卻具有自身特點(diǎn),與普通的Web用戶并不一致,因此不適合用以往研究Web的結(jié)論和假設(shè)來研究視頻分享服務(wù)。

      2.3 連續(xù)請求之間的空閑期

      圖3 請求到達(dá)間隔的累積概率分布Fig.3 CDF of request inter-arrival time

      用戶在整個(gè)視頻觀看會話過程中大致可以分為搜索視頻、發(fā)出觀看請求、觀看視頻、思考、評論視頻或評分等行為,這幾個(gè)階段可能是反復(fù)進(jìn)行的。本文把觀看視頻的時(shí)間段稱為激活期,而把連續(xù)2次觀看期間的搜索、思考、評論等稱為空閑期。在研究Web用戶行為的論文中把前者稱為on階段,后者為off階段,采用on/off模型來描述這種過程的變換[12]。由于視頻分享系統(tǒng)具有社交網(wǎng)絡(luò)的特點(diǎn),用戶除了搜索、瀏覽信息外,還會有主動的評論、評分等交互過程,行為比普通的Web瀏覽更加豐富。因此,我們認(rèn)為在空閑期更能反映視頻分享系統(tǒng)的用戶行為特征。

      圖4 空閑期的累積概率分布Fig.4 CDF of idle time between viewing actions of per user

      圖4 給出了空閑期的累積概率分布。假設(shè)空閑期超過1 h的不屬于2個(gè)連續(xù)請求之間的會話,這類情況不計(jì)入本文提出的有研究價(jià)值的空閑期??臻e期少于10 s的被認(rèn)為沒有評論或評分行為發(fā)生,即用戶觀看完一個(gè)視頻后,緊接著觀看另一個(gè)視頻。從圖4可知,這種情況只占到15%左右。發(fā)生在空閑期的典型行為是搜索新視頻,假設(shè)這類行為的空閑期區(qū)間為[10,400]s,從上述統(tǒng)計(jì)分析發(fā)現(xiàn)約占55%~65%。而發(fā)表評論等行為往往需要更多的時(shí)間,大約占10%~15%的比例。由此可以推斷,大多數(shù)的用戶在空閑期的主要行為是搜索新視頻,而發(fā)表評論的只占少數(shù)。

      3 從網(wǎng)絡(luò)端分析分享視頻系統(tǒng)的特點(diǎn)

      3.1 視頻長度和觀看時(shí)間

      視頻長度即完整播放該視頻需要的時(shí)間,在上傳視頻到內(nèi)容服務(wù)器時(shí)往往作為一個(gè)描述該視頻的元數(shù)據(jù)保存在服務(wù)器上。以往的研究多把視頻長度作為一個(gè)靜態(tài)的特征進(jìn)行研究,而忽略了用戶實(shí)際觀看行為的模式。大多數(shù)用戶并不會從頭到尾完整地觀看整個(gè)視頻,有的用戶僅觀看開頭的一部分,而有的用戶則喜歡以快進(jìn)的方式快速瀏覽。因此,從服務(wù)器端獲得的關(guān)于視頻長度的信息并不能衡量用戶的實(shí)際觀看時(shí)間。

      為了分析用戶的實(shí)際觀看時(shí)間,我們根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)中獲得的YouTube視頻流量數(shù)據(jù),用數(shù)據(jù)流的持續(xù)時(shí)間來衡量用戶的實(shí)際觀看時(shí)間。圖5顯示了從網(wǎng)絡(luò)中獲得的YouTube視頻流持續(xù)時(shí)間和視頻內(nèi)容服務(wù)器上獲得的視頻長度的累積概率分布,從中可知,網(wǎng)絡(luò)中獲得的2個(gè)數(shù)據(jù)集的持續(xù)時(shí)間在概率分布上非常相似,而與視頻內(nèi)容服務(wù)器上獲得的視頻長度的分布卻存在很大的差異。我們進(jìn)一步發(fā)現(xiàn),大多數(shù)視頻并沒有被用戶看完,如80%的觀看時(shí)間少于100 s,而80%的視頻長度卻超過300 s。這一發(fā)現(xiàn)進(jìn)一步印證了大多數(shù)用戶沒有完整看視頻的行為模式。

      圖6給出了在雙對數(shù)坐標(biāo)系下觀看時(shí)間和視頻長度的互補(bǔ)累積概率分布,由此可知,對于長度超過10 min的視頻,用戶的觀看時(shí)間與視頻長度具有相似的概率分布特性。這意味著當(dāng)視頻長度超過10 min時(shí),用戶更愿意看完視頻內(nèi)容,即長度超過10 min的視頻更能吸引用戶看完整個(gè)視頻。這個(gè)發(fā)現(xiàn)有助于更好地設(shè)計(jì)高效的視頻緩存系統(tǒng)和調(diào)度策略。

      圖5 視頻長度和實(shí)際觀看時(shí)間的累積概率分布Fig.5 CDF of viewing duration and video length

      圖6 視頻長度和實(shí)際觀看時(shí)間的互補(bǔ)累積概率分布Fig.6 CCDF of viewing duration and video length

      3.2 編碼率和下載速率

      為了節(jié)省存儲空間和帶寬,YouTube上的視頻都采用H.264編碼器進(jìn)行了壓縮。編碼率和圖像的質(zhì)量直接相關(guān),更低的編碼率可以獲得更高的壓縮比,但代價(jià)是犧牲圖像的畫面質(zhì)量。反之,更高的編碼率需要更高的網(wǎng)絡(luò)帶寬來傳輸視頻。為此,YouTube必須在圖像的分辨率和網(wǎng)絡(luò)的可用帶寬之間做出合理的平衡。圖7給出了YouTube視頻編碼率和下載速率的累積概率分布。由此可知,大約80%的視頻其編碼率在很窄的范圍:[285,350]kB/s。這意味著YouTube采用的是中等編碼率來平衡畫面質(zhì)量和傳輸帶寬。

      YouTube上的視頻文件是典型的流式媒體,采用FLV(Adobe flash video)格式可使用戶在瀏覽器上方便地觀看視頻。為了使用戶在視頻還沒有完全下載完之前就可觀看,YouTube采用了累進(jìn)下載技術(shù),即只要在緩沖區(qū)裝入足夠的視頻就可以啟動視頻播放,余下的視頻內(nèi)容可以邊播放邊下載[13-14]。因此,只要保證下載速率略大于編碼率就可以保證播放過程不出現(xiàn)停頓。從圖7可知,99%的視頻流下載速率大于編碼率。這一方面反映出傳輸視頻的網(wǎng)絡(luò)狀況,另一方面反映出HTTP/TCP流控機(jī)制。由前面的分析可知,大多數(shù)用戶并不看完完整的視頻,緩存中的視頻不會再被觀看。因此,過高的下載速率反而會浪費(fèi)大量帶寬。為此,除了采用TCP進(jìn)行下載速率的流控機(jī)制外,推斷YouTube還有自己的速率控制機(jī)制。在圖7中,下載速率的CDF曲線有2個(gè)接近垂直的陡峭上升部分,其中一個(gè)表明大約有20%的視頻流速率在500 kB/s,另一個(gè)則表明48%的視頻流速率在1 250 kB/s,即大約有70%的視頻流下載速率控制在500 kB/s或1 250 kB/s。因此我們可以推斷YouTube除了采用TCP流控機(jī)制外,在服務(wù)器端還有專門的下載速率控制機(jī)制。由此我們可以得出如下結(jié)論:在保證圖像質(zhì)量的前提下,合理的下載速率控制可以節(jié)省大量的網(wǎng)絡(luò)帶寬資源,而過快的速率對播放視頻并沒有額外的好處。

      圖7 視頻編碼率和下載速率的累積概率分布Fig.7 CDF of video coding rate and download rate

      4 結(jié)論

      我們通過YouTube視頻服務(wù)器的數(shù)據(jù)和網(wǎng)絡(luò)流量數(shù)據(jù)來研究用戶行為和視頻服務(wù)器的機(jī)制,通過比較研究挖掘出有價(jià)值的信息。結(jié)果表明,從YouTube內(nèi)容服務(wù)器上挖掘出的信息和從網(wǎng)絡(luò)節(jié)點(diǎn)中挖掘出的信息并不完全一致,因此,本文綜合這兩方面的數(shù)據(jù)來進(jìn)行對比分析。視頻長度和觀看時(shí)間,編碼率和下載速率等均存在不一致性,服務(wù)器上的靜態(tài)信息不能完整地反映用戶的動態(tài)行為特征。而用戶的動態(tài)行為分析對提高視頻傳輸性能,設(shè)計(jì)視頻緩存算法和內(nèi)容分發(fā)網(wǎng)絡(luò)具有重要的意義,通過此研究可為提高視頻傳輸性能,如視頻緩存和內(nèi)容分發(fā)網(wǎng)絡(luò)的設(shè)計(jì)提供參考。

      [1] JIANG J,SEKAR V,ZHANG H.Improving fairness,efficiency,and stability in http-based adaptive video streaming with festive[C]//Proceedings of the 8th international conference on Emerging networking experiments and technologies.Nice:ACM,2012:97.

      [2] MAIER G,F(xiàn)ELDMANN A,PAXSON V,et al.On dominant characteristics of residential broadband internet traffic[C]//Proceedings of the 9th ACM SIGCOMM conference on Internet measurement.Chicago:ACM,2009:90.

      [3] SPART Z,JAMEST,SU L,et al.YouTube,social norms and perceived salience of climate change in the American mind[J].Environmental Communication,2017,11(1):1.

      [4] AMEUR C B,MORY E,COUSIN B,et al.TcpHas:TCP for HTTP adaptive streaming[C]//2017 IEEE International Conference on Communications(ICC).Paris:IEEE,2017:1.

      [5] CHENG X,MEHRDAD F,MA X Q,et al.Understanding the YouTube partners and their data:measurement and analysis[J].China Communications,2014,11(12):26.

      [6] CHENG X,DALE C,LIU J.Statistics and social network of youtube videos[C]//16th IEEE International Workshop on Quality of Service.Enschede:IEEE,2008:229.

      [7] ADHIKARI V,JAIN S,CHEN Y,et al.Vivisecting youtube:an active measurement study[C]//The 31st Annual IEEE International Conference on Computer Communications.Orlando:IEEE,2012:2521.

      [8] GORCITZ R A.A data-driven analysis of YouTube community features[C]//Asian Internet Engineering Conference.Bangkok:ACM,2011:17.

      [9] CHE X H,IP B,LIN L.Bangkok:A survey of current YouTube video characteristics[J].IEEE Multimedia,2015,22(2):56.

      [10] 夏凝.基于CDN的VoD服務(wù)用戶行為分析與系統(tǒng)性能優(yōu)化技術(shù)研究[D].武漢:華中科技大學(xué),2010.

      [11] WAMSER F,CASASP,SEUFERT M,et al.Modeling the YouTube stack:from packets to quality of experience[J].Computer Networks,2016,109(2):211.

      [12] ZVIRONIENE A,NAVICKAS Z,RINDZEVICIUS R.Bursty traffic simulation by ON-OFF model[J].Elektronika Ir Elektrotechnika,2006,6(70):65.

      [13] CHEN L,ZHOU Y P,CHIU D M.Smart streaming for online video services[J].IEEE Transactions on Multimedia,2015,17(4):485.

      [14] KRISHNAPPA D K,ZINK M,SITARAMAN R K.Optimizing the video transcoding workflow in content delivery networks[C]//Proceedings of the 6th ACM Multimedia Systems Conference.Portland:ACM,2015:37.

      猜你喜歡
      視頻流概率分布編碼
      邊緣實(shí)時(shí)視頻流分析系統(tǒng)配置動態(tài)調(diào)整算法研究
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      離散型概率分布的ORB圖像特征點(diǎn)誤匹配剔除算法
      基于視頻流傳輸中的擁塞控制研究
      《全元詩》未編碼疑難字考辨十五則
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      關(guān)于概率分布函數(shù)定義的辨析
      科技視界(2016年19期)2017-05-18 10:18:46
      基于概率分布的PPP項(xiàng)目風(fēng)險(xiǎn)承擔(dān)支出測算
      美國視頻流市場首現(xiàn)飽和征兆
      马龙县| 三原县| 且末县| 肇源县| 通城县| 宝丰县| 肃宁县| 磐石市| 岐山县| 宜君县| 水富县| 射洪县| 南投市| 浠水县| 汤原县| 启东市| 正蓝旗| 太谷县| 长兴县| 湖州市| 双桥区| 潢川县| 威远县| 安西县| 伊川县| 桃江县| 苍梧县| 沈阳市| 西和县| 昭平县| 西贡区| 商洛市| 武城县| 阿拉善左旗| 南溪县| 枞阳县| 西和县| 苏尼特右旗| 巢湖市| 霍州市| 乌兰县|