盧紅波,錢亞冠,馬 駿
(浙江科技學(xué)院曙光大數(shù)據(jù)學(xué)院,杭州310023)
隨著Web2.0技術(shù)的成熟以及智能手機(jī)的普及,用戶可以通過視頻分享網(wǎng)站觀看、創(chuàng)建、共享和發(fā)布自己拍攝的視頻文件[1]。據(jù)統(tǒng)計(jì),目前互聯(lián)網(wǎng)流量中大概有25%~40%的成分是視頻流[2]。其中全球著名的視頻分享網(wǎng)站YouTube在視頻流量中占有很大的比例,因此也成為了網(wǎng)絡(luò)界重點(diǎn)研究和關(guān)注的對象。像YouTube這樣的視頻分享服務(wù)提供商與傳統(tǒng)上的VoD(video on demand)系統(tǒng)存在著很大的區(qū)別,最顯著的不同是YouTube具有在線社交網(wǎng)絡(luò)的特點(diǎn)[3]。在YouTube上,用戶可以自由地上傳自己拍攝的視頻文件,并分享給其他用戶;而其他用戶在看完視頻后,可以對其發(fā)表評論和評分。這種用戶之間的交互性是傳統(tǒng)VoD系統(tǒng)所不具備的。除了在用戶的交互性上存在差異外,兩者在傳輸協(xié)議上也存在差異[4]。YouTube采用HTTP/TCP協(xié)議從Web服務(wù)器將視頻流信息傳送到客戶端;而VoD系統(tǒng)則采用RTP/UDP協(xié)議,從專用的視頻服務(wù)器上將視頻流信息傳送到客戶端。YouTube在傳輸層采用面向連接的TCP協(xié)議,而在應(yīng)用層則采用傳統(tǒng)上用于傳輸HTML文件的HTTP協(xié)議封裝視頻流數(shù)據(jù),因此其行為特征和流量模式必然有別于普通的HTTP流量。由于商業(yè)上的保密性,YouTube等視頻分享服務(wù)商并沒有公開具體的技術(shù)細(xì)節(jié)[5]。因此,研究人員只能通過網(wǎng)絡(luò)爬蟲的方式收集分享視頻系統(tǒng)的元數(shù)據(jù)或通過被動測量的方式從網(wǎng)絡(luò)節(jié)點(diǎn)上獲取視頻數(shù)據(jù)。以往很多研究工作集中在服務(wù)器元數(shù)據(jù)的統(tǒng)計(jì)特性上,如視頻的長度、觀看的數(shù)量等信息或從流量中抽取的信息,如視頻流的持續(xù)長度等[6-9]。但我們的研究發(fā)現(xiàn),從YouTube內(nèi)容服務(wù)器上挖掘出的信息和從網(wǎng)絡(luò)節(jié)點(diǎn)中挖掘出的信息并不完全一致,視頻長度和觀看時(shí)間,編碼率和下載速率等均存在不一致性,服務(wù)器上的靜態(tài)信息不能完整地反映用戶的動態(tài)行為特征。而用戶的動態(tài)行為分析對提高視頻傳輸性能,設(shè)計(jì)視頻緩存算法和內(nèi)容分發(fā)網(wǎng)絡(luò)具有重要的意義。因此,本文綜合這兩方面的數(shù)據(jù)來進(jìn)行對比分析。
第一個(gè)數(shù)據(jù)集是通過YouTube提供的API[10],利用網(wǎng)絡(luò)爬蟲技術(shù)遍歷所有的視頻文件后抽取的元數(shù)據(jù)。這些元數(shù)據(jù)包括視頻ID、上傳者、視頻年齡、視頻類型、視頻長度、觀看量、編碼率、評級、評論、相關(guān)視頻等。我們獲得2個(gè)不同時(shí)間跨度的流量數(shù)據(jù)集,其中一個(gè)數(shù)據(jù)子集的時(shí)間跨度為14 d,另一個(gè)數(shù)據(jù)子集的時(shí)間跨度為1 d。第二個(gè)數(shù)據(jù)集是從網(wǎng)絡(luò)中的路由器上采集到的流量數(shù)據(jù),分離出YouTube視頻流量。我們通過五元組(源IP、源端口、目的IP、目的端口、協(xié)議號)來確定網(wǎng)絡(luò)流,又通過接收到第一個(gè)SYN包確定該網(wǎng)絡(luò)流的起始,接收到FIN包或超過某個(gè)時(shí)間間隔未收到數(shù)據(jù)包確定為網(wǎng)絡(luò)流的結(jié)束。該數(shù)據(jù)集包含的YouTube視頻網(wǎng)絡(luò)流的統(tǒng)計(jì)屬性有源IP地址、源端口號、目的IP地址、目的端口號、視頻傳輸開始時(shí)間、結(jié)束時(shí)間、數(shù)據(jù)包數(shù)、數(shù)據(jù)包平均大小、速率等。
用戶請求的到達(dá)過程是用戶行為模式的主要特征,深入分析用戶請求的到達(dá)過程是容量規(guī)劃、用戶接納策略等的重要基礎(chǔ)。因此,我們對兩個(gè)不同時(shí)間跨度的流量數(shù)據(jù)集進(jìn)行了分析,其中一個(gè)數(shù)據(jù)集的時(shí)間跨度為14 d,共有16 637個(gè)用戶的611 968個(gè)視頻觀看請求;而另一個(gè)數(shù)據(jù)集的時(shí)間跨度為1 d,共有2 377個(gè)用戶發(fā)送的18 750個(gè)請求。
用戶的視頻觀看請求數(shù)量是用戶的一個(gè)重要行為特征。圖1顯示了每個(gè)用戶分別在14 d和1 d內(nèi)發(fā)送的請求數(shù)累積概率分布(cumulative distribution function,CDF)情況,是典型的偏斜分布。由圖1可知,80%的用戶在1 d內(nèi)發(fā)出的觀看請求數(shù)少于10,在14 d內(nèi)少于40。圖2是雙對數(shù)坐標(biāo)下用戶請求數(shù)和用戶數(shù)之間的關(guān)系,由此可知這是典型的冪律關(guān)系。我們用Pareto、Weibull和Log-Normal這3種經(jīng)典偏斜分布對上述用戶請求分布建模,發(fā)現(xiàn)Log-Normal分布的擬合度最佳。其中14 d數(shù)據(jù)的Log-Normal分布的參數(shù) μ=2.353 7,σ=1.576 9;1 d 數(shù)據(jù)的分布參數(shù) μ=1.386 7,σ=1.130 3。
圖1 單個(gè)用戶的請求數(shù)的累積概率分布Fig.1 CDF of request per client
圖2 用戶數(shù)和請求數(shù)之間的冪律關(guān)系Fig.2 Scatter graph of requests and clients
由于服務(wù)器的服務(wù)策略并不區(qū)分具體的用戶,它關(guān)注的僅是用戶請求的到達(dá)過程,因此對請求到達(dá)過程的建模對認(rèn)識用戶的行為特征及構(gòu)建高效的服務(wù)策略具有重要的意義。圖3顯示了用戶請求在內(nèi)容服務(wù)器端到達(dá)間隔的累積概率分布。通過擬合度最優(yōu)檢驗(yàn),Log-Normal分布最適合建模請求到達(dá)間隔,其中14 d數(shù)據(jù)集上的模型參數(shù) μ=-0.020 37,σ=1.195 2;1 d數(shù)據(jù)集上的模型參數(shù) μ=0.859 39,σ=1.169 6。上述概率模型的分析推翻了傳統(tǒng)上認(rèn)為請求到達(dá)間隔服從指數(shù)分布的假設(shè),即認(rèn)為到達(dá)過程是Poisson過程,例如文獻(xiàn)[11]把Web會話的到達(dá)建立為Poisson過程,即認(rèn)為請求到達(dá)過程是長相關(guān)的(long-range dependent,LRD)。但是我們的分析發(fā)現(xiàn),盡管YouTube等視頻分享網(wǎng)站的采用了HTTP協(xié)議,但其用戶行為卻具有自身特點(diǎn),與普通的Web用戶并不一致,因此不適合用以往研究Web的結(jié)論和假設(shè)來研究視頻分享服務(wù)。
圖3 請求到達(dá)間隔的累積概率分布Fig.3 CDF of request inter-arrival time
用戶在整個(gè)視頻觀看會話過程中大致可以分為搜索視頻、發(fā)出觀看請求、觀看視頻、思考、評論視頻或評分等行為,這幾個(gè)階段可能是反復(fù)進(jìn)行的。本文把觀看視頻的時(shí)間段稱為激活期,而把連續(xù)2次觀看期間的搜索、思考、評論等稱為空閑期。在研究Web用戶行為的論文中把前者稱為on階段,后者為off階段,采用on/off模型來描述這種過程的變換[12]。由于視頻分享系統(tǒng)具有社交網(wǎng)絡(luò)的特點(diǎn),用戶除了搜索、瀏覽信息外,還會有主動的評論、評分等交互過程,行為比普通的Web瀏覽更加豐富。因此,我們認(rèn)為在空閑期更能反映視頻分享系統(tǒng)的用戶行為特征。
圖4 空閑期的累積概率分布Fig.4 CDF of idle time between viewing actions of per user
圖4 給出了空閑期的累積概率分布。假設(shè)空閑期超過1 h的不屬于2個(gè)連續(xù)請求之間的會話,這類情況不計(jì)入本文提出的有研究價(jià)值的空閑期??臻e期少于10 s的被認(rèn)為沒有評論或評分行為發(fā)生,即用戶觀看完一個(gè)視頻后,緊接著觀看另一個(gè)視頻。從圖4可知,這種情況只占到15%左右。發(fā)生在空閑期的典型行為是搜索新視頻,假設(shè)這類行為的空閑期區(qū)間為[10,400]s,從上述統(tǒng)計(jì)分析發(fā)現(xiàn)約占55%~65%。而發(fā)表評論等行為往往需要更多的時(shí)間,大約占10%~15%的比例。由此可以推斷,大多數(shù)的用戶在空閑期的主要行為是搜索新視頻,而發(fā)表評論的只占少數(shù)。
視頻長度即完整播放該視頻需要的時(shí)間,在上傳視頻到內(nèi)容服務(wù)器時(shí)往往作為一個(gè)描述該視頻的元數(shù)據(jù)保存在服務(wù)器上。以往的研究多把視頻長度作為一個(gè)靜態(tài)的特征進(jìn)行研究,而忽略了用戶實(shí)際觀看行為的模式。大多數(shù)用戶并不會從頭到尾完整地觀看整個(gè)視頻,有的用戶僅觀看開頭的一部分,而有的用戶則喜歡以快進(jìn)的方式快速瀏覽。因此,從服務(wù)器端獲得的關(guān)于視頻長度的信息并不能衡量用戶的實(shí)際觀看時(shí)間。
為了分析用戶的實(shí)際觀看時(shí)間,我們根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)中獲得的YouTube視頻流量數(shù)據(jù),用數(shù)據(jù)流的持續(xù)時(shí)間來衡量用戶的實(shí)際觀看時(shí)間。圖5顯示了從網(wǎng)絡(luò)中獲得的YouTube視頻流持續(xù)時(shí)間和視頻內(nèi)容服務(wù)器上獲得的視頻長度的累積概率分布,從中可知,網(wǎng)絡(luò)中獲得的2個(gè)數(shù)據(jù)集的持續(xù)時(shí)間在概率分布上非常相似,而與視頻內(nèi)容服務(wù)器上獲得的視頻長度的分布卻存在很大的差異。我們進(jìn)一步發(fā)現(xiàn),大多數(shù)視頻并沒有被用戶看完,如80%的觀看時(shí)間少于100 s,而80%的視頻長度卻超過300 s。這一發(fā)現(xiàn)進(jìn)一步印證了大多數(shù)用戶沒有完整看視頻的行為模式。
圖6給出了在雙對數(shù)坐標(biāo)系下觀看時(shí)間和視頻長度的互補(bǔ)累積概率分布,由此可知,對于長度超過10 min的視頻,用戶的觀看時(shí)間與視頻長度具有相似的概率分布特性。這意味著當(dāng)視頻長度超過10 min時(shí),用戶更愿意看完視頻內(nèi)容,即長度超過10 min的視頻更能吸引用戶看完整個(gè)視頻。這個(gè)發(fā)現(xiàn)有助于更好地設(shè)計(jì)高效的視頻緩存系統(tǒng)和調(diào)度策略。
圖5 視頻長度和實(shí)際觀看時(shí)間的累積概率分布Fig.5 CDF of viewing duration and video length
圖6 視頻長度和實(shí)際觀看時(shí)間的互補(bǔ)累積概率分布Fig.6 CCDF of viewing duration and video length
為了節(jié)省存儲空間和帶寬,YouTube上的視頻都采用H.264編碼器進(jìn)行了壓縮。編碼率和圖像的質(zhì)量直接相關(guān),更低的編碼率可以獲得更高的壓縮比,但代價(jià)是犧牲圖像的畫面質(zhì)量。反之,更高的編碼率需要更高的網(wǎng)絡(luò)帶寬來傳輸視頻。為此,YouTube必須在圖像的分辨率和網(wǎng)絡(luò)的可用帶寬之間做出合理的平衡。圖7給出了YouTube視頻編碼率和下載速率的累積概率分布。由此可知,大約80%的視頻其編碼率在很窄的范圍:[285,350]kB/s。這意味著YouTube采用的是中等編碼率來平衡畫面質(zhì)量和傳輸帶寬。
YouTube上的視頻文件是典型的流式媒體,采用FLV(Adobe flash video)格式可使用戶在瀏覽器上方便地觀看視頻。為了使用戶在視頻還沒有完全下載完之前就可觀看,YouTube采用了累進(jìn)下載技術(shù),即只要在緩沖區(qū)裝入足夠的視頻就可以啟動視頻播放,余下的視頻內(nèi)容可以邊播放邊下載[13-14]。因此,只要保證下載速率略大于編碼率就可以保證播放過程不出現(xiàn)停頓。從圖7可知,99%的視頻流下載速率大于編碼率。這一方面反映出傳輸視頻的網(wǎng)絡(luò)狀況,另一方面反映出HTTP/TCP流控機(jī)制。由前面的分析可知,大多數(shù)用戶并不看完完整的視頻,緩存中的視頻不會再被觀看。因此,過高的下載速率反而會浪費(fèi)大量帶寬。為此,除了采用TCP進(jìn)行下載速率的流控機(jī)制外,推斷YouTube還有自己的速率控制機(jī)制。在圖7中,下載速率的CDF曲線有2個(gè)接近垂直的陡峭上升部分,其中一個(gè)表明大約有20%的視頻流速率在500 kB/s,另一個(gè)則表明48%的視頻流速率在1 250 kB/s,即大約有70%的視頻流下載速率控制在500 kB/s或1 250 kB/s。因此我們可以推斷YouTube除了采用TCP流控機(jī)制外,在服務(wù)器端還有專門的下載速率控制機(jī)制。由此我們可以得出如下結(jié)論:在保證圖像質(zhì)量的前提下,合理的下載速率控制可以節(jié)省大量的網(wǎng)絡(luò)帶寬資源,而過快的速率對播放視頻并沒有額外的好處。
圖7 視頻編碼率和下載速率的累積概率分布Fig.7 CDF of video coding rate and download rate
我們通過YouTube視頻服務(wù)器的數(shù)據(jù)和網(wǎng)絡(luò)流量數(shù)據(jù)來研究用戶行為和視頻服務(wù)器的機(jī)制,通過比較研究挖掘出有價(jià)值的信息。結(jié)果表明,從YouTube內(nèi)容服務(wù)器上挖掘出的信息和從網(wǎng)絡(luò)節(jié)點(diǎn)中挖掘出的信息并不完全一致,因此,本文綜合這兩方面的數(shù)據(jù)來進(jìn)行對比分析。視頻長度和觀看時(shí)間,編碼率和下載速率等均存在不一致性,服務(wù)器上的靜態(tài)信息不能完整地反映用戶的動態(tài)行為特征。而用戶的動態(tài)行為分析對提高視頻傳輸性能,設(shè)計(jì)視頻緩存算法和內(nèi)容分發(fā)網(wǎng)絡(luò)具有重要的意義,通過此研究可為提高視頻傳輸性能,如視頻緩存和內(nèi)容分發(fā)網(wǎng)絡(luò)的設(shè)計(jì)提供參考。
[1] JIANG J,SEKAR V,ZHANG H.Improving fairness,efficiency,and stability in http-based adaptive video streaming with festive[C]//Proceedings of the 8th international conference on Emerging networking experiments and technologies.Nice:ACM,2012:97.
[2] MAIER G,F(xiàn)ELDMANN A,PAXSON V,et al.On dominant characteristics of residential broadband internet traffic[C]//Proceedings of the 9th ACM SIGCOMM conference on Internet measurement.Chicago:ACM,2009:90.
[3] SPART Z,JAMEST,SU L,et al.YouTube,social norms and perceived salience of climate change in the American mind[J].Environmental Communication,2017,11(1):1.
[4] AMEUR C B,MORY E,COUSIN B,et al.TcpHas:TCP for HTTP adaptive streaming[C]//2017 IEEE International Conference on Communications(ICC).Paris:IEEE,2017:1.
[5] CHENG X,MEHRDAD F,MA X Q,et al.Understanding the YouTube partners and their data:measurement and analysis[J].China Communications,2014,11(12):26.
[6] CHENG X,DALE C,LIU J.Statistics and social network of youtube videos[C]//16th IEEE International Workshop on Quality of Service.Enschede:IEEE,2008:229.
[7] ADHIKARI V,JAIN S,CHEN Y,et al.Vivisecting youtube:an active measurement study[C]//The 31st Annual IEEE International Conference on Computer Communications.Orlando:IEEE,2012:2521.
[8] GORCITZ R A.A data-driven analysis of YouTube community features[C]//Asian Internet Engineering Conference.Bangkok:ACM,2011:17.
[9] CHE X H,IP B,LIN L.Bangkok:A survey of current YouTube video characteristics[J].IEEE Multimedia,2015,22(2):56.
[10] 夏凝.基于CDN的VoD服務(wù)用戶行為分析與系統(tǒng)性能優(yōu)化技術(shù)研究[D].武漢:華中科技大學(xué),2010.
[11] WAMSER F,CASASP,SEUFERT M,et al.Modeling the YouTube stack:from packets to quality of experience[J].Computer Networks,2016,109(2):211.
[12] ZVIRONIENE A,NAVICKAS Z,RINDZEVICIUS R.Bursty traffic simulation by ON-OFF model[J].Elektronika Ir Elektrotechnika,2006,6(70):65.
[13] CHEN L,ZHOU Y P,CHIU D M.Smart streaming for online video services[J].IEEE Transactions on Multimedia,2015,17(4):485.
[14] KRISHNAPPA D K,ZINK M,SITARAMAN R K.Optimizing the video transcoding workflow in content delivery networks[C]//Proceedings of the 6th ACM Multimedia Systems Conference.Portland:ACM,2015:37.