陳步華,陳戈,梁潔
(中國電信股份有限公司廣州研究院,廣東 廣州 510630)
近年來,隨著互聯(lián)網(wǎng)應(yīng)用的快速發(fā)展和網(wǎng)絡(luò)技術(shù)的不斷提升,流媒體技術(shù)得到了快速的發(fā)展,使得視頻點播業(yè)務(wù)占據(jù)了大量的網(wǎng)絡(luò)帶寬。為了降低網(wǎng)絡(luò)傳輸壓力以及減少帶寬限制帶來的影響,用戶請求的視頻內(nèi)容在經(jīng)由緩存服務(wù)器時會被緩存。當用戶對一個視頻發(fā)起訪問請求時,如果其內(nèi)容已經(jīng)存儲在緩存服務(wù)器中,就可以不從遠端的源站獲取視頻而直接從緩存服務(wù)器中獲取,從而達到降低網(wǎng)絡(luò)流量的效果,起到降低網(wǎng)絡(luò)運營成本的作用[1]。然而,緩存服務(wù)器的存儲空間以及配套資源是有限的,并且過度部署緩存服務(wù)器會造成資源和成本的浪費。因此,在視頻內(nèi)容多樣性以及用戶請求并發(fā)性的條件下,優(yōu)化緩存服務(wù)器的系統(tǒng)配置,構(gòu)建高性能低成本的視頻點播系統(tǒng)是非常必要的?;谶@種現(xiàn)狀的考慮,由于用戶對不同視頻對象的訪問情況總是存在一定的傾向性,因此,研究視頻訪問的用戶行為能夠分析出什么類型的內(nèi)容需要存儲在緩存服務(wù)器以及存儲這些內(nèi)容需要占用多少存儲資源等,從而改善存儲資源分配不合理造成的緩存資源不足或者浪費。目前,用戶訪問行為研究的一項重點工作就是視頻的訪問熱度。
視頻訪問熱度代表了用戶對系統(tǒng)中視頻文件的觀看訪問情況,可以根據(jù)用戶對視頻的訪問次數(shù)來刻畫視頻訪問熱度。將視頻訪問熱度具體描述為:在一段時間里,對各個點播視頻的用戶訪問次數(shù)進行統(tǒng)計,并對所有視頻按照其對應(yīng)的用戶請求次數(shù)降序排序,則一個點播視頻的訪問熱度即該視頻的位序[2]。
網(wǎng)絡(luò)協(xié)議電視(internet protocol television,IPTV)以網(wǎng)絡(luò)協(xié)議為基礎(chǔ),面向電視終端,通過寬帶網(wǎng)向用戶提供交互式視頻業(yè)務(wù)[3],而利用IPTV視頻點播服務(wù)的訪問熱度進行深入分析和準確建模,對視頻內(nèi)容的緩存策略設(shè)計是十分重要的。因此,改進基于視頻熱度的擬合曲線的擬合優(yōu)度就成了改善緩存策略的關(guān)鍵。
在對流媒體用戶點播行為的建模研究中,崔華杰[4]采用 Zipf模型進行回歸擬合視頻的訪問熱度,后來Guo等人[5]指出Zipf模型無法準確擬合某些自然現(xiàn)象具有的特征,同時,驗證了廣延指數(shù)(stretched exponential,SE)分布模型更適合刻畫實際系統(tǒng)視頻訪問請求次數(shù)的分布。廣延指數(shù)模型最早是由德國物理學(xué)家Kohlrausch于1847年提出的。對于其應(yīng)用,Laherrere等人[6]率先提出,廣延指數(shù)模型可用于具有重尾現(xiàn)象的自然和社會經(jīng)濟現(xiàn)象的描述中。后來,Guo等人[5]將廣延指數(shù)模型用于對流媒體系統(tǒng)的研究中,并對比了 Zipf模型的不足之處。因此,對于只采用一種曲線函數(shù)回歸擬合一段時間內(nèi)系統(tǒng)中所有的點播視頻訪問數(shù)據(jù)難以獲得優(yōu)良的擬合效果,并且對于最常用的曲線擬合求解方法最小二乘法,也有一定的局限性。
因此,本文在對現(xiàn)有IPTV用戶視頻點播行為的數(shù)學(xué)模型進行調(diào)研的基礎(chǔ)上,應(yīng)用回歸分析方法,并以廣延指數(shù)分布為建?;A(chǔ),提出了一種自適應(yīng)分段廣延指數(shù)(ASSE)模型,用來進行IPTV視頻點播行為的模型構(gòu)建,并提高了視頻訪問熱度模型曲線的擬合優(yōu)度。
回歸分析是由英國著名生物學(xué)家兼統(tǒng)計學(xué)家Francis Galton[7]在研究人類遺傳問題時提出來的,用來確定兩種或兩種以上變量間的具體依賴關(guān)系,是建模和分析數(shù)據(jù)的重要工具。回歸分析通過直線或曲線來擬合一些數(shù)據(jù)點,使得這些數(shù)據(jù)點到直線或曲線的距離最小[8]。回歸屬于機器學(xué)習(xí)中有監(jiān)督學(xué)習(xí)的范疇,擬合得出的對應(yīng)曲線稱為回歸曲線。用戶行為分析也是回歸分析擬合應(yīng)用的重點之一。本節(jié)從點播視頻的用戶的角度出發(fā),利用回歸分析,主要針對視頻點播中的用戶訪問行為進行建模與分析,建立系統(tǒng)內(nèi)一段時間對各視頻訪問次數(shù)的排序和用戶對這些視頻的訪問次數(shù)情況之間的函數(shù)關(guān)系模型。
本文提出的 ASSE模型以廣延指數(shù)分布為基礎(chǔ),并根據(jù)設(shè)定的誤差閾值β來自適應(yīng)地分段建模,并滿足分段曲線建模的連續(xù)性要求。本節(jié)將詳細介紹基于 ASSE方法的視頻訪問熱度模型的構(gòu)建過程。
本文將擬合視頻位序與視頻訪問互補累積概率之間的關(guān)系曲線,其中,互補累積概率的計算方法具體如下:在一個n部IPTV點播視頻的系統(tǒng)中,對n部視頻的訪問概率由高到低排序,依次表示為p(1),p(2),…,p(n),則其對應(yīng)的互補累積概率為:
本文選取從中國電信某省 IPTV系統(tǒng)日志中提取的部分數(shù)據(jù),視頻總數(shù)為70 000部,分別統(tǒng)計每一部視頻的訪問次數(shù),并計算每一部視頻的訪問概率,再按概率高低依次排序,得出所需要的一串訪問概率序列p(1),p(2),…,p(70 000);然后,根據(jù)式(1)計算出視頻點播行為的互補累積概率Pc(1),Pc(2),…,Pc(70 000)。
本文采用廣延指數(shù)分布函數(shù)作為基礎(chǔ)模型來擬合流媒體系統(tǒng)中用戶訪問點播視頻的情況。廣延指數(shù)分布的互補累積概率分布函數(shù)(complementary cumulative distribution function,CCDF)表示為:
其中,x代表視頻位序,Pc(x)代表互補累積概率,x0和c表示兩個常量參數(shù),其中x0被稱為尺度參數(shù),c被稱為廣延參數(shù)或形狀參數(shù)。對式(2)取兩次對數(shù)的通用表達式為:
根據(jù)式(3)進行坐標轉(zhuǎn)換,簡化為線性回歸函數(shù)模型,如式(4)所示:
其中,Y=ln[-lnPc(x)],X=lnx,b=-clnx0,x=1, 2, 3,…,n。
如第2.2節(jié)所述,本文采用廣延指數(shù)函數(shù)作為曲線擬合的基礎(chǔ)模型。但是,只采用一種函數(shù)擬合視頻位序與視頻訪問互補累積概率之間的關(guān)系,通常要求自變量與因變量之間有基于該函數(shù)的很強的依賴關(guān)系,否則,較難得到準確的擬合結(jié)果[9]。因此,可以通過將實際數(shù)據(jù)分成若干組,然后對每組數(shù)據(jù)再進行擬合的方法提高擬合的精度。擬合線段的條數(shù)可以根據(jù)具體的工程需求,人工進行設(shè)定,也可以采用其他分段方法。本文采用給定一個誤差閾值,若連續(xù)兩次誤差平方和高于該閾值,則停止該線段擬合的計算,由此來自適應(yīng)地確定分段數(shù)。具體如下:設(shè)定一個誤差閾值β,若某數(shù)據(jù)點A及其下一個數(shù)據(jù)點B的擬合值和實際值之間的誤差平方和均高于該閾值(連續(xù)兩次誤差平方和高于該閾值)則停止該線段擬合的計算,并開始下一段曲線的擬合。
由此,根據(jù)閾值誤差閾值β,自適應(yīng)地將實際數(shù)據(jù)分為m段,對每一段求解的方程如下:
由于曲線分段點處往往不能滿足擬合曲線的連續(xù)性[10]需求,如圖1所示。而且,目前用于解決分段擬合曲線連續(xù)性問題的方法均存在局限性。本文給出了一種帶約束條件的最優(yōu)化方案,即在曲線的分段點處,令上一擬合線段的最后一個擬合坐標值,一定落在下一條擬合線段上,作為約束條件。即對于式(5)的每一段的回歸模型(即m段曲線模型),令每一段曲線的分段點處的擬合值(X*,Y*)作為該擬合線段的起始點,即滿足式(6):
圖1 分段點處擬合值不連續(xù)示意
并且在該約束條件下,通過最小二乘法求解出該擬合線段的最優(yōu)參數(shù)c,進而可得b,則將式(5)作為每一段的回歸模型,結(jié)合式(6),可得:
其中,(X1*,Y1*), (X2*,Y2*),…, (X*m-1,Y*m-1)分別為第1段,第2段,…,第m?1段擬合曲線最后一個擬合點處(分段點)的擬合值。由此,實現(xiàn)了分段點處滿足一階連續(xù)的分段曲線擬合,直到所有分段點對應(yīng)的擬合線段按照此方法建模求解出對應(yīng)的每一段擬合線段對應(yīng)的最優(yōu)參數(shù)(c1,b1),(c2,b2),(c3,b3),…,(cm,bm)。至此,建模完成,并且所有數(shù)據(jù)擬合完畢。
在 IPTV業(yè)務(wù)的發(fā)展和運營過程中,IPTV系統(tǒng)已經(jīng)積累了海量用戶行為數(shù)據(jù)。中國電信某省的IPTV系統(tǒng)每天產(chǎn)生近1 TB的數(shù)據(jù)文件,內(nèi)容包括用戶收視行為日志、系統(tǒng)運行日志等[11],為對視頻點播用戶的行為進行建模,從中提取部分數(shù)據(jù),包括視頻總數(shù)70 000部,訪問的規(guī)律基本滿足“二八定律”。基于如此龐大的用戶群體及其大量的真實用戶記錄,可以看出對IPTV CDN用戶的行為建模具有足夠的代表性與意義。
因不同視頻數(shù)量下的 ASSE模的擬合情況均類似,因此,本文不再給出其他不同視頻數(shù)量下的ASSE模型回歸擬合結(jié)果。
3.2.1 ASSE模型在不同分段數(shù)下的擬合結(jié)果
實驗采用(X,Y)坐標系,并通過坐標轉(zhuǎn)換,令Y=ln[?lnPc(x)],X=lnx,其中,x代表視頻位序,Pc(x)代表互補累積概率。同時,設(shè)定不同閾值β進行自適應(yīng)分段擬合。圖3給出了自適應(yīng)分段數(shù)量(segment)分別為3、5、7、10的情況下,每天用戶對點播視頻的典型訪問情況建模結(jié)果如圖2所示。通過ASSE模型與實際數(shù)據(jù)擬合結(jié)果對比,可以看出,分段數(shù)越高,擬合的吻合程度越高。在分段數(shù)≥7的情況下,擬合結(jié)果與實際數(shù)據(jù)具備優(yōu)良的一致性。
3.2.2 ASSE模型與SE模型擬合結(jié)果對比分析
在構(gòu)建模型的過程中,對模型的優(yōu)劣評估是十分重要的。本節(jié)將通過仿真結(jié)果對比本文提出的自適應(yīng)分段廣延指數(shù)(ASSE)模型與廣延指數(shù)(SE)模型的優(yōu)劣??紤]到分段數(shù)不宜過多,并且要兼顧擬合精度,因此,本文選擇在分段數(shù)為7時,將提出的ASSE模型與SE模型的建模結(jié)果進行對比。對比結(jié)果如圖3所示。
如圖3所示,在分段數(shù)為7時,提出的ASSE模型比傳統(tǒng)的SE模型更符合實際數(shù)據(jù)的分布。實際數(shù)據(jù)、SE模型以及ASSE模型擬合出的互補累積概率如圖4所示。
圖5為實際數(shù)據(jù)、SE模型以及ASSE模型擬合結(jié)果之間的絕對誤差。實驗結(jié)果表明,對于絕大多數(shù)數(shù)據(jù)點的擬合誤差,本文提出的 ASSE模型的擬合誤差小于SE模型。尤其是對于大約前5 000部訪問熱片,SE模型擬合的誤差遠大于ASSE模型。擬合誤差越大,就越會導(dǎo)致用戶訪問流量的錯誤估計,進而導(dǎo)致對緩存設(shè)備的并發(fā)流量服務(wù)能力估計錯誤,并對緩存設(shè)備的系統(tǒng)并發(fā)服務(wù)能力配置有很大影響。此外,為了盡可能提高系統(tǒng)資源的利用率,對于訪問概率不同的視頻,會依據(jù)訪問概率而設(shè)定該視頻的緩存時間,通常來說,訪問概率高的視頻常常比訪問概率低的視頻的設(shè)定的緩存時間要長一些。所以,在對用戶視頻訪問行為預(yù)測中,擬合精度對視頻緩存的保留時間有著很大影響,進而影響預(yù)緩存策略。因此,本文提出的 ASSE模型由于提升了用戶訪問情況的擬合精度,對服務(wù)器的系統(tǒng)配置和熱片內(nèi)容的預(yù)緩存策略的改善十分重要。
圖2 用戶對點播視頻的典型訪問情況建模結(jié)果
圖3 兩種模型的建模結(jié)果與實際數(shù)據(jù)的對比
圖4 互補累積概率擬合結(jié)果
圖5 兩種模型的建模的誤差結(jié)果的對比
此外,可以通過標準的檢驗方法來定量評估實際數(shù)據(jù)與回歸模型的擬合程度,擬合優(yōu)度是一種用來檢驗實際數(shù)據(jù)是否符合某個回歸擬合模型的統(tǒng)計方法[12]。因此,采用擬合優(yōu)度檢驗來檢驗本文提出的ASSE模型,并與SE模型進行進一步對比,由此來判斷模型的擬合效果,這兩種模型擬合的檢驗結(jié)果見表1。
表1 ASSE和SE擬合模型檢驗結(jié)果
由于R2越靠近1,表示實際樣本數(shù)據(jù)越靠近擬合模型,即擬合優(yōu)度越高。因此,從表1中可以看出,ASSE模型的擬合優(yōu)度0.994 8髙于SE模型的擬合優(yōu)度0.980 9。由此進一步說明,本文提出的ASSE模型不僅提高了曲線擬合的精度,并且與實際數(shù)據(jù)具有良好的一致性。基于此,本文提出的ASSE模型比SE模型更適合對IPTV用戶點播行為進行建模,并且能夠優(yōu)化系統(tǒng)配和改善視頻調(diào)度與緩存策略。
IPTV服務(wù)的發(fā)展趨勢是面向更龐大的用戶群和存儲更巨大的視頻數(shù)據(jù),并為用戶提供更優(yōu)質(zhì)的視頻體驗。在這種趨勢下,IPTV服務(wù)所面臨的主要挑戰(zhàn)是如何優(yōu)化IPTV CDN的系統(tǒng)性能,并同時降低部署與運營成本。為優(yōu)化 IPTV CDN系統(tǒng)的配置與性能,用戶行為分析是極其重要的一步。
本文利用提出的ASSE模型和SE模型分別對IPTV視頻點播用戶行為進行回歸擬合和對比分析,驗證了本文提出的ASSE模型不僅能夠更好地擬合出用戶視頻點播的熱度分布,并能夠為優(yōu)化IPTV CDN系統(tǒng)配置、改善視頻調(diào)度與存儲策略提供重要的指導(dǎo)作用。
參考文獻:
[1]張旺俊.Web緩存替換策略與預(yù)取技術(shù)的研究[D].合肥: 中國科學(xué)技術(shù)大學(xué), 2011.ZHANG W J.Research on Web cache replacement strategy and prefetching technology[D].Hefei: University of Science and Technology of China, 2011.
[2]夏琰.基于實際用戶行為分析的緩存研究[D].合肥: 中國科學(xué)技術(shù)大學(xué), 2011.XIA Y.Research on caching based on actual user behavior analysis[D].Hefei: University of Science and Technology of China, 2011.
[3]韋樂平.三網(wǎng)融合與 IPTV的發(fā)展和挑戰(zhàn)[J].電信科學(xué),2006, 22(7):1-5.WEI L P.Triple-play and the development and challenges of IPTV[J].Telecommunications Science, 2006, 22(7):1-5.
[4]崔華杰.大型直播與點播IPTV系統(tǒng)的用戶行為分析[D].廣州: 中山大學(xué), 2013.CUI H J.Dissecting user behaviors for a simultaneous live and VOD IPTV system[D].Guangzhou: Sun Yat-sen University,2013.
[5]GUO L, TAN E, CHEN S, et al.The stretched exponential distribution of internet media access patterns[C]//Twenty-Seventh ACM Symposium on Principles of Distributed Computing, PODC 2008, August 18-21, Toronto, Canada.New York:ACM Press, 2008: 283-294.
[6]LAHERRèRE J, SORNETTE D.Stretched exponential distributions in nature and economy: “fat tails” with characteristic scales[J].The European Physical Journal B - Condensed Matter and Complex Systems, 1998, 2(4): 525-539.
[7]趙晨陽, 翟少丹.高爾頓與相關(guān)理論的產(chǎn)生[J].西北大學(xué)學(xué)報:自然科學(xué)版, 2008, 38(4):680-684.ZHAO C Y, ZHUO S D.Galton and the invention of correlation[J].Journal of Northwestern University: Natural Science Edition, 2008, 38(4): 680-684.
[8]李祖亮.基于數(shù)學(xué)建模的經(jīng)濟變量線性回歸統(tǒng)計預(yù)測研究[J].中國校外教育, 2011(2):142-142.LI Z L.Research on statistical prediction of linear regression of economic variables based on mathematical modeling[J].Education for Chinese After-School, 2011(2):142-142.
[9]賈丹華, 王潤潤, 王鵬.電信套餐資費預(yù)演中客戶量的預(yù)測方法研究[J].電信科學(xué), 2011, 27(8): 25-32.JIA D H, WANG R R, WANG P.Research on prediction method of the amount of customers in Telecom services tariff preview[J].Telecommunications Science, 2011, 27(8): 25-32.
[10]呂游, 劉吉臻, 趙文杰, 等.基于分段曲線擬合的穩(wěn)態(tài)檢測方法[J].儀器儀表學(xué)報, 2012, 33(1): 194-200.LV Y, LIU J Z, ZHAO W J, et al.Steady-state detecting method based on piecewise curve fitting [J].Chinese Journal of Scientific Instrument, 2012, 33(1): 194-200.
[11]方艾, 張玉忠, 徐雄, 等.基于MapR的IPTV用戶收視行為分析的方案與實踐[J].電信科學(xué), 2017, 33(2): 138-143.FANG A, ZHANG Y Z, XU X, et al.Scheme and practice of IPTV user viewing behavior analysis based on MapR[J].Telecommunications Science, 2017, 33(2): 138-143.
[12]王重, 劉黎明.擬合優(yōu)度檢驗統(tǒng)計量的設(shè)定方法[J].統(tǒng)計與決策, 2010(5): 154-156.WANG C, LIU L M.Setting method of statistics for goodness of fit[J].Statistics and Decision, 2010(5): 154-156.