• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于XDR數(shù)據(jù)分析的OTT視頻服務(wù)感知質(zhì)量評(píng)估方法

      2021-02-06 09:27:34黃鸝聲冉金也張翔引
      關(guān)鍵詞:話單字段評(píng)估

      黃鸝聲 冉金也 羅 靜 張翔引

      1(電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 成都 611731)2(電子科技大學(xué)航空航天學(xué)院 成都 611731)(lsh@uestc.edu.cn)

      隨著移動(dòng)網(wǎng)絡(luò)傳輸能力的快速提升和智能終端的普及,互聯(lián)網(wǎng)電視(over the top, OTT)視頻業(yè)務(wù)日趨成為網(wǎng)絡(luò)用戶中最流行的在線業(yè)務(wù)之一.以O(shè)TT視頻技術(shù)為主導(dǎo)的網(wǎng)絡(luò)電視、移動(dòng)視頻和多屏互動(dòng)業(yè)務(wù),通過智能手機(jī)、平板電腦和聯(lián)網(wǎng)電視機(jī)的OTT視頻內(nèi)容消費(fèi)量正以驚人的速度增長(zhǎng).在移動(dòng)視頻領(lǐng)域,研究表明50%以上的平板電腦用戶會(huì)經(jīng)常在線觀看OTT視頻[1].

      有線電視長(zhǎng)期以來的低費(fèi)用和高保障,使得消費(fèi)者不再滿足于以往免費(fèi)網(wǎng)絡(luò)視頻“盡力而為”的質(zhì)量體驗(yàn).用戶體驗(yàn)質(zhì)量的高低成為OTT視頻成功的關(guān)鍵.一旦用戶感知質(zhì)量(quality of experience, QoE)沒有達(dá)到用戶的期望值,他們可能立刻轉(zhuǎn)投競(jìng)爭(zhēng)者.

      然而網(wǎng)絡(luò)視頻往往由于網(wǎng)絡(luò)質(zhì)量差、服務(wù)平臺(tái)過載等因素,出現(xiàn)播放失敗、卡頓次數(shù)增加、緩沖時(shí)間過長(zhǎng)等業(yè)務(wù)質(zhì)量問題,這些問題會(huì)導(dǎo)致用戶滿意度下降、投訴量增加甚至退訂業(yè)務(wù)等后果.因此,服務(wù)提供商需要精確評(píng)估和掌握用戶在使用網(wǎng)絡(luò)視頻業(yè)務(wù)過程中的體驗(yàn)質(zhì)量,以便于提前發(fā)現(xiàn)質(zhì)量問題,進(jìn)一步開展客戶關(guān)懷、預(yù)檢預(yù)修工作.

      視頻質(zhì)量評(píng)估主要分為主觀、客觀2種方法.主觀評(píng)估需要人類觀察者通過視覺系統(tǒng)感知視頻質(zhì)量,雙激勵(lì)損傷量表(double stimulus impairment scale, DSIS)、雙激勵(lì)連續(xù)質(zhì)量量表(double stimulus continuous quality scale, DSCQS)、絕對(duì)分級(jí)法(absolute category rating, ACR)[2]都是典型的主觀評(píng)估方法.盡管主觀評(píng)估方法可以最直接地反映視頻質(zhì)量,但是由于成本高昂且費(fèi)時(shí),所以并不實(shí)用.

      客觀視頻質(zhì)量評(píng)估方法分為3類:全參考(full reference, FR)、半?yún)⒖?reduce reference, RR)、無參考(no reference, NR).FR需要獲取完整原始視頻序列.在評(píng)估過程中,對(duì)比完整的原始視頻圖像數(shù)據(jù)和用戶接收到的視頻圖像數(shù)據(jù)間的差異,檢測(cè)用戶接收到的視頻質(zhì)量損傷程度,根據(jù)損傷程度對(duì)視頻用戶體驗(yàn)進(jìn)行評(píng)價(jià).峰值信噪比(peak signal-to-noise ratio, PSNR)[3]和結(jié)構(gòu)相似性(structural simi-larity index measurement, SSIM)[4]是常用的FR指標(biāo).RR是從原始視頻序列中提取和比較一些特征,即評(píng)估時(shí)也需要參考原始視頻序列,只不過使用的是基于原始視頻提取的特征信息,而非全部圖像數(shù)據(jù)[5],如文獻(xiàn)[6],通過參考部分圖像特征來對(duì)視頻質(zhì)量進(jìn)行評(píng)估.不管是FR還是RR,都需要將用戶接收到的視頻數(shù)據(jù)和原始視頻數(shù)據(jù)傳輸?shù)皆u(píng)估服務(wù)器中進(jìn)行視頻質(zhì)量評(píng)估,該過程成本高昂且耗時(shí).另一方面,運(yùn)營(yíng)商獲取原始視頻數(shù)據(jù)也相對(duì)困難.NR估計(jì)視頻質(zhì)量時(shí)則不需要原始視頻序列,只需要分析通過客觀測(cè)量得到的與視頻質(zhì)量有關(guān)的指標(biāo)對(duì)視頻質(zhì)量進(jìn)行估計(jì).因此,對(duì)于運(yùn)營(yíng)商來說,采用NR方法估計(jì)視頻質(zhì)量顯然比FR和RR更可行.

      深度報(bào)文檢測(cè)(deep packet inspection, DPI)系統(tǒng)通過對(duì)網(wǎng)絡(luò)關(guān)鍵接口的流量和報(bào)文內(nèi)容進(jìn)行檢測(cè)分析,根據(jù)策略對(duì)流量進(jìn)行過濾控制,實(shí)現(xiàn)信令面和用戶面消息的采集,能夠?qū)τ脩羯暇W(wǎng)行為產(chǎn)生的信息進(jìn)行過濾、采集.該系統(tǒng)分為3層架構(gòu),其中采集層和解碼層負(fù)責(zé)數(shù)據(jù)采集、流量分析、日志合成,一般以各種數(shù)據(jù)記錄方式存儲(chǔ)在解碼層的數(shù)據(jù)庫(kù)內(nèi),這種數(shù)據(jù)即用戶話單數(shù)據(jù)(extend data record, XDR),其中X代表呼叫事務(wù)會(huì)話[7].因此,例如,具體地,呼叫詳細(xì)記錄(call detail records, CDR)包含關(guān)于提供給最終用戶的網(wǎng)絡(luò)和服務(wù)特性的大量數(shù)據(jù),這些海量的數(shù)據(jù)被DPI設(shè)備采集并存儲(chǔ)在電信運(yùn)營(yíng)商大數(shù)據(jù)系統(tǒng)中.國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門(International Telecommunication Union for Telecommunication Standardization Sector, ITU-T)[8]建議規(guī)定了CDR的結(jié)構(gòu)和內(nèi)容.應(yīng)用層主要對(duì)XDR記錄數(shù)據(jù)進(jìn)行計(jì)算、整理、統(tǒng)計(jì),合理組織和存儲(chǔ)數(shù)據(jù),并進(jìn)行呈現(xiàn).電信運(yùn)營(yíng)商對(duì)XDR數(shù)據(jù)源轉(zhuǎn)換處理后得到可以直接識(shí)別的字段信息,內(nèi)容包括時(shí)間、網(wǎng)絡(luò)類型、國(guó)際移動(dòng)用戶識(shí)別碼(international mobile subscriber identity, IMSI)、移動(dòng)用戶號(hào)碼(mobile subscriber international ISDNPSTN number, MSISDN)等100多個(gè)字段[9],也正是本文所使用的原始數(shù)據(jù).

      由于XDR數(shù)據(jù)的龐大規(guī)模和低價(jià)值,長(zhǎng)期以來,針對(duì)XDR數(shù)據(jù)分析的OTT視頻質(zhì)量評(píng)估研究工作相對(duì)欠缺且計(jì)算存儲(chǔ)成本高昂.本文提出了一種基于XDR數(shù)據(jù)的無參考的網(wǎng)絡(luò)視頻質(zhì)量評(píng)估的方法,在原始XDR數(shù)據(jù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)加工,從海量XDR數(shù)據(jù)中提取出與視頻質(zhì)量強(qiáng)相關(guān)性的少量信息,將大規(guī)模、低價(jià)值的XDR話單數(shù)據(jù)轉(zhuǎn)化為高價(jià)值、小規(guī)模的視頻質(zhì)量特征信息,有利于后續(xù)人工智能算法的應(yīng)用和視頻業(yè)務(wù)質(zhì)量評(píng)價(jià),降低下一步數(shù)據(jù)挖掘的資源成本,提升下一步機(jī)器學(xué)習(xí)的輸入樣本質(zhì)量和輸出模型的準(zhǔn)確性.

      1 相關(guān)工作

      目前對(duì)網(wǎng)絡(luò)視頻業(yè)務(wù)質(zhì)量的NR評(píng)估方法主要有以下3類.

      1.1 流量探針分析方法

      在網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)(如城域網(wǎng)路由器)部署流量探針,對(duì)網(wǎng)絡(luò)中的視頻流進(jìn)行采集、分析,利用DPI或深度動(dòng)態(tài)流檢測(cè)(deepdynamic flow inspection, DFI)技術(shù)直接從網(wǎng)絡(luò)報(bào)文序列中提取視頻質(zhì)量指標(biāo),完成質(zhì)量評(píng)估,如文獻(xiàn)[10].但是現(xiàn)有的流量探針分析方法存在一些缺陷,如必須在網(wǎng)絡(luò)中部署流量采集探針設(shè)備,成本高昂,在已經(jīng)存在統(tǒng)一DPI的前提下,再次部署流量采集設(shè)備顯得過于浪費(fèi);而且單臺(tái)探針設(shè)備處理能力有限,在大規(guī)模流量環(huán)境下會(huì)出現(xiàn)丟包、資源耗盡等現(xiàn)象,導(dǎo)致分析功能失效.

      1.2 APP上報(bào)信令分析方法

      各類視頻終端APP軟件在播放過程中,會(huì)向視頻業(yè)務(wù)服務(wù)平臺(tái)報(bào)送業(yè)務(wù)質(zhì)量信息,例如播放起止時(shí)間、卡頓次數(shù)、卡頓時(shí)長(zhǎng)占比等,對(duì)這些信令進(jìn)行采集、提取、解析,可獲得較為真實(shí)的視頻業(yè)務(wù)質(zhì)量評(píng)價(jià)結(jié)果.目前部分運(yùn)營(yíng)商已采取此類方法分析常見視頻網(wǎng)站的用戶體驗(yàn)質(zhì)量.但是采用該方法時(shí),信息的提取依賴于終端視頻APP軟件上報(bào)給視頻服務(wù)平臺(tái)的信令信息,各個(gè)視頻服務(wù)APP分別設(shè)計(jì)了自己的信令格式,需要針對(duì)每一類APP單獨(dú)定制信令解析規(guī)則,工作量大.一旦APP軟件升級(jí)或啟用數(shù)據(jù)加密傳輸,則原有的信令解析規(guī)則不再可用,導(dǎo)致對(duì)該類視頻業(yè)務(wù)的質(zhì)量分析全部失效.

      1.3 XDR話單大數(shù)據(jù)分析方法

      在移動(dòng)統(tǒng)一DPI系統(tǒng)中,提取與視頻業(yè)務(wù)相關(guān)的XDR原始話單,結(jié)合已知的視頻質(zhì)量標(biāo)簽作為訓(xùn)練樣本,采用各類機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,以獲得從XDR原始話單數(shù)據(jù)到視頻業(yè)務(wù)質(zhì)量之間的映射模型.例如文獻(xiàn)[10]給出一種基于XDR分析互聯(lián)網(wǎng)業(yè)務(wù)質(zhì)量的方案,即在服務(wù)器集群的架構(gòu)上組建一套系統(tǒng)對(duì)XDR數(shù)據(jù)進(jìn)行采集、存儲(chǔ)、轉(zhuǎn)換處理,再輸出數(shù)據(jù)到前臺(tái)應(yīng)用程序,做深入分析優(yōu)化,能準(zhǔn)確定位互聯(lián)網(wǎng)業(yè)務(wù)指標(biāo)異常變化的原因,提高互聯(lián)網(wǎng)業(yè)務(wù)質(zhì)量分析工作效率.然而,XDR數(shù)據(jù)具有數(shù)據(jù)量大,數(shù)據(jù)粒度小的特點(diǎn),視頻服務(wù)進(jìn)程通常對(duì)應(yīng)于數(shù)十條XDR記錄,且XDR記錄中的大多數(shù)信息是統(tǒng)計(jì)數(shù)據(jù),并不直接包含與視頻服務(wù)質(zhì)量相關(guān)的信息.所以問題的關(guān)鍵就是如何合理地利用這些XDR數(shù)據(jù),但現(xiàn)有研究[11-12]僅提出了概念框架和思路,缺乏從XDR中挖掘視頻服務(wù)質(zhì)量的具體實(shí)施方法.

      2 方法介紹

      2.1 基本思想

      Fig. 1 Relationship between video service and XDR record圖1 視頻業(yè)務(wù)和XDR數(shù)據(jù)的關(guān)系

      視頻業(yè)務(wù)是一個(gè)跨越一定時(shí)間周期的連續(xù)過程,其質(zhì)量特征也表現(xiàn)為一個(gè)完整過程中不同時(shí)段的質(zhì)量.因此,對(duì)視頻業(yè)務(wù)質(zhì)量的刻畫,應(yīng)該對(duì)視頻業(yè)務(wù)的全過程進(jìn)行分時(shí)段的連續(xù)評(píng)價(jià),最終將不同時(shí)段的質(zhì)量評(píng)價(jià)結(jié)果進(jìn)行聚合,獲得完整的質(zhì)量刻畫指標(biāo).雖然單個(gè)XDR話單記錄僅僅覆蓋一個(gè)網(wǎng)絡(luò)會(huì)話且不足以刻畫整體業(yè)務(wù)質(zhì)量,但多個(gè)XDR話單在時(shí)間和空間層面存在耦合,利用該耦合關(guān)系可實(shí)現(xiàn)XDR話單的聚合和關(guān)聯(lián)挖掘:覆蓋同一時(shí)段的多個(gè)XDR話單記錄共同構(gòu)成了該時(shí)段的視頻業(yè)務(wù)行為,多個(gè)XDR話單的同一指標(biāo)值共同構(gòu)成了該時(shí)段的視頻業(yè)務(wù)指標(biāo)值.本文以原始XDR話單為輸入,實(shí)現(xiàn)高價(jià)值質(zhì)量數(shù)據(jù)的生產(chǎn),主要思路可概括為:將以會(huì)話為單位的XDR話單以時(shí)間和空間方式進(jìn)行關(guān)聯(lián),形成為以時(shí)間窗口為單位的切片記錄,然后將多個(gè)切片記錄進(jìn)行匯聚,形成對(duì)視頻業(yè)務(wù)過程的總體質(zhì)量記錄.

      如圖1所示,橫坐標(biāo)表示時(shí)間,一條水平線代表一條XDR記錄,多個(gè)相互重疊的XDR記錄集合表示一次視頻業(yè)務(wù).

      2.2 視頻質(zhì)量特征信息的選擇

      定義網(wǎng)絡(luò)視頻質(zhì)量特征信息為:用于記錄某一時(shí)段內(nèi),某個(gè)移動(dòng)上網(wǎng)用戶在觀看視頻過程中的多個(gè)質(zhì)量特征指標(biāo)的數(shù)據(jù)記錄.本文提出的視頻質(zhì)量特征信息如表1所示.包括但不限于5個(gè)基本字段,12個(gè)統(tǒng)計(jì)字段,3個(gè)計(jì)算字段,3個(gè)推測(cè)字段.

      Table 1 Filed of Feature Information

      基本字段表示一次視頻服務(wù)的基本信息,如時(shí)間信息、用戶識(shí)別信息等;統(tǒng)計(jì)字段可直接從原始XDR數(shù)據(jù)中經(jīng)過累加統(tǒng)計(jì)獲取,是一次視頻服務(wù)的簡(jiǎn)單統(tǒng)計(jì)量,本文不過多討論;計(jì)算字段則是對(duì)統(tǒng)計(jì)字段進(jìn)行關(guān)聯(lián)計(jì)算后得出的與視頻質(zhì)量強(qiáng)相關(guān)的信息.

      計(jì)算字段能夠較好地刻畫視頻質(zhì)量,其中,丟包率(packet loss rate, PLR)被認(rèn)為是刻畫視頻質(zhì)量最重要的參數(shù).在IP網(wǎng)絡(luò)的傳輸中,視頻文件通常被打包成固定大小的分組,不同分組的分片信息不同,丟包會(huì)直接影響其所在幀的解碼[10].為了獲得更準(zhǔn)確的結(jié)果,我們需要同時(shí)考慮客戶端和服務(wù)器之間的雙向PLR.

      另外,平均下載速率也被認(rèn)為對(duì)視頻質(zhì)量有很大影響.一般而言,如果下載速度非常慢,視頻質(zhì)量將不會(huì)很好[11],因此平均下載速度也可以用作視頻質(zhì)量的重要參數(shù).

      在網(wǎng)絡(luò)視頻播放中,往往采用一邊下載一邊播放的方式.視頻服務(wù)器和客戶端均會(huì)控制下載速率和緩存大小,使之與播放所需要的碼率匹配,并保持適當(dāng)?shù)囊曨l播放緩沖.本文提出一種“快推質(zhì)量標(biāo)記”參數(shù),其中快推是指在視頻剛剛播放的時(shí)候,為了減少緩沖時(shí)間,往往使用多線程或不限制下載速率的方式,盡快填充客戶端的播放緩沖區(qū),因此視頻剛剛開始播放的時(shí)候,下載速率可能遠(yuǎn)高于觀看過程中的正常碼率.表1推測(cè)字段中的推測(cè)快推質(zhì)量標(biāo)記就是用于表示快推是否成功.顯然,該參數(shù)對(duì)視頻質(zhì)量有著很大的影響.

      2.3 按時(shí)間窗口切片的信息提取

      圖2是從原始XDR話單數(shù)據(jù)中提取出特征信息的過程,主要可分為2步:第1步是將XDR話單數(shù)據(jù)按時(shí)間分片得到時(shí)間窗口記錄;第2步將時(shí)間窗口記錄進(jìn)行聚合,得到一條匯總記錄.

      2.3.1 切片

      本步驟是對(duì)以TCP會(huì)話為單位的視頻類XDR話單進(jìn)行切片加工,輸出多條以固定時(shí)間窗口為單位的時(shí)間窗口記錄;時(shí)間窗口記錄的格式如表1所述.

      1) 將同一用戶的多條視頻類XDR話單記錄進(jìn)行時(shí)間聚類,形成XDR話單群(XDR records cluster),如圖3所示,其中每一條線段表示一條視頻類XDR話單記錄,線段的2個(gè)端點(diǎn)分別代表該XDR話單的起止時(shí)間,一個(gè)XDR話單群應(yīng)滿足以下條件:話單群中任意一條XDR話單,均能在本群中找到至少一條起止時(shí)間與之部分或全部重合的XDR話單,不同XDR話單群之間存在明顯的時(shí)間間隔.

      Fig. 3 XDR records cluster圖3 XDR話單群示意圖

      將XDR話單群X定義為

      X={r1,r2,…,rn},

      其中ri表示第i條話單(話單按照開始時(shí)間排序),其開始時(shí)間為bi,結(jié)束時(shí)間為ei,對(duì)每個(gè)XDR話單群X而言,其中任意一條XDR記錄都能在當(dāng)前話單群中找到至少一個(gè)與其時(shí)間重疊的XDR記錄,即?ri∈X滿足:?rj∈X,

      (bi>bj&&bibi&&bj

      定義XDR話單群X的開始時(shí)間btX:

      btX=min{bi|ri∈X};

      結(jié)束時(shí)間etX:

      etX=max{ei|ri∈X};

      則對(duì)于不同的XDR話單群X和Y,X和Y之間存在明顯時(shí)間間隔,即若btX

      btY-etX>T,

      其中T為給定的2個(gè)話單群之間最小時(shí)間間隔,在本文中,我們將其取值為5 s.

      2) 將同一XDR話單群X中的話單切片為多條時(shí)間窗口記錄,形成時(shí)間窗口記錄列表.

      如圖4所示,我們將一個(gè)話單群的總持續(xù)時(shí)長(zhǎng)(最大結(jié)束時(shí)間與最小開始時(shí)間的差值)平均切分為多個(gè)固定時(shí)長(zhǎng)的時(shí)間窗口,然后對(duì)同一XDR話單群中的所有話單進(jìn)行數(shù)據(jù)切片,為每個(gè)時(shí)間窗口生成一條唯一的時(shí)間窗口記錄;該時(shí)間窗口記錄中的各個(gè)統(tǒng)計(jì)字段來自于與該時(shí)間窗口部分或全部重合的多條XDR話單的切片統(tǒng)計(jì)結(jié)果.

      Fig. 4 Time window圖4 時(shí)間窗口

      將一個(gè)話單群的總持續(xù)時(shí)長(zhǎng)定義為

      dtX=etX-btX.

      (1)

      若將X平均切分為n個(gè)時(shí)間窗口,則第i個(gè)窗口wndi的開始時(shí)間wnd_bti滿足

      結(jié)束時(shí)間wnd_eti滿足

      在步驟2)中涉及到一些統(tǒng)計(jì)字段的計(jì)算,在此以SERVER_COUNT字段為例,說明時(shí)間窗口記錄中的各個(gè)統(tǒng)計(jì)字段的計(jì)算方法.

      ① 定義SERVER_COUNTi,k為XDR話單群X中第i條XDR話單記錄ri中的SERVER_COUNTi值在第k個(gè)時(shí)間窗口記錄wndk中的統(tǒng)計(jì)分量值,則wndk中的WND_SERVER_COUNTk值為該話單群中所有XDR話單記錄的SERVER_COUNTi,k分量值之和,即

      (2)

      ② 第i條XDR話單記錄ri在第k個(gè)時(shí)間窗口記錄wndk中的SERVER_COUNTi,k分量值計(jì)算方法為:

      取該ri的SERVER_COUNTi字段值,除以該記錄起止時(shí)間(ENDTIME-BEGINTIME)之差(單位為s),然后乘以該XDR話單記錄與本時(shí)間窗口的時(shí)間重合長(zhǎng)度Toverlap(單位為s),表示為

      (3)

      ③ 第i條XDR話單記錄ri與某個(gè)時(shí)間窗口wndk的時(shí)間重合長(zhǎng)度Toverlap計(jì)算方法為

      (4)

      除了統(tǒng)計(jì)字段外,對(duì)3個(gè)計(jì)算字段的獲得方法進(jìn)行說明,3個(gè)計(jì)算字段的值為同一記錄中的其他統(tǒng)計(jì)字段值的計(jì)算結(jié)果,計(jì)算方法分別為

      平均下載速率:

      (5)

      下載丟包率:

      (6)

      上傳丟包率:

      (7)

      2.3.2 聚合

      本節(jié)是將2.3.1節(jié)輸出的時(shí)間窗口特征信息記錄進(jìn)行聚合,輸出一條匯總記錄,然后,計(jì)算并回填匯總記錄中的3個(gè)計(jì)算字段.匯總記錄的格式同樣如表1所述.計(jì)算方法如下:

      1) 將2.3.1節(jié)中輸出的同一XDR話單群的時(shí)間窗口記錄列表匯聚為一條匯總記錄,即為每個(gè)XDR話單群生成唯一的一條匯總記錄,其中的各個(gè)統(tǒng)計(jì)字段來自于時(shí)間窗口記錄列表中所有記錄的統(tǒng)計(jì)結(jié)果.

      2) 計(jì)算匯總記錄中的推測(cè)字段.

      推測(cè)碼率MR的表達(dá)式為

      MR=

      (8)

      推測(cè)快推質(zhì)量標(biāo)記FASTPUSH_FLAG字段表達(dá)式為

      FASTPUSH_FLAG=MIN(2V,1),

      (9)

      其中V是SERVER_COUNT字段的離散系數(shù),F(xiàn)ASTPUSH_FLAG取值為V的2倍值與常數(shù)1的較小值.

      推測(cè)視頻下載質(zhì)量分LABEL_SCORE字段的表達(dá)式為

      (10)

      根據(jù)上述過程,可將多條XDR數(shù)據(jù)記錄融合為一條視頻觀看記錄,從而在大規(guī)模減少數(shù)據(jù)集規(guī)模的前提下,實(shí)現(xiàn)高價(jià)值指標(biāo)信息的提取,為進(jìn)一步機(jī)器學(xué)習(xí)提供優(yōu)質(zhì)數(shù)據(jù)集.

      3 實(shí)驗(yàn)結(jié)果和分析

      3.1 GBDT模型

      在實(shí)驗(yàn)中,我們使用梯度提升迭代決策樹算法(gradient boosting decision tree, GBDT)[13]模型來完成后續(xù)機(jī)器學(xué)習(xí)過程,彌補(bǔ)人工特征生成的局限性.GBDT算法是一種用于數(shù)據(jù)分類和回歸的集成學(xué)習(xí)[14]算法.該算法是由多棵類似分類回歸樹(classi-fication and regression tree, CART)[15]的決策樹組成,將算法中所有決策樹的輸出結(jié)果累加起來就是GBDT的最終輸出結(jié)果,它在被提出之初就和支持向量機(jī)(support vector machine, SVM)[16]一起被稱為泛化能力較強(qiáng)的算法,并都是數(shù)據(jù)分析中常用到的學(xué)習(xí)算法.GBDT模型的數(shù)學(xué)表達(dá)式可表示為

      (11)

      其中,b(x;γm)代表第m棵決策樹,βm是第m棵決策樹的權(quán)重.

      我們選擇GBDT算法模型的原因是,該模型中的每棵決策樹都是回歸決策樹,因此它可以較好解決數(shù)據(jù)回歸問題并具有高檢測(cè)精度的特性.此外該算法可有效處理異常點(diǎn),還能在一定程度上避免模型過擬合問題.

      3.2 數(shù)據(jù)集

      我們使用的數(shù)據(jù)集是包括8 102個(gè)視頻會(huì)話的XDR話單數(shù)據(jù)集,數(shù)據(jù)來自于某地區(qū)網(wǎng)絡(luò)真實(shí)OTT業(yè)務(wù)匿名化數(shù)據(jù)集,以標(biāo)準(zhǔn)的XDR格式提供,每個(gè)視頻會(huì)話有預(yù)先標(biāo)記好的視頻質(zhì)量主觀分,該主觀分的表達(dá)式為

      Lable=100-lag,

      (12)

      其中l(wèi)ag是使用APP上報(bào)信令分析方法計(jì)算出的視頻卡頓時(shí)長(zhǎng)占比,見本文1.2節(jié).一般認(rèn)為網(wǎng)絡(luò)用戶在觀看視頻時(shí),卡頓時(shí)長(zhǎng)占比越高則視頻質(zhì)量越差.

      作為對(duì)比,本文針對(duì)原始XDR話單數(shù)據(jù)使用同樣的模型進(jìn)行訓(xùn)練和預(yù)測(cè),該原始XDR話單數(shù)據(jù)包括了24 715條XDR話單.

      3.3 評(píng)估指標(biāo)

      我們參考每個(gè)視頻會(huì)話中預(yù)先標(biāo)記好的視頻質(zhì)量主觀分(式(12)),使用3個(gè)指標(biāo)來評(píng)估本文方法的可行性,分別為:

      1) 平均絕對(duì)誤差(mean absolute error),記為mae.是絕對(duì)誤差的平均值,能夠直接反映視頻質(zhì)量評(píng)分誤差的真實(shí)情況,定義如下:

      2) 均方差(mean squared error),記為mse.是最簡(jiǎn)單,應(yīng)用最廣泛的圖像評(píng)價(jià)方法之一,可以很好地衡量視頻質(zhì)量評(píng)分和視頻質(zhì)量主觀分之間的偏差,定義如下:

      3) 平均偏差誤差(mean deviation error),記為mde.可以較好地反映視頻質(zhì)量評(píng)分與視頻質(zhì)量主觀分之間的平均差異,定義如下:

      以上3個(gè)指標(biāo)是常用的衡量觀測(cè)值與真值之間偏差的參數(shù),能夠較好地反映出本文中視頻質(zhì)量評(píng)分和主觀分之間的差異.本文通過比較提取后數(shù)據(jù)和原始數(shù)據(jù)在不同學(xué)習(xí)率下的mae,mse,mde,來說明該提取方法的高效性和有用性.除此之外,本文還選用常用性能參數(shù)PLCC,SROCC,KROCC來輔助評(píng)價(jià)算法的好壞.這3個(gè)指標(biāo)夠較好地刻畫數(shù)據(jù)之間的相關(guān)性.

      3.4 結(jié)果及分析

      本文分別使用原始數(shù)據(jù)、本文提取的特征信息進(jìn)行訓(xùn)練和用戶感知質(zhì)量評(píng)估,采用0.1~0.9的不同學(xué)習(xí)率來訓(xùn)練模型,在每次訓(xùn)練過程期間訓(xùn)練數(shù)據(jù)是隨機(jī)選擇的.結(jié)果如表2、表3所示.很顯然,學(xué)習(xí)率越高,得到的結(jié)果越準(zhǔn)確,其原因是GBDT模型的估計(jì)精度取決于訓(xùn)練集的大小.

      表2是直接以原始XDR話單數(shù)據(jù)為輸入對(duì)用戶感知質(zhì)量評(píng)估的結(jié)果.可以看到,在學(xué)習(xí)率較低的情況下,基于原始XDR的視頻質(zhì)量評(píng)估結(jié)果存在較大誤差;雖然隨著學(xué)習(xí)率的增加,mae和mse確實(shí)可以有效降低,但mse仍然無法降低至可以接受的范圍.基于mse對(duì)異常值敏感,而mae對(duì)異常值不敏感這一特性,基本可以得出結(jié)論:該方法對(duì)一些異常值的預(yù)測(cè)能力較差.而事實(shí)上,卡頓導(dǎo)致的視頻質(zhì)量下降恰好是屬于這些異常值,因此使用原始XDR話單數(shù)據(jù)對(duì)視頻質(zhì)量進(jìn)行評(píng)估,很難取得良好效果.

      Table 2 Experimental Result of Initial Data at Different Learning Rates

      表3是以本文提取的特征信息為輸入、使用同樣的算法模型和參數(shù)的用戶感知質(zhì)量評(píng)估結(jié)果,可以看到,在不同的學(xué)習(xí)率中,mae,mse,mde均明顯低于原始數(shù)據(jù)實(shí)驗(yàn)結(jié)果;其中mse雖然隨著學(xué)習(xí)率的變化而顯著變化,但總體保持在較低水平.

      Table 3 Experimental Result of Extraction Data at Different Learning Rates

      進(jìn)一步將基于兩類數(shù)據(jù)的評(píng)估結(jié)果進(jìn)行對(duì)比,如圖5~7所示,可以看出,采用本文方法提取的質(zhì)量特征信息,只需要很少的學(xué)習(xí)率即可實(shí)現(xiàn)較高的評(píng)估準(zhǔn)確性.本文提取的質(zhì)量特征數(shù)量?jī)H為原始XDR字段數(shù)量的6.7%,可以看出原始XDR數(shù)據(jù)不僅數(shù)據(jù)量大,而且直接利用價(jià)值較低.而在使用本文方法進(jìn)行信息加工后,不僅能顯著減小數(shù)據(jù)規(guī)模,還能大幅度降低學(xué)習(xí)率并顯著提升質(zhì)量評(píng)估結(jié)果的準(zhǔn)確性.

      Fig. 5 Comparison of mae between two data sets圖5 2個(gè)數(shù)據(jù)集平均絕對(duì)誤差對(duì)比

      Fig. 6 Comparison of mse between two data sets圖6 2個(gè)數(shù)據(jù)集均方差對(duì)比

      Fig. 7 Comparison of mde between two data sets圖7 2個(gè)數(shù)據(jù)集平均偏差誤差對(duì)比

      進(jìn)一步,選用圖像質(zhì)量分析領(lǐng)域常用的評(píng)價(jià)參數(shù)PLCC,SROCC,KROCC來輔助評(píng)價(jià)本文方法的效果,這3個(gè)參數(shù)均為相關(guān)系數(shù),取值范圍是[-1,1],越接近1表示相關(guān)性越強(qiáng).由于目前已知的文獻(xiàn)中,尚缺乏可驗(yàn)證的從XDR數(shù)據(jù)中提取特征的方法介紹,因此本文不做類似方法的比對(duì).分別將基于本文提取數(shù)據(jù)、原始XDR數(shù)據(jù)的視頻質(zhì)量評(píng)估結(jié)果與主觀評(píng)分進(jìn)行相關(guān)性分析,獲得的相關(guān)系數(shù)值如表4所示:

      Table 4 Performance of the Proposed Method

      通過表4可以看出,使用本文方法的視頻質(zhì)量評(píng)價(jià)結(jié)果表現(xiàn)出了與主觀評(píng)價(jià)結(jié)果的明顯相關(guān)性,其PLCC,SROCC,KROCC指標(biāo)均明顯優(yōu)于基于原始XDR話單的評(píng)價(jià)結(jié)果.

      4 結(jié) 論

      針對(duì)OTT視頻業(yè)務(wù)質(zhì)量評(píng)估,本文提出了一種基于XDR的信息提取方法.首先將多條原始XDR話單進(jìn)行聚合,將以會(huì)話為單位的XDR話單以時(shí)間和空間方式進(jìn)行關(guān)聯(lián),形成為以時(shí)間窗口為單位的切片記錄,然后將多個(gè)切片記錄進(jìn)行匯聚,形成對(duì)視頻過程的總體質(zhì)量記錄.

      以本文提取的信息作為機(jī)器學(xué)習(xí)算法輸入,能夠得到較為精確的視頻質(zhì)量評(píng)估結(jié)果,與原始XDR數(shù)據(jù)相比,本文生成的特征數(shù)據(jù)與真實(shí)視頻質(zhì)量具有更高的相關(guān)性,數(shù)據(jù)量更小,所需學(xué)習(xí)率更低,評(píng)估結(jié)果也更為準(zhǔn)確.

      猜你喜歡
      話單字段評(píng)估
      圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
      河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語(yǔ)音學(xué)初探
      采用大數(shù)據(jù)技術(shù)的移動(dòng)DPI關(guān)聯(lián)算法探索及實(shí)現(xiàn)
      評(píng)估依據(jù)
      CNMARC304字段和314字段責(zé)任附注方式解析
      無正題名文獻(xiàn)著錄方法評(píng)述
      立法后評(píng)估:且行且盡善
      浙江人大(2014年5期)2014-03-20 16:20:25
      關(guān)于CNMARC的3--字段改革的必要性與可行性研究
      GSM-R移動(dòng)交換機(jī)ASN.1話單的解碼
      GPRS按時(shí)長(zhǎng)計(jì)費(fèi)模塊的優(yōu)化與應(yīng)用
      桐乡市| 高唐县| 绥棱县| 同心县| 襄城县| 河池市| 娄底市| 修文县| 邯郸县| 肇庆市| 渝北区| 永福县| 德令哈市| 丹巴县| 东方市| 罗城| 交城县| 临安市| 黄大仙区| 凌源市| 伊金霍洛旗| 五莲县| 张家口市| 桓仁| 永清县| 利川市| 射阳县| 临漳县| 府谷县| 卫辉市| 涟源市| 西宁市| 松江区| 徐水县| 屯留县| 班玛县| 苏尼特右旗| 冷水江市| 同德县| 丁青县| 南靖县|