余雪芬
(中國電信股份有限公司福州分公司,福建 福州 350001)
客戶對業(yè)務(wù)的服務(wù)質(zhì)量的感知是在業(yè)務(wù)生命周期中產(chǎn)生的。從產(chǎn)品角度來說,業(yè)務(wù)生命周期包含了產(chǎn)品銷售和協(xié)商階段、產(chǎn)品開通及實現(xiàn)階段、產(chǎn)品體驗及付費階段、產(chǎn)品使用結(jié)束及銷戶階段[1]?;ヂ?lián)網(wǎng)產(chǎn)品體驗及付費階段占據(jù)全生命周期比例最大,且對客戶QoE(Quality of Experience)最重要?;ヂ?lián)網(wǎng)產(chǎn)品體驗及付費階段QoE指標(biāo)包括“端到端業(yè)務(wù)可用性”以及“業(yè)務(wù)訪問完成時間”兩個指標(biāo)?,F(xiàn)網(wǎng)中,運營商“端到端業(yè)務(wù)可用性”通常為“接入段和IP網(wǎng)業(yè)務(wù)可用性”,通常通過網(wǎng)管告警、群障攔截系統(tǒng)進行可用性故障快速發(fā)現(xiàn)和通知。但對于“業(yè)務(wù)訪問完成時間”,目前預(yù)檢預(yù)修的手段多為通過部署探針實現(xiàn)QoE指標(biāo)數(shù)據(jù)收集、分析,結(jié)果呈現(xiàn)和質(zhì)差派單。這種方法存在若干問題,首先檢測數(shù)據(jù)不是用戶實際業(yè)務(wù)訪問數(shù)據(jù),其次撥測請求頻繁度高與服務(wù)提供商防DDoS相悖,最后探針部署及維護都頗具難度。因此,本文提出基于骨干網(wǎng)上行流量深度報文檢測的網(wǎng)速慢評估方法,目的在于提升網(wǎng)速慢發(fā)現(xiàn)精準(zhǔn)性,實現(xiàn)網(wǎng)速慢預(yù)檢預(yù)修。
DPI是客戶報文數(shù)據(jù)流的深度解析,能夠記載所有業(yè)務(wù)訪問產(chǎn)生流量的報文交互情況[2]。由于骨干網(wǎng)下行流量巨大,現(xiàn)網(wǎng)中通常不存儲下行流量,僅存儲上行HTTP端口流量。本網(wǎng)速慢評估方法都是基于上行HTTP端口流量分析基礎(chǔ)之上。
根據(jù)DPI記錄流量聚集數(shù)據(jù),生成以下TCP會話傳輸質(zhì)量特征的解析:
運營商接入用戶作為客戶端是TCP連接主動發(fā)起方,若客戶端發(fā)SYN報文,遠端服務(wù)端未響應(yīng)或者SYN、ACK丟包,則TCP未建鏈成功,TCP建鏈確認(rèn)時延為空,正常則有TCP建鏈確認(rèn)時延能夠表征端到端連接時延。
運營商接入用戶作為客戶端是TCP連接主動發(fā)起方,如果上行DPI流量匯聚點到遠端出現(xiàn)數(shù)據(jù)請求丟包或者下行遠端服務(wù)端到客戶端出現(xiàn)丟包,這時,客戶端會重新請求,產(chǎn)生duplicated ACK,則為重傳報文。
客戶端作為服務(wù)端為TCP連接響應(yīng)方,如果上行DPI流量匯聚點到遠端出現(xiàn)數(shù)據(jù)丟包或者下行遠端客戶端到本端服務(wù)端確認(rèn)出現(xiàn)丟包。這時,本端服務(wù)端會重傳數(shù)據(jù)包。
總之,由于固網(wǎng)DPI僅記錄上行數(shù)據(jù)包,因此,重傳報文只能代表上行DPI流量匯聚點到遠端或者下行遠端到本端用戶之間網(wǎng)絡(luò)存在丟包。
亂序報文代表報文由DPI匯聚點收集后記錄的SEQ出現(xiàn)位置錯位的現(xiàn)象。原因可能為網(wǎng)絡(luò)路徑導(dǎo)致亂序、丟包重傳導(dǎo)致亂序[3]。如果本端接入用戶到DPI匯聚點上行報文出現(xiàn)丟包,則將出現(xiàn)TCP報文亂序。綜上,僅上行報文無法判斷亂序報文產(chǎn)生的原因,但是本端用戶到DPI匯聚點上行報文出現(xiàn)丟包,則將出現(xiàn)TCP報文亂序。
會話級別TCP建鏈嘗試次數(shù)代表TCP建立握手連接嘗試的次數(shù)。次數(shù)較多可能是服務(wù)端問題也可能是網(wǎng)絡(luò)丟包導(dǎo)致。
針對上述session級別流量特征因子,生成用戶級別DPI流量匯總信息如表1所示。
表1 用戶級別DPI流量信息匯總
限制目的IP位于運營商為與接入運營商相同的運營商,將用戶申告網(wǎng)速慢的申告記錄結(jié)合上行DPI HTTP數(shù)據(jù)進行分析。按照仿真分析結(jié)果,隨著各類重傳率、各類亂序率、TCP建鏈確認(rèn)時延中值、TCP建鏈嘗試次數(shù)中值提升,相較于目的IP不做篩選處理,對用戶感知異常率發(fā)現(xiàn)有明顯改善。因此,限制目的IP位于同網(wǎng)運營商,能夠提高基于骨干網(wǎng)上行HTTP流量發(fā)現(xiàn)網(wǎng)速慢用戶的準(zhǔn)確性[4]。
增加網(wǎng)速慢申告樣本量至約4 000例。通過仿真發(fā)現(xiàn):
(1)隨著上行重傳率增加,異常感知用戶率占比升高,上行重傳率40%,異常感知用戶率>80%。
(2)在上行亂序率<35%時,隨著上行亂序率增加,異常感知用戶率占比升高。
(3)在TCP建鏈確認(rèn)時延中值<200ms時,隨著時延中值的增加,異常感知用戶率占比升高。特別是在130ms時,異常感知用戶率激增。在200ms以后,異常感知用戶率約穩(wěn)定在70%。
(4)隨著TCP建鏈嘗試次數(shù)中值增加,異常感知用戶率占比升高,上行重傳率4,異常感知用戶率≈100%。
上行重傳率、上行亂序率與用戶感知異常率關(guān)聯(lián)關(guān)系。(1)上行重傳率40%,異常感知用戶率占比>80%:按照前文分析,上行重傳率特別高代表下行丟包高,指示業(yè)務(wù)使用感知裂化。(2)20%上行重傳率<40%且20%上行亂序率<35%,異常感知用戶率占比>80%:按照第二章分析,同時上行重傳率和亂序率高可能代表用戶家庭內(nèi)網(wǎng)質(zhì)差,指示業(yè)務(wù)感知裂化(見圖1)。
圖1 上行流量特征與網(wǎng)速慢的二元變化關(guān)系
DPI數(shù)據(jù)相比于探針數(shù)據(jù)具備數(shù)據(jù)量持續(xù)、數(shù)據(jù)量真實的優(yōu)勢。用持續(xù)、真實的流量特征來觀測用戶感知,如果流量特征異常,則能夠指示用戶使用業(yè)務(wù)感知異常。但由于DPI數(shù)據(jù)量特別大,通常只有指定時間段的上行指定端口(HTTP/HTTPS)的流量,這又給監(jiān)測用戶感知帶來很大的難度。本文通過提取用戶DPI流量特征,研究用戶申告網(wǎng)速慢與DPI流量特征的關(guān)聯(lián)關(guān)系,提出了一種基于骨干網(wǎng)上行流量深度報文檢測的網(wǎng)絡(luò)質(zhì)差評估方法,準(zhǔn)確率可以達到80%,能夠投入生產(chǎn)使用。