張鷙,王浩
(中國(guó)移動(dòng)通信集團(tuán)遼寧有限公司,沈陽 110179)
行業(yè)端口業(yè)務(wù)因能夠彌補(bǔ)互聯(lián)網(wǎng)數(shù)據(jù)離線導(dǎo)致的通知不可達(dá),受到移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)青睞,業(yè)務(wù)量連年遞增。當(dāng)前對(duì)違規(guī)的行業(yè)端口管理以接到投訴后關(guān)停為主,治理環(huán)節(jié)滯后、粗暴,安全管理與業(yè)務(wù)發(fā)展無法有效平衡。本文基于運(yùn)營(yíng)商行業(yè)端口短信管理現(xiàn)狀,提出了一套行業(yè)端口垃圾短信主動(dòng)防御體系。從短信炸彈監(jiān)控、快速模板匹配、業(yè)務(wù)量監(jiān)測(cè)預(yù)警及百萬投訴比顯性呈現(xiàn)等角度實(shí)現(xiàn)了化被動(dòng)治理為主動(dòng)研判,前置了風(fēng)險(xiǎn)預(yù)警及處置環(huán)節(jié),有效提升行業(yè)端口業(yè)務(wù)質(zhì)量,降低端口業(yè)務(wù)投訴率。
在工業(yè)和信息化部指導(dǎo)下,為切實(shí)履行企業(yè)社會(huì)責(zé)任,運(yùn)營(yíng)商逐漸規(guī)范行業(yè)短信運(yùn)營(yíng)管理。技術(shù)手段方面,建設(shè)了垃圾短信攔截系統(tǒng)、先審后發(fā)平臺(tái)等,通過關(guān)鍵字匹配+流量監(jiān)控+人工審核的模式實(shí)現(xiàn)了不良信息的發(fā)現(xiàn)及處置。管理方面,多從投訴及攔截?cái)?shù)據(jù)入手,發(fā)現(xiàn)違法違規(guī)信息或投訴量異常增長(zhǎng)則立即對(duì)端口進(jìn)行關(guān)停。上述技管結(jié)合的手段在前期治理過程取得較好效果,抑制了大部分行業(yè)端口不良信息。但隨著行業(yè)端口業(yè)務(wù)運(yùn)營(yíng)的深入,傳統(tǒng)治理手段暴露出以下問題:一是難以應(yīng)對(duì)新型多端口并發(fā)型短信炸彈攻擊,造成大量用戶被騷擾,產(chǎn)生投訴。二是基于關(guān)鍵字+人工審核的處置流程可能造成未超過攔截門限的部分短信已經(jīng)發(fā)送到客戶手機(jī),即不良信息、轉(zhuǎn)租轉(zhuǎn)售、超范圍發(fā)送等違規(guī)行為的發(fā)現(xiàn)和違規(guī)端口處理存在滯后性。三是完全基于短信內(nèi)容的監(jiān)控?zé)o法及時(shí)應(yīng)對(duì)變體短信發(fā)送。四是投訴關(guān)停未與業(yè)務(wù)屬性相結(jié)合,造成業(yè)務(wù)量大的短信端口因部分投訴被關(guān)停,對(duì)業(yè)務(wù)發(fā)展造成極大的負(fù)面影響。
2.1.1 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)
行業(yè)端口短信發(fā)送流程如圖1所示,由集團(tuán)客戶管理員將發(fā)送內(nèi)容提交至本省行業(yè)網(wǎng)關(guān)。行業(yè)網(wǎng)關(guān)根據(jù)行業(yè)端口在網(wǎng)狀態(tài)、黑白名單、端口服務(wù)范圍、速率等參數(shù)對(duì)信息發(fā)送行為進(jìn)行鑒權(quán),拒絕不合規(guī)的發(fā)送明細(xì)。隨后,根據(jù)目的號(hào)碼歸屬地分揀至接收號(hào)碼短信中心并發(fā)送至客戶手機(jī)??梢钥闯?,本省行業(yè)網(wǎng)關(guān)是行業(yè)短信的鑒權(quán)、轉(zhuǎn)發(fā)、匯接的核心節(jié)點(diǎn)。故我們將行業(yè)短信主動(dòng)防御系統(tǒng)設(shè)計(jì)串接至客戶側(cè)短信發(fā)送平臺(tái)與省內(nèi)行業(yè)網(wǎng)關(guān)之間。此網(wǎng)絡(luò)架構(gòu)可實(shí)現(xiàn)對(duì)全量行業(yè)短信的監(jiān)控,監(jiān)測(cè)對(duì)象包括了省內(nèi)、省外的端口及用戶,確保了不良信息或異常業(yè)務(wù)的零死角實(shí)時(shí)阻斷。
圖1 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)圖
2.1.2 業(yè)務(wù)流程設(shè)計(jì)
基于上述網(wǎng)絡(luò)架構(gòu),我們?cè)O(shè)計(jì)了系統(tǒng)核心交互流程,如圖2所示。所有提交至行業(yè)網(wǎng)關(guān)的短信消息首先提交至PROXY(通信代理子系統(tǒng)),再經(jīng)KERNEL(核心處理子系統(tǒng))進(jìn)行監(jiān)控。核心處理子系統(tǒng)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)及匯總后,根據(jù)預(yù)先配置的監(jiān)控規(guī)則組進(jìn)行風(fēng)險(xiǎn)行為的預(yù)判。預(yù)判違規(guī)規(guī)則包括是否符合短信炸彈發(fā)送模型、發(fā)送內(nèi)容與該端口的短信模板是否完整匹配或模糊匹配。數(shù)據(jù)統(tǒng)計(jì)規(guī)則包括本時(shí)段產(chǎn)生的業(yè)務(wù)量較根據(jù)歷史情況預(yù)測(cè)的業(yè)務(wù)量是否存在異常增長(zhǎng)、是否產(chǎn)生較高的投訴比。此兩數(shù)據(jù)不作為直接關(guān)停端口或?yàn)橛脩羝帘味绦诺囊罁?jù),僅用以異常事件預(yù)警提示。
根據(jù)用戶投訴數(shù)據(jù)分析,目前出現(xiàn)新型垃圾短信轟炸形式。有別于傳統(tǒng)利用存在管理漏洞的某一個(gè)端口頻繁向用戶發(fā)送短信,新型轟炸形式是在短時(shí)間內(nèi)利用多個(gè)端口向同一用戶發(fā)送短信。由于端口本身未發(fā)送任何違規(guī)信息,也未出現(xiàn)短時(shí)間內(nèi)頻繁發(fā)送短信的行為,傳統(tǒng)的單一端口流量限制的治理手段已無法應(yīng)對(duì)新型短信炸彈攻擊。
為解決上述問題,本平臺(tái)短信炸彈防護(hù)功能設(shè)計(jì)以用戶感知為導(dǎo)向,通過對(duì)用戶單位時(shí)間內(nèi)收到的行業(yè)短信數(shù)量(包括省內(nèi)、省外行業(yè)短信)進(jìn)行累加,統(tǒng)計(jì)用戶接收短信數(shù)量。當(dāng)用戶接收短信數(shù)量超出閾值時(shí),系統(tǒng)判定為該用戶遭受短信炸彈騷擾。解決方案是暫時(shí)將其手機(jī)號(hào)納入行業(yè)網(wǎng)關(guān)系統(tǒng)黑名單中,暫停行業(yè)端口向其發(fā)送短信。
該功能支持靈活的參數(shù)配置,可根據(jù)實(shí)際需要對(duì)時(shí)間窗口和短信數(shù)量進(jìn)行動(dòng)態(tài)調(diào)整,如30s內(nèi)10條或1min內(nèi)25條等。為便于后續(xù)處置,系統(tǒng)對(duì)監(jiān)控判定的異常轟炸情況進(jìn)行短信預(yù)警,提醒管理人員對(duì)預(yù)警明細(xì)盡快確認(rèn),如涉及違規(guī)端口即刻開展處置,并可根據(jù)用戶需求和實(shí)際情況選擇對(duì)被叫用戶是否取消屏蔽或繼續(xù)屏蔽。
在行業(yè)端口業(yè)務(wù)運(yùn)營(yíng)過程中發(fā)現(xiàn)大量行業(yè)端口發(fā)送非簽約內(nèi)容,甚至違法違規(guī)信息。為解決此問題,針對(duì)高危風(fēng)險(xiǎn)或業(yè)務(wù)質(zhì)量較差的端口建立了模板過濾機(jī)制。納入過濾機(jī)制的行業(yè)端口只允許發(fā)送指定內(nèi)容或部分變量短信,系統(tǒng)對(duì)模板范圍以外的短信內(nèi)容予以拒絕。根據(jù)業(yè)務(wù)需要,每個(gè)行業(yè)端口可能設(shè)置很多個(gè)子端口,每個(gè)子端口對(duì)應(yīng)不同的業(yè)務(wù),每個(gè)業(yè)務(wù)都需要使用模板判定。為提高多發(fā)并行的模板匹配效率,本系統(tǒng)提出了一種利用線性滑動(dòng)抽取算法,提取每個(gè)模板的獨(dú)有特征信息,快速定位到待鑒權(quán)消息對(duì)應(yīng)的模板,減少匹配次數(shù),提高模板審核效率。算法的主要原理如下。
圖2 業(yè)務(wù)流程圖
使用兩個(gè)指針left和right在源模板串中提取最長(zhǎng)漢字串,二者組成一個(gè)線性滑動(dòng)窗口,窗口大小由模板串中連續(xù)漢字串的長(zhǎng)度決定。首先,定義一個(gè)全局變量max以保存該模板中最長(zhǎng)漢字串長(zhǎng)度。該值初始值為零,并不斷更新;再定義一個(gè)全局變量pos保存漢字串首位置。初值也為零,隨max一起更新。初始狀態(tài)時(shí),兩指針均指向模板的串首字符。隨著指針的動(dòng)向決策,分為以下幾種情況。
(1)如果right指針指向的字符為漢字字符, left指針保持原位置,right指針向右滑動(dòng)。
(2)如果right指針指向的字符不是漢字字符,計(jì)算right left并與max值比較,若left right>max,則將right left賦給max,并將left的賦值給pos,最后將right賦值給left。
(3)當(dāng)right滑動(dòng)到模板串的最后一個(gè)字符時(shí),整個(gè)算法過程結(jié)束。
max保存最長(zhǎng)漢字串的長(zhǎng)度,pos保存最長(zhǎng)漢字串的起始位置??赏瓿梢淮慰截愋缘淖铋L(zhǎng)漢字串拷貝。
圖3 線性滑動(dòng)抽取算法圖例
抽取過程中,指針均不會(huì)回退,當(dāng)right指針指向模板串的尾字符時(shí),抽取的過程結(jié)束。算法的時(shí)間復(fù)雜度為O(NM),其中,NM為模板串長(zhǎng)度,只需對(duì)模板串遍歷一次便可抽取出該模板的特征信息,與傳統(tǒng)提取算法相比提升了一個(gè)量級(jí)。經(jīng)測(cè)試,長(zhǎng)度為135 byte的模板提取耗時(shí)由0.054 s縮短至0.000 57 s。
垃圾短信攔截系統(tǒng)的工作原理是對(duì)短信發(fā)送內(nèi)容中的關(guān)鍵字和短信發(fā)送量進(jìn)行監(jiān)控和判斷,對(duì)符合判定規(guī)則的短信判定為垃圾短信。但在日常治理過程中,違規(guī)分子為了逃避系統(tǒng)攔截,會(huì)對(duì)短信文本進(jìn)行加工變體再配合特殊字符,例如“微信”變體為“薇?信)?!睘榻鉀Q變體不良信息難以監(jiān)控及攔截的問題,我們提出了基于業(yè)務(wù)異常流量進(jìn)行不良信息行為分析研判的思路。行業(yè)用戶短信發(fā)送行為遵循一定的周期性規(guī)律,例如僅在工作日的上午10:00-12:00發(fā)送或每周三下午4:00等。如果端口被盜用以發(fā)送不良信息,一般會(huì)出現(xiàn)在非常規(guī)時(shí)段且會(huì)產(chǎn)生業(yè)務(wù)量的激增。根據(jù)上述模型,我們?cè)O(shè)計(jì)了行業(yè)短信日發(fā)送量畫像功能,基于歷史發(fā)送情況對(duì)行業(yè)端口每天的業(yè)務(wù)量進(jìn)行預(yù)測(cè),并根據(jù)這個(gè)預(yù)測(cè)值監(jiān)控行業(yè)端口流量的異常變化。當(dāng)流量超過設(shè)定值的冗余比例時(shí),觸發(fā)預(yù)警功能,及時(shí)提醒業(yè)務(wù)管理員對(duì)事件進(jìn)行確認(rèn)。
本文所述系統(tǒng)使用“多元線性回歸算法+浮動(dòng)修正”的方式對(duì)日發(fā)送量策略進(jìn)行自適應(yīng)調(diào)整,預(yù)測(cè)指定時(shí)段發(fā)送量值,從而進(jìn)行端口被盜風(fēng)險(xiǎn)管理的態(tài)勢(shì)分析。算法主要原理如下:
多元線性回歸算法的數(shù)學(xué)模型為
其中:θ0、θ1、θ2、…θi、…θn為待求解參數(shù);y為真實(shí)值,為預(yù)測(cè)值。
利用最小二乘法定義損失函數(shù)為:
其中: θ為待求解參數(shù)向量, yi(θ)為預(yù)測(cè)值,yi為實(shí)際值;損失函數(shù)越小,表明算法的效果越佳。
利用隨機(jī)梯度下降算法,最小化損失函數(shù):
對(duì)上式求駐點(diǎn)得到解析式:
我們可以設(shè)置每天的3個(gè)時(shí)段為特征,其中兩個(gè)時(shí)段作為普通端口的發(fā)送時(shí)段特征,另外一個(gè)作為被盜端口的發(fā)送時(shí)段特征,若端口未被盜,則這個(gè)時(shí)段內(nèi)的發(fā)送量幾乎為零,也就不會(huì)影響該端口整體的日發(fā)送量。每個(gè)時(shí)段每分鐘發(fā)送的消息量作為待訓(xùn)練參數(shù),作為預(yù)測(cè)日發(fā)送量值的參數(shù),即θ=(θ1,θ2,θ3)T,其中:θ1為時(shí)段1每分鐘的發(fā)送量,θ2為時(shí)段2每分鐘的發(fā)送量,θ3為時(shí)段3每分鐘的發(fā)送量;利用上述算法,基于樣本數(shù)據(jù),能夠順利的訓(xùn)練出這些參數(shù);我們便可以根據(jù)多元線性回歸數(shù)學(xué)模型預(yù)測(cè)出日發(fā)送量。
為更加科學(xué)合理地評(píng)價(jià)端口的業(yè)務(wù)質(zhì)量有助于支撐市場(chǎng)部門調(diào)整業(yè)務(wù)發(fā)展策略,篩選優(yōu)質(zhì)客戶,促進(jìn)端口業(yè)務(wù)健康運(yùn)營(yíng)。結(jié)合上級(jí)單位考核要求和市場(chǎng)部門實(shí)際需要,我們以圖形化界面形式展示行業(yè)端口百萬投訴率(投訴量/業(yè)務(wù)量×1 000 000)。相比于前期只看投訴量,不考慮業(yè)務(wù)貢獻(xiàn)的統(tǒng)計(jì)和治理方式,該指標(biāo)更客觀、更合理地呈現(xiàn)出業(yè)務(wù)質(zhì)量,實(shí)現(xiàn)了業(yè)務(wù)質(zhì)量的精細(xì)化管理,大幅降低了投訴量高就關(guān)停的粗暴管理方式對(duì)優(yōu)質(zhì)業(yè)務(wù)的負(fù)面影響。為了更全面客觀地展示業(yè)務(wù)健康度,我們分為按地市、時(shí)間及端口3個(gè)維度對(duì)行業(yè)端口投訴比進(jìn)行統(tǒng)計(jì)和展示。3類數(shù)據(jù)的圖形化呈現(xiàn)有助于對(duì)各市分公司業(yè)務(wù)水平實(shí)現(xiàn)橫向?qū)Ρ龋瑢?duì)投訴率變化趨勢(shì)進(jìn)行簡(jiǎn)單預(yù)測(cè),對(duì)某個(gè)端口的業(yè)務(wù)質(zhì)量也可清晰呈現(xiàn),作為治理策略調(diào)整的有力依據(jù)。
本文所述系統(tǒng)上線后,行業(yè)端口業(yè)務(wù)質(zhì)量顯著提升。一是快速響應(yīng)短信炸彈攻擊事件,平臺(tái)上線后累計(jì)攔截短信炸彈300余次,變體短信攔截時(shí)長(zhǎng)由1.5個(gè)工作日縮短至2 min以內(nèi)自動(dòng)攔截。二是及時(shí)研判和拒絕非模板化短信700余萬條,提高行業(yè)短信內(nèi)容的規(guī)范性和安全性。三是通過異常流量分析成功預(yù)警端口在凌晨被盜發(fā)送非法信息事件2起。四是促進(jìn)優(yōu)質(zhì)業(yè)務(wù)駐網(wǎng),數(shù)據(jù)顯示,行業(yè)端口月均業(yè)務(wù)量提高14.76%(藍(lán)線趨勢(shì)),投訴比降低19.66%(紅線趨勢(shì))如圖4所示。
圖4 業(yè)務(wù)量及投訴率變化情況
本文結(jié)合運(yùn)營(yíng)商行業(yè)端口業(yè)務(wù)運(yùn)營(yíng)經(jīng)驗(yàn),針對(duì)當(dāng)前管控的各項(xiàng)短板提出了一套完整的行業(yè)短信主動(dòng)防御方案。為解決最新出現(xiàn)的多端口并發(fā)式短信炸彈轟炸問題,以被叫用戶短信接收量為計(jì)數(shù)標(biāo)準(zhǔn),實(shí)現(xiàn)了靈活可控的轟炸行為監(jiān)控功能。對(duì)行業(yè)短口管理實(shí)行模板化自動(dòng)過濾,提高端口發(fā)送內(nèi)容的可控性。通過優(yōu)化算法實(shí)現(xiàn)了主端口下多模板并發(fā)的短信內(nèi)容快速校驗(yàn),有效支撐業(yè)務(wù)發(fā)展需要。使用“多元線性回歸算法+浮動(dòng)修正”的方式根據(jù)歷史業(yè)務(wù)量精準(zhǔn)預(yù)測(cè)當(dāng)前個(gè)性化業(yè)務(wù)量,并對(duì)預(yù)測(cè)值進(jìn)行了分時(shí)段統(tǒng)計(jì),提高業(yè)務(wù)量預(yù)測(cè)精細(xì)化程度。根據(jù)行業(yè)端口業(yè)務(wù)特點(diǎn)提出了對(duì)投訴比測(cè)算方式。該指標(biāo)的測(cè)算有助于真實(shí)體現(xiàn)業(yè)務(wù)質(zhì)量,對(duì)業(yè)務(wù)量大、投訴較小的業(yè)務(wù)進(jìn)行篩選,重點(diǎn)進(jìn)行資源傾斜和網(wǎng)絡(luò)保障,對(duì)業(yè)務(wù)質(zhì)量較差的及時(shí)進(jìn)行關(guān)?;驑I(yè)務(wù)整改。系統(tǒng)上線后,公司行業(yè)端口業(yè)務(wù)運(yùn)營(yíng)質(zhì)量顯著提升,在業(yè)務(wù)量及業(yè)務(wù)收入增加的基礎(chǔ)上,違規(guī)事件數(shù)量及投訴率大幅降低。
[1] 崔高俠. 基于信令監(jiān)測(cè)的垃圾短信監(jiān)控平臺(tái)設(shè)計(jì)和實(shí)現(xiàn)[D].濟(jì)南: 山東大學(xué), 2013.
[2] 肖子玉,呂姍. 信息安全與垃圾短信監(jiān)控[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2010,23(3):60-64.
[3] 劉金嶺. 基于語義信息的中文短信文本相似度研究[J]. 計(jì)算機(jī)工程學(xué)報(bào), 2012,38(13).