□王 琳 張秀芳
隨著各大運(yùn)營商對(duì)垃圾短信治理力度的加大,垃圾短信投放者為了躲避監(jiān)控和攔截,對(duì)垃圾短信的投放方式和投放內(nèi)容皆也在不斷變化改進(jìn),導(dǎo)致垃圾短信系統(tǒng)的攔截效果越來越差,普通垃圾短信監(jiān)控策略已不能適應(yīng)垃圾短信的快速變化,垃圾短信內(nèi)容的多變和趨常,已導(dǎo)致大量正常短信被誤攔截,給用戶的使用帶來不便的同時(shí)增加了短信的投訴量,對(duì)運(yùn)營商的品牌形象造成了惡劣影響。為了保證用戶正常短信業(yè)務(wù)的使用,對(duì)日益頻繁、不斷變異的垃圾短信做到更精確的識(shí)別處理,對(duì)現(xiàn)有垃圾短信平臺(tái)進(jìn)行優(yōu)化,有效改善用戶短信業(yè)務(wù)體驗(yàn)。
(一)智能分析功能。針對(duì)垃圾短信投放方式及內(nèi)容的不斷變化,智能分析模塊利用當(dāng)前領(lǐng)先的短信綜合特征技術(shù),通過“歷史短信樣本綜合特征”快速匹配方案、短信相似內(nèi)容聚類、新策略智能生成等方式,不斷自動(dòng)循環(huán)來生成新的攔截策略,來應(yīng)對(duì)不斷變異的垃圾短信。
1.實(shí)現(xiàn)思路。本功能整體實(shí)現(xiàn)由兩部分組成,一是利用當(dāng)前已有的攔截策略對(duì)現(xiàn)網(wǎng)垃圾短信進(jìn)行攔截,二是利用已攔截的垃圾短信,通過分析其發(fā)送內(nèi)容及方式的變化,生成新的攔截策略。通過這種智能化的循環(huán)可以及時(shí)有效地對(duì)垃圾短信進(jìn)行動(dòng)態(tài)的攔截。
2.智能分析功能實(shí)現(xiàn)。
(1)垃圾短信內(nèi)容自動(dòng)審核。為了更精準(zhǔn)地對(duì)垃圾短信進(jìn)行識(shí)別,河北聯(lián)通創(chuàng)新了一種基于“歷史短信樣本綜合特征”的快速自動(dòng)匹配方案。在第一時(shí)間對(duì)疑似垃圾短信內(nèi)容進(jìn)行精準(zhǔn)分類識(shí)別。一是垃圾短信語義分析,算法分類。干擾字符剔除等干擾字符,還原真實(shí)內(nèi)容;變種字符轉(zhuǎn)換;短信分詞,按分詞庫提取分詞,分詞庫可管理、維護(hù);變種關(guān)鍵字詞還原;分詞結(jié)果積分計(jì)算,每分詞對(duì)應(yīng)不同短信類型的積分不同,分詞及其積分值,可維護(hù)、調(diào)整。根據(jù)算法公式計(jì)算得出單條短信的所屬類型。二是相似短信排重。使用HASH 算法(散列值),對(duì)短信內(nèi)容完全相同的數(shù)據(jù)進(jìn)行排重;剔除干擾字符、還原變種關(guān)鍵字和廣告主、剔除感嘆詞及助詞等無意義內(nèi)容后,剩余內(nèi)容完全相同的短信進(jìn)行相似短信排重;根據(jù)短信分詞結(jié)果,按分詞聚類系數(shù),對(duì)短信內(nèi)容高度相似的數(shù)據(jù)進(jìn)行聚類。三是自動(dòng)匹配審核。提取垃圾短信“綜合特征”關(guān)鍵字、提取“黑關(guān)鍵字詞”;依據(jù)歷史短信樣本池?cái)?shù)據(jù)進(jìn)行自動(dòng)匹配審核,歷史池通過人工二次補(bǔ)審不斷補(bǔ)充積累;匹配條件:垃圾短信“綜合特征”關(guān)鍵字相同、提取的“黑關(guān)鍵字詞”有(0~20個(gè)字詞,可設(shè)置調(diào)整)相同。
(2)垃圾短信相似內(nèi)容聚類。垃圾短信群發(fā)商在進(jìn)行短信群發(fā)時(shí),經(jīng)常通過修改短信內(nèi)容中的個(gè)別關(guān)鍵字詞、新增關(guān)鍵字詞變種,怎樣快速識(shí)別相似短信,提取共性特征是“短信相似聚類”的一個(gè)重要目的。一是按內(nèi)容聚類。剔除“干擾字符”、“還原變種關(guān)鍵字和廣告主”、剔除“感嘆詞”及“助詞”等“無意義關(guān)鍵字詞”或“白關(guān)鍵字詞”內(nèi)容后,剩余內(nèi)容完全相同的短信進(jìn)行相似短信排重。二是按關(guān)鍵字詞聚類。根據(jù)短信分詞結(jié)果,按分詞聚類系數(shù),對(duì)短信內(nèi)容高度相似的數(shù)據(jù)進(jìn)行聚類。三是新策略智能生成。除現(xiàn)有策略優(yōu)化外,新增策略也是以往策略維護(hù)工作中的難題,人工對(duì)7個(gè)AND7個(gè)OR 的策略進(jìn)行提取是一件非常復(fù)雜繁瑣的工作,“垃圾短信監(jiān)控策略生成模塊”簡而言之是為了將垃圾短信中提取出來的中文關(guān)鍵詞作為攔截關(guān)鍵詞而服務(wù)的,攔截系統(tǒng)可以利用此項(xiàng)技術(shù)來不斷更新需要攔截的關(guān)鍵字策略組合。一是提取的關(guān)鍵字可以是變種或非變種的組合。二是提取垃圾短信中包含的“廣告主號(hào)碼”,并對(duì)廣告主號(hào)碼進(jìn)行自動(dòng)分類中文關(guān)鍵字提取,是循環(huán)自動(dòng)進(jìn)行提取,通過對(duì)現(xiàn)有一定數(shù)量的已審核垃圾短信和正常短信樣本進(jìn)行分析,最后自動(dòng)抽取出新的中文關(guān)鍵字詞。
(二)灰名單監(jiān)控功能。此功能支持對(duì)部分灰名單用戶的攔截閾值單獨(dú)配置。通過對(duì)于不同灰名單用戶垃圾短信發(fā)送情況的分析,設(shè)置不同的監(jiān)控閥值可以更加有效地起到垃圾短信攔截作用。
1.實(shí)現(xiàn)思路。由于需要對(duì)灰名單進(jìn)行分組,不同分組的灰名單可以配置不同的監(jiān)控閾值。所以采用對(duì)號(hào)碼進(jìn)行用戶分群的方式實(shí)現(xiàn)。利用現(xiàn)有垃圾短信監(jiān)控系統(tǒng)的用戶群功能。
2.用戶群管理。支持對(duì)用戶群的手工管理,包括:添加、刪除、修改用戶群。用戶群的名稱可以自定義。在“用戶群管理”頁面上,可以創(chuàng)建多個(gè)不同的灰名單群。最多可以創(chuàng)建10個(gè)用戶群。
3.用戶群名單管理。支持為每個(gè)用戶群添加自己的名單,可支持添加、刪除、修改、導(dǎo)入、導(dǎo)出功能。在“用戶群名單管理”頁面上,將不同的灰名單添加到相應(yīng)的灰名單用戶群中。
4.用戶群監(jiān)控策略配置和監(jiān)控。配置好用戶群之后,可以在監(jiān)控策略配置功能中,增加為每個(gè)用戶群配置屬于自己的監(jiān)控策略,可以支持所有監(jiān)控模型。每個(gè)用戶群的策略,都可以設(shè)置自己的監(jiān)控閾值和時(shí)間片。
監(jiān)控規(guī)則:一是如果一個(gè)用戶屬于某個(gè)用戶群,并且系統(tǒng)為這個(gè)用戶群配置了監(jiān)控策略,那么這個(gè)用戶只受該用戶群下的監(jiān)控策略的約束;不會(huì)去匹配其他用戶群或者一般號(hào)碼的監(jiān)控策略。二是如果一個(gè)用戶不屬于任何用戶群,則其匹配屬于一般號(hào)碼的監(jiān)控策略。三是如果一個(gè)用戶屬于某個(gè)用戶群,但是并沒有為這個(gè)用戶群配置任意的監(jiān)控策略,則該用戶匹配一般號(hào)碼的監(jiān)控策略。
(三)人工仲裁。在智能分析的基礎(chǔ)上,此功能可以實(shí)現(xiàn)對(duì)疑似垃圾短信和加黑號(hào)碼的人工仲裁功能,一方面及時(shí)從嫌疑名單中發(fā)現(xiàn)真正的垃圾短信發(fā)送者,另一方面能將誤抓的黑名單號(hào)碼及時(shí)解黑,有效保證用戶短信業(yè)務(wù)的使用。
1.實(shí)現(xiàn)思路。一是減少投資。如果將人工仲裁工單獨(dú)實(shí)現(xiàn)為一套獨(dú)立的系統(tǒng),則需要增加單獨(dú)的硬件資源,增大了投資。二是統(tǒng)一管理,統(tǒng)一登錄。如果是兩套不同的系統(tǒng),那么管理人員需要同時(shí)對(duì)兩套系統(tǒng)進(jìn)行管理,并且,對(duì)于部分系統(tǒng)用戶,還會(huì)在同一時(shí)間登錄兩套不同的系統(tǒng)。三是仲裁實(shí)時(shí)性。如果是獨(dú)立的仲裁系統(tǒng),那么與現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中采用接口關(guān)聯(lián)。垃圾短信監(jiān)控系統(tǒng)在監(jiān)控出疑似垃圾短信后,先將其生成到一個(gè)文件中,然后上傳到中間服務(wù)器上;人工仲裁系統(tǒng)需要從中間服務(wù)器上去下載文件,然后解析文件,存儲(chǔ)到自身系統(tǒng)中,最后才推送到管理頁面進(jìn)行人工仲裁。在這個(gè)過程中,至少會(huì)有5~10 分鐘以上的延遲。
2.人工仲裁用戶管理。執(zhí)行人工仲裁的用戶,也即是客服人員,他們的用戶名以及系統(tǒng)使用權(quán)限都集成到現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中,由垃圾短信監(jiān)控系統(tǒng)的管理用戶進(jìn)行管理??梢詢H僅為這些人工仲裁的用戶分配人工仲裁相關(guān)的權(quán)限,現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中的其他頁面和功能他們都看不到。
3.人工仲裁實(shí)現(xiàn)。實(shí)現(xiàn)一個(gè)人工仲裁頁面,在該頁面上,按照短信內(nèi)容對(duì)疑似垃圾短信進(jìn)行審核。在該頁面上,展現(xiàn)每條短信的主叫號(hào)碼和短信內(nèi)容。仲裁的動(dòng)作包括:加黑、解黑。
(1)任務(wù)分流。支持多人同時(shí)審核,系統(tǒng)自動(dòng)將待審核的消息按照帳戶進(jìn)行分流。每個(gè)在線的仲裁用戶都可以獲取到一份獨(dú)立的待仲裁數(shù)據(jù),每條消息在同一時(shí)間只會(huì)被一個(gè)用戶取到。一批數(shù)據(jù)的仲裁時(shí)間為300 秒,如果超過300 秒,則這些數(shù)據(jù)自動(dòng)回到數(shù)據(jù)庫中,待下次或者其他審核人員獲取。每個(gè)仲裁人員每次獲取的待審核消息量可以配置。
(2)仲裁數(shù)據(jù)源選擇。待仲裁數(shù)據(jù)源可以選擇如下三種類型:一是黑名單,因?yàn)橛|發(fā)了監(jiān)控系統(tǒng)中的“加黑”策略而被添加為黑名單的垃圾短信;二是嫌疑名單,因?yàn)橛|發(fā)了監(jiān)控系統(tǒng)中的“加嫌疑”策略而被添加為嫌疑名單的垃圾短信;三是黑嫌疑名單,包括黑名單和嫌疑名單。
(3)人工仲裁結(jié)果查詢。系統(tǒng)提供人工仲裁結(jié)果查詢頁面,可以查詢經(jīng)過人工仲裁后的短消息詳細(xì)數(shù)據(jù)。包括:審核人員、審核時(shí)間、審核結(jié)果等。
二次放通功能可以使得被誤攔的短信得以解禁,當(dāng)用戶從黑名單中解放出來的時(shí)候,將這些誤攔短信重新下發(fā),保證正常短信的收發(fā)及正常資費(fèi)的開展。
(一)實(shí)現(xiàn)思路。在垃圾短信監(jiān)控系統(tǒng)中,存在部分誤攔截的數(shù)據(jù)。對(duì)于這部分?jǐn)?shù)據(jù),需要實(shí)現(xiàn)經(jīng)過人工審核后重新下發(fā)的功能。該功能實(shí)現(xiàn)在垃圾短信監(jiān)控系統(tǒng)中,單獨(dú)采用一個(gè)頁面實(shí)現(xiàn)。該功能需要短信中心配合完成。
(二)二次放通功能實(shí)現(xiàn)。
1.?dāng)?shù)據(jù)來源。用于二次放通的數(shù)據(jù)來源為:在垃圾短信監(jiān)控系統(tǒng)中,被監(jiān)控策略攔截、被黑名單攔截的短消息記錄。由于現(xiàn)有垃圾短信監(jiān)控系統(tǒng)中的攔截表數(shù)據(jù)巨大,而二次放通功能只會(huì)用到2~3天的數(shù)據(jù),所以本期實(shí)現(xiàn)方式為:單獨(dú)新增一個(gè)新的攔截信息表,將攔截消息拷貝一份存放在這個(gè)表中,該表的最大存儲(chǔ)時(shí)間為3天。本次二次放通功能,使用新攔截表中的數(shù)據(jù)。
2.誤攔截短信識(shí)別。提供專門的“短信特征識(shí)別”模塊,該模塊根據(jù)從垃圾短信攔截模塊獲取到的攔截信息進(jìn)行一些列算法比對(duì),識(shí)別出誤攔截的短信內(nèi)容同時(shí)送給二次放通模塊進(jìn)行處理。
3.誤攔截短信提交。二次放通模塊收到特征識(shí)別模塊送來的消息后,根據(jù)原始主被叫號(hào)碼、提交時(shí)間、短信內(nèi)容等信息自動(dòng)構(gòu)造一條短信并通過和短信中心的接口提交給短信中心。
4.短信下發(fā)。短信中心收到從垃圾短信平臺(tái)接口送來的消息后,對(duì)本消息不在進(jìn)行垃圾短信鑒權(quán),采取直接下發(fā)策略,下發(fā)流程與正常短信下發(fā)流程完全一樣。
5.放通結(jié)果處理。當(dāng)一條攔截消息被成功地下發(fā)到短信中心后,會(huì)在攔截表中去設(shè)置標(biāo)識(shí),表示該條攔截消息已經(jīng)被二次放通過,避免下次再次查詢時(shí),查詢到相同數(shù)據(jù)并且重復(fù)放通。
(三)實(shí)現(xiàn)與短信中心接口。垃圾短信監(jiān)控系統(tǒng)在進(jìn)行短信二次下發(fā)時(shí),需要與短信中心之間建立連接,以便將這些需要放通的短信提交給短信中心,讓短信中心將這些短消息發(fā)送給被叫號(hào)碼。
1.接口實(shí)現(xiàn)。垃圾短信監(jiān)控系統(tǒng)與短信中心間的接口采用SMPP 協(xié)議,用該協(xié)議中的Bind_Transmitter 和Submit_SM 這兩對(duì)消息完成。由于這些二次放通的消息如果回到垃圾短信監(jiān)控平臺(tái),可能會(huì)被再次攔截掉,所以,垃圾短信監(jiān)控系統(tǒng)在提交二次放通短信給短信中心后,短信中心不能將這些消息再次轉(zhuǎn)發(fā)給垃圾短信系統(tǒng)。
2.接口流量控制。為了避免同一時(shí)間發(fā)送給短信中心的二次放通短信量過大,給短信中心帶來風(fēng)險(xiǎn)和影響,垃圾短信監(jiān)控系統(tǒng)在發(fā)送二次放通短信時(shí),需要做流量控制。流量控制機(jī)制有兩個(gè):一是審核人員在執(zhí)行一批二次放通時(shí),最大條數(shù)為1000條。二是可配置每秒鐘發(fā)往短信中心的速度,速度范圍:10~500條/秒。這樣,可以對(duì)短信中心的入口進(jìn)行保護(hù),避免大流量的短信對(duì)短信中心造成沖擊。另外,短信中心自身也有License 流量控制功能,從兩個(gè)方面保證不會(huì)對(duì)短信中心造成影響。
3.短信中心路由配置。由于要求短信中心在收到垃圾短信監(jiān)控平臺(tái)提交的短信后,不能再將這些二次放通的消息轉(zhuǎn)發(fā)給垃圾短信監(jiān)控系統(tǒng)進(jìn)行鑒權(quán)。所以,短信中心需要做相應(yīng)的配置,根據(jù)垃圾短信監(jiān)控平臺(tái)登錄的帳號(hào)配置是否需要發(fā)送給SMMC(進(jìn)行短信鑒權(quán))。
4.二次放通報(bào)表統(tǒng)計(jì)。實(shí)現(xiàn)一個(gè)二次放通統(tǒng)計(jì)報(bào)表:按日、月統(tǒng)計(jì)一段時(shí)間內(nèi)放通條數(shù)、攔截總量、以及放通率。其中,放通率=放通條數(shù)/攔截總量。
(四)用戶體驗(yàn)變化。由于本次二次放通功能是將之前已經(jīng)被攔截的短消息再次下發(fā),所以,就存在最終用戶體驗(yàn)的變化。
本項(xiàng)目中基于垃圾短信智能語義分析的二次放通技術(shù)為國內(nèi)首創(chuàng),期間針對(duì)河北省垃圾短信監(jiān)控?cái)?shù)據(jù)建立了垃圾短信典型樣本庫,通過對(duì)樣本數(shù)據(jù)的分析研究,通過規(guī)避傳統(tǒng)關(guān)鍵字監(jiān)控策略的方式,重點(diǎn)分析垃圾短信內(nèi)容中的綜合特征,將其作為垃圾短信的核心判斷條件,創(chuàng)造性實(shí)現(xiàn)了“垃圾短信自動(dòng)審核技術(shù)”、“垃圾短信攔截策略滾動(dòng)循環(huán)機(jī)制”、“策略有效性評(píng)估機(jī)制”等垃圾短信精細(xì)化治理應(yīng)用模型,大幅降低了垃圾短信漏攔、誤攔率;同時(shí)基于智能分析和人工輔助,誤攔截短信實(shí)時(shí)二次放通技術(shù)的實(shí)現(xiàn),不僅改善了短信業(yè)務(wù)體驗(yàn),也直接帶來短信收入的提升,取得了良好的社會(huì)效益和經(jīng)濟(jì)價(jià)值。