• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      微信惡意賬號檢測研究

      2021-11-05 12:08:32殷其雷李浩然苗園莉
      計(jì)算機(jī)研究與發(fā)展 2021年11期
      關(guān)鍵詞:昵稱賬號閾值

      楊 征 殷其雷 李浩然 苗園莉 元 東 王 騫 沈 超 李 琦

      1(清華大學(xué)網(wǎng)絡(luò)科學(xué)與網(wǎng)絡(luò)空間研究院 北京 100084)2(武漢大學(xué)國家網(wǎng)絡(luò)安全學(xué)院 武漢 430072)3(西安交通大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 西安 710049)(yz17@mails.tsinghua.edu.cn)

      隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,移動(dòng)社交網(wǎng)絡(luò)迅速地成為了主流的社交平臺,在人們的生活和工作中占據(jù)了重要的地位.除了傳統(tǒng)的對話交流,移動(dòng)社交網(wǎng)絡(luò)平臺還為用戶提供了更加多樣化的服務(wù),例如閱讀、購物等.眾多的用戶共同編織了一張復(fù)雜的社交網(wǎng)絡(luò),他們的一舉一動(dòng)都在影響著這個(gè)網(wǎng)絡(luò)的發(fā)展.與此同時(shí),一些不法分子也在社交網(wǎng)絡(luò)上活躍著,他們使用批量注冊的賬號,在社交平臺上進(jìn)行各種惡意活動(dòng),例如賭博、刷閱讀量、引導(dǎo)用戶流等,以此牟取不法利益.

      為了防止惡意賬號危害社交網(wǎng)絡(luò)生態(tài)環(huán)境,許多惡意賬號檢測模型被提出.例如基于用戶發(fā)送的內(nèi)容(如文字、圖片、鏈接等)、用戶行為(如點(diǎn)贊、上傳、關(guān)注等),來訓(xùn)練檢測模型[1-6];或者根據(jù)用戶間的社交關(guān)系(如好友、關(guān)注、訂閱等)構(gòu)建圖模型,來挖掘惡意團(tuán)體[7-10].然而,無論是用戶發(fā)送的內(nèi)容、用戶的行為,還是用戶間的社交關(guān)系,都需要一定的時(shí)間來收集和積累.在這段期間里,惡意賬號已經(jīng)可以開展大量的惡意活動(dòng),對正常用戶造成影響.另一方面,當(dāng)今黑色產(chǎn)業(yè)鏈已大規(guī)模地采用自動(dòng)化賬戶注冊技術(shù)來批量獲取社交網(wǎng)絡(luò)賬號,以確保其惡意活動(dòng)可持續(xù)、影響范圍廣且獲得的不法利益高.本文首先具體介紹了現(xiàn)有惡意賬號檢測工作并分析了它們的優(yōu)缺點(diǎn).為克服它們的局限性,更加快速而有效地應(yīng)對此類黑產(chǎn)威脅,減少惡意賬號造成的危害,并盡早檢測出此類由黑產(chǎn)鏈批量注冊的惡意賬號,本文提出了基于社交網(wǎng)絡(luò)賬號注冊屬性的惡意賬號檢測方法.本文工作旨在僅基于賬號注冊屬性實(shí)現(xiàn)對惡意賬號的有效檢測,在注冊階段即遏止惡意賬號的進(jìn)一步活動(dòng).

      微信是現(xiàn)今中國最大的移動(dòng)互聯(lián)網(wǎng)社交網(wǎng)絡(luò)平臺,每天的賬號注冊量可達(dá)百萬級別.在與微信平臺所有方——騰訊公司——達(dá)成深度合作的基礎(chǔ)上,本文對其提供的2017年部分微信注冊賬號數(shù)據(jù)進(jìn)行了深入統(tǒng)計(jì)分析,發(fā)現(xiàn)在某些時(shí)段上惡意賬號占全部新注冊賬號的比例可高達(dá)50%,但由于涉及商業(yè)隱私,我們無法給出具體的數(shù)值.此外,還發(fā)現(xiàn)惡意賬號會使用某些相同的注冊屬性,如某個(gè)惡意團(tuán)體注冊的賬號具有相同的IP前綴和手機(jī)號碼前綴.這是由于惡意團(tuán)體注冊賬號時(shí)受時(shí)間、人力、設(shè)備等資源所限,使用機(jī)器批量注冊造成的.此外,惡意賬號的某些注冊屬性會存在異常,如注冊國家與用戶填寫的國家不一致、注冊IP所在省份與手機(jī)號所在省份不一致等.這可能是因?yàn)檫@些屬性是黑色產(chǎn)業(yè)鏈的批量注冊工具隨機(jī)生成的,未考慮正常賬號屬性間的內(nèi)在聯(lián)系.針對惡意賬號具有的相似性特征和異常特征,本文使用了帶權(quán)重的無向非連通圖的賬號聚類算法,用圖中的點(diǎn)代表賬號,邊代表賬號間的相似關(guān)系,圖中的連通分量便能體現(xiàn)賬號間的群組關(guān)系,從而能夠快速地將大量注冊賬號聚集成若干個(gè)群組.注意到每一個(gè)連通分量都是一張有權(quán)重的無向連通子圖,本文提出了基于帶權(quán)重的無向連通圖的惡意檢測算法,為每個(gè)賬號計(jì)算出惡意分?jǐn)?shù)來衡量其惡意程度.惡意分?jǐn)?shù)高的賬號將最終被判定為惡意賬號.

      本文的貢獻(xiàn)主要有3個(gè)方面:

      1) 系統(tǒng)分析了近年來社交網(wǎng)絡(luò)惡意賬號檢測的研究工作,包括基于賬號屬性特征的檢測模型與基于賬號間關(guān)系的檢測模型;

      2) 對微信賬號的注冊數(shù)據(jù)進(jìn)行大規(guī)模地統(tǒng)計(jì)分析,系統(tǒng)總結(jié)了惡意賬號具有相似與異常的注冊屬性模式;

      3) 設(shè)計(jì)了一種基于注冊屬性的無監(jiān)督惡意賬號檢測方法,可在賬號注冊階段實(shí)現(xiàn)對大規(guī)模惡意賬號的快速有效檢測,且該方法無需提供標(biāo)簽數(shù)據(jù)作為訓(xùn)練集.

      1 社交網(wǎng)絡(luò)惡意賬號檢測工作

      目前已經(jīng)有很多在社交網(wǎng)絡(luò)上檢測惡意賬號的工作.這些工作主要可以分為兩大類模型:1)基于賬號屬性特征的檢測模型;2)基于賬號間關(guān)系的檢測模型.

      基于賬號屬性特征的檢測模型通常將檢測惡意賬號視為一個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的二分類問題[1-6,11-18].根據(jù)每個(gè)賬號的自身屬性如發(fā)布的內(nèi)容(如微博、Twitter中的URL等)、操作行為(如點(diǎn)擊流、關(guān)注、訂閱等)、注冊信息(如IP地址、User Agent等)來提取相關(guān)特征,然后使用提取的特征和有標(biāo)簽的數(shù)據(jù)來訓(xùn)練有監(jiān)督的機(jī)器學(xué)習(xí)模型.如Almaatouq等人通過分析Twitter用戶的行為、消息內(nèi)容以及用戶的個(gè)人畫像信息,提取特征區(qū)分正常賬號和不同類型的惡意賬號[1];Egele等人基于用戶行為建立用戶畫像,通過用戶行為發(fā)生突變的異?,F(xiàn)象,結(jié)合惡意賬號活動(dòng)具有相似性的特點(diǎn)進(jìn)行檢測[2];Freeman等人利用賬號登錄的數(shù)據(jù),從概率統(tǒng)計(jì)分析的角度檢測用戶是否為惡意賬號[3];Badri等人通過用戶的點(diǎn)贊行為提取特征區(qū)分惡意賬號[4];Wang等人通過對用戶點(diǎn)擊行為數(shù)據(jù)劃分會話,在此基礎(chǔ)上進(jìn)行會話和點(diǎn)擊行為流2個(gè)層面的特征提取[5];Thomas等人基于賬號注冊時(shí)的昵稱、郵箱名等信息提取惡意注冊模式,并結(jié)合用戶注冊的行為流、用戶代理等信息檢測惡意賬號[18].

      然而真實(shí)社交網(wǎng)絡(luò)的用戶數(shù)量是巨大的.以微信為例,每天新注冊的用戶數(shù)量在百萬級,且給如此多的數(shù)據(jù)標(biāo)注標(biāo)簽是不現(xiàn)實(shí)的.這導(dǎo)致基于賬號自身屬性和有監(jiān)督機(jī)器學(xué)習(xí)算法的檢測模型難以在大規(guī)模的社交網(wǎng)絡(luò)中進(jìn)行實(shí)際使用.另一方面,使用有監(jiān)督方法檢測惡意賬號的方法魯棒性難以得到保障,一旦檢測使用的模型或特征提取的方式不慎泄露,惡意用戶可以有針對性地修改自己的行為模式和個(gè)人信息,使得模型分類效率大幅下降從而逃避檢測.而本文提出的檢測模型是無監(jiān)督的,不依賴標(biāo)簽,使得我們的檢測模型更有實(shí)用價(jià)值.

      基于賬號間關(guān)系的檢測模型通常使用圖模型來刻畫賬號間關(guān)系,故可被稱為基于圖拓?fù)涞臋z測模型.其通常以用戶為點(diǎn),用戶之間的關(guān)系為邊建圖,利用圖的拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)惡意賬號[7-10,19-39].常見的用戶間的關(guān)系有:好友關(guān)系、關(guān)注與被關(guān)注、訂閱與被訂閱、相同或相似的行為、使用相同的設(shè)備或資源等.比如Jiang等人根據(jù)分析賬號在社交網(wǎng)絡(luò)上的行為來建立一張賬號行為關(guān)系圖,通過圖拓?fù)浞治鲑~號的同步性和異常性,進(jìn)而發(fā)現(xiàn)惡意賬號[7];或者利用圖的信息傳播特點(diǎn)挖掘惡意賬號,例如通過受害賬號及其社交關(guān)系拓?fù)湔页鰫阂赓~號[8],通過部分賬號標(biāo)簽和賬號間社交關(guān)系構(gòu)成的社交網(wǎng)絡(luò)圖推導(dǎo)其他賬號的標(biāo)簽[9],或計(jì)算信任關(guān)系在圖中的傳播從而發(fā)現(xiàn)信任度低的團(tuán)體[10].

      然而,這些已有的基于圖拓?fù)涞纳缃痪W(wǎng)絡(luò)惡意賬號檢測方法都依賴用戶在社交網(wǎng)絡(luò)上產(chǎn)生足夠的行為或建立足夠多的社交關(guān)系.這就意味著只有當(dāng)惡意賬號在社交網(wǎng)絡(luò)上活躍了一段時(shí)間,比如幾天、幾周甚至幾個(gè)月等,這些圖模型檢測方法才能夠?qū)⑺鼈儥z測出來.而本文提出的檢測模型,是利用用戶的注冊信息來進(jìn)行惡意賬號檢測的,檢測的時(shí)間點(diǎn)是賬號注冊當(dāng)天,從而極大壓縮惡意賬號在社交網(wǎng)絡(luò)上的存活時(shí)間.

      Thomas等人的工作與本文方法在檢測算法設(shè)計(jì)上較為相似,不過他們檢測惡意賬號時(shí)使用了較多只適用于Twitter網(wǎng)站的數(shù)據(jù)與特征,如注冊流、User Agents、表單提交時(shí)間等[18],且運(yùn)用了各賬號在網(wǎng)頁上的具體操作與交互數(shù)據(jù).而我們的工作僅使用了更加通用且僅提取自賬號注冊階段的特征,如IP地址、手機(jī)號等,從而可僅基于賬號注冊信息進(jìn)行有效快速的判斷.Yuan等人提出了Ianus方法同樣可在注冊階段檢測惡意賬號,但是該方法需要賬號的標(biāo)簽數(shù)據(jù)來進(jìn)行訓(xùn)練和調(diào)整[40].而本文方法不依賴標(biāo)簽數(shù)據(jù),只通過對比和度量各賬號間注冊屬性相似性,即可構(gòu)建賬號相似連通圖并挖掘由疑似惡意賬號所組成的連通分量,屬于無監(jiān)督類方法,故適用性更佳.如表1所示,我們詳細(xì)地列出了各檢測方法所運(yùn)用的信息與本文方法的差異.

      Table 1 Comparison of Sybil Detection Methods on Social Network

      續(xù)表1

      2 惡意注冊賬號分析

      微信作為中國最大的移動(dòng)互聯(lián)網(wǎng)社交網(wǎng)絡(luò),現(xiàn)已具有10億的月活用戶(1)http://www.xinhuanet.com/2018-03/05/c_1122488991.htm,背后則是每天百萬級別的用戶注冊量.為了盡早檢測出批量注冊的惡意賬號并防止惡意賬號作惡,本文通過分析微信的賬號注冊數(shù)據(jù),挖掘惡意賬號的模式與特點(diǎn),并設(shè)計(jì)和提出相應(yīng)的檢測算法.本文工作雖基于微信賬號注冊數(shù)據(jù),但本文所分析和總結(jié)出的在線社交網(wǎng)絡(luò)惡意賬號在注冊階段所表現(xiàn)出的重要特性,包括惡意賬號間的相似特征及與正常用戶不同的異常特征,均源自于黑色產(chǎn)業(yè)鏈所運(yùn)用的自動(dòng)化批量賬號技術(shù),與正常用戶的人工注冊存在本質(zhì)不同.故本文所分析的惡意賬號注冊特性在其他在線社交網(wǎng)絡(luò)平臺上同樣適用.據(jù)此,本文研究方法通用性好,可進(jìn)一步運(yùn)用于其他社交網(wǎng)絡(luò)場景中的惡意賬號檢測任務(wù)中.

      2.1 注冊數(shù)據(jù)

      賬號注冊數(shù)據(jù)主要包括一系列注冊屬性,比如注冊IP地址、昵稱、手機(jī)號碼、WiFi MAC、注冊設(shè)備ID、微信客戶端版本號、注冊設(shè)備類型、注冊時(shí)間、注冊國家等.為了保護(hù)用戶隱私,WiFi MAC、注冊設(shè)備ID等在收集前已經(jīng)被哈希加密(經(jīng)哈希處理后,理論上用戶和屬性值信息仍然能保持一一對應(yīng)關(guān)系,不會對后續(xù)分析造成干擾);注冊國家、微信客戶端版本號等均用代號表示.據(jù)抽樣觀察時(shí)間跨度達(dá)3個(gè)月的微信注冊賬號數(shù)據(jù)發(fā)現(xiàn),正常賬號和惡意賬號的比例及各項(xiàng)特征的分布較為穩(wěn)定.本文進(jìn)一步對按不同時(shí)間跨度劃分的注冊數(shù)據(jù)做了驗(yàn)證,結(jié)果表明按天劃分的數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果更具有區(qū)分度與代表性.據(jù)此,本節(jié)將對某一天的微信注冊數(shù)據(jù)進(jìn)行細(xì)致的統(tǒng)計(jì)分析.

      2.2 注冊屬性分析

      受制于有限的時(shí)間資源與設(shè)備資源,同時(shí)為最大化攻擊效率及不法獲益,黑色產(chǎn)業(yè)鏈通常會運(yùn)用自動(dòng)化賬戶注冊技術(shù)等批量獲取賬號,進(jìn)而導(dǎo)致在多注冊屬性上呈現(xiàn)出相似性,且與正常注冊賬號表現(xiàn)相異.

      2.2.1 IP地址

      本文首先對賬號注冊時(shí)使用的IP地址前綴進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)時(shí)采用的前綴長度是24.結(jié)果顯示,在正常賬號中,IP地址前綴相同的賬號數(shù)一般小于50;而在惡意賬號中,IP地址前綴相同的賬號數(shù)超過了50的情況較多.該現(xiàn)象表明惡意賬號比正常賬號更傾向使用相同的IP前綴進(jìn)行注冊.

      2.2.2 手機(jī)號碼

      注冊微信賬號需提供手機(jī)號碼.惡意用戶為持續(xù)注冊賬號,需要從通信運(yùn)營商批量獲取手機(jī)號.需要注意的是,手機(jī)號碼的末4位是用戶的個(gè)人編號,而除去末4位后的手機(jī)號碼前綴,則包含有該號碼的服務(wù)提供商和區(qū)域信息.經(jīng)統(tǒng)計(jì)除去末4位后的手機(jī)號碼的前綴發(fā)現(xiàn):所有惡意賬號中所使用的手機(jī)號碼前綴總量較少,單個(gè)號碼前綴被復(fù)用10次以上較為常見;所有正常賬號中所使用的手機(jī)號碼前綴總量與正常賬號總量接近,單個(gè)號碼前綴復(fù)用3次以下的情形較為常見.這表明惡意賬號更傾向使用相同的手機(jī)號碼前綴進(jìn)行注冊.

      2.2.3 WiFi MAC

      當(dāng)前手機(jī)接入網(wǎng)絡(luò)主要通過2種方式:蜂窩網(wǎng)絡(luò)或WiFi.WiFi MAC是指當(dāng)移動(dòng)設(shè)備通過WiFi接入網(wǎng)絡(luò)時(shí),WiFi網(wǎng)關(guān)的MAC地址.如果注冊時(shí)使用的是蜂窩網(wǎng)絡(luò),則賬號的WiFi MAC屬性為空.本文經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),惡意賬號更傾向于使用相同的WiFi MAC進(jìn)行注冊.

      2.2.4 設(shè)備ID

      經(jīng)統(tǒng)計(jì)每個(gè)設(shè)備ID所關(guān)聯(lián)的注冊賬號數(shù)量,本文發(fā)現(xiàn)共用同一臺設(shè)備的惡意賬號數(shù)量遠(yuǎn)遠(yuǎn)多于正常賬號.此現(xiàn)象表明惡意賬號更傾向于使用相同的設(shè)備進(jìn)行批量注冊.

      2.2.5 昵稱模式

      本文對正常與惡意賬號所使用的昵稱進(jìn)行了以字符粒度的統(tǒng)計(jì)分析,發(fā)現(xiàn)正常賬號昵稱通常由中文與個(gè)性化字符所組成,而惡意賬號昵稱往往包含有特殊字符,如冒號、分號等,且惡意賬號間往往會共用相同的特殊昵稱模式.

      2.2.6 客戶端版本與操作系統(tǒng)類型

      通過對用戶注冊賬號時(shí)所使用的微信客戶端版本號和手機(jī)操作系統(tǒng)類型的分析,本文發(fā)現(xiàn)使用老舊客戶端或操作系統(tǒng)注冊的賬號集合中,惡意賬號所占比例極大.具體地,數(shù)據(jù)集中有約2 000個(gè)賬號是基于一個(gè)老舊的安卓系統(tǒng)注冊的,其中惡意賬號占比96.5%.此外,在iOS 8(一個(gè)老舊的iOS操作系統(tǒng))系統(tǒng)下注冊的所有賬號中,99%的注冊賬號是惡意的.此現(xiàn)象背后的原因是黑產(chǎn)出于成本、穩(wěn)定性等考慮而更傾向于使用老舊的設(shè)備與自動(dòng)化注冊腳本.

      2.2.7 地理位置

      經(jīng)映射,一個(gè)公網(wǎng)IP地址可以對應(yīng)到一個(gè)地理位置(國家、省、市),手機(jī)號碼同理.通過對比注冊賬號時(shí)用戶的IP地址對應(yīng)的地理位置與手機(jī)號碼對應(yīng)的地理位置,本文發(fā)現(xiàn)65%的惡意賬號表現(xiàn)出了地理位置不一致的現(xiàn)象,而正常賬號的兩地理位置均基本一致.該現(xiàn)象一個(gè)可能的原因是,黑產(chǎn)從業(yè)者用于注冊賬號的手機(jī)號碼可能是從當(dāng)?shù)氐耐ㄐ胚\(yùn)營商處獲得的,而用于注冊賬號的設(shè)備可能是遠(yuǎn)程設(shè)備或云服務(wù);另一個(gè)可能的原因則是黑產(chǎn)使用的手機(jī)號碼是從外地購買得到的[42],設(shè)備則是本地的.因此,惡意賬號注冊時(shí)更容易出現(xiàn)不一致地理位置的現(xiàn)象.

      2.2.8 IP-WiFi多對多

      本文對正常賬號和惡意賬號在注冊時(shí)所使用的IP和WiFi MAC兩個(gè)屬性的對應(yīng)關(guān)系進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)惡意賬號中的單一WiFi MAC可能對應(yīng)著多個(gè)IP,同時(shí)這些IP又可能對應(yīng)著多個(gè)WiFi MAC.而在正常賬號中,此類型的IP與WiFi MAC數(shù)量稀少.該現(xiàn)象背后的原因是,惡意賬號很可能是使用虛擬設(shè)備注冊的,因而IP與WiFi MAC之間存在著多對多映射關(guān)系.其恰好展現(xiàn)了該類注冊賬號的虛假性.

      2.2.9 注冊時(shí)間

      Fig.1 Distribution of normal account registrations圖1 正常賬號注冊分布

      本文于圖1與圖2中展示了不同賬號的注冊時(shí)間分布.其中圖1是對正常賬號統(tǒng)計(jì)的結(jié)果,圖2是對惡意賬號統(tǒng)計(jì)的結(jié)果.圖1和圖2中不同的折線表示不同的IP段.比較發(fā)現(xiàn),正常賬號的注冊時(shí)間分布比較一致,且在半夜僅有很少注冊量,與大多數(shù)人的生活作息相符.惡意賬號的注冊時(shí)間則分布混亂,不僅均勻分布在24 h里,還在某些較短時(shí)間內(nèi)較為密集,與正常賬號差異明顯.

      Fig.2 Distribution of malicious account registrations圖2 惡意賬號注冊分布

      3 基于注冊屬性的惡意賬號檢測

      根據(jù)第2節(jié)對賬號注冊數(shù)據(jù)的深入統(tǒng)計(jì)分析,本文發(fā)現(xiàn)惡意賬號容易使用某些相同的注冊屬性,并會在一些屬性上與正常注冊賬戶表現(xiàn)相異.這是因?yàn)槭苤朴谟邢薜母黜?xiàng)資源,惡意團(tuán)伙一般使用批量注冊的方法降低成本,包括使用同一批設(shè)備、IP注冊、在相同時(shí)間注冊等.基于這些特性,本文提出了一種基于注冊屬性的惡意賬號檢測方法,其主要運(yùn)用了無監(jiān)督圖聚類技術(shù).方法具體由5個(gè)步驟組成:1)賬號注冊特征提取.2)特征權(quán)重配置.3)賬號相似度計(jì)算.4)賬號相似圖構(gòu)建.5)基于圖聚類的惡意賬號群體挖掘.

      在整體上,該方法首先提取各用戶賬號的注冊特征數(shù)據(jù).隨后,方法基于預(yù)配置的權(quán)重策略,計(jì)算不同賬號間的注冊屬性相似度以構(gòu)建各注冊賬號的連通圖,并最終通過圖聚類方法,挖掘連通圖中的特定群體來有效識別惡意賬號.方法整體流程如圖3所示:

      Fig.3 Overview of our registration pattern based wechat sybils detection method圖3 基于注冊屬性的微信惡意賬號檢測方法流程圖

      3.1 注冊特征提取

      根據(jù)數(shù)據(jù)分析階段的發(fā)現(xiàn),本文首先對各用戶賬號提取多種注冊屬性,并基于注冊屬性進(jìn)一步獲取它們的相似性及異常特征.方法所提取的注冊屬性及各屬性可獲取的特征如表2所示:

      Table 2 Registration Patterns and Features Extracted by Our Method

      3.1.1 昵稱模式

      不同于其他可直接提取的注冊屬性,本文基于特定的昵稱模式及提取方法來更針對性處理各賬號的注冊昵稱.根據(jù)字符特征,昵稱可分為中文、英文、混合字符3種類型.從中文昵稱中,可以提取出傳統(tǒng)中文姓名和隨機(jī)中文字符串2種昵稱模式;從英文昵稱中,可以提取出拼音和隨機(jī)英文字符串2種昵稱模式;對于混合字符昵稱,將其抽象化后得到的符號串作為其昵稱模式.具體針對不同類型的昵稱,本文采用這3種昵稱模式提取方法:

      1) 中文昵稱.本文將中文昵稱分為傳統(tǒng)中文姓名和隨機(jī)中文字符串.①傳統(tǒng)中文姓名.使用結(jié)巴分詞工具(2)Jieba. https://github.com/fxsjy/jieba對中文昵稱進(jìn)行分詞,然后在百家姓的基礎(chǔ)上進(jìn)行一次過濾,再根據(jù)詞性分析以及字符串長度過濾,2次過濾后得到的所有中文昵稱的昵稱模式就是傳統(tǒng)中文姓名.②隨機(jī)中文字符串.使用正常的中文文章集作為語料庫訓(xùn)練n-gram模型(3)Wikipedia contributors. N-gram. Wikipedia, The Free Encyclopedia. April 11, 2018. https://en.wikipedia.org/w/index.php?title=N-gram&oldid=835900923. Accessed June 29, 2018.如果一個(gè)字符串是中文常用語,將其輸入到訓(xùn)練好的n-gram模型中,模型會輸出一個(gè)較高的概率值,表明模型認(rèn)為該字符串出現(xiàn)在語料庫中的可能性較高;反之則是低概率值,表明該字符串出現(xiàn)在語料庫中的可能性低,即是隨機(jī)的中文字符串.為了確定模型閾值,本文從昵稱數(shù)據(jù)集中抽取少量已知是隨機(jī)中文字符串的昵稱(本文抽取了1 000個(gè)昵稱),將其輸入n-gram模型計(jì)算概率值,并根據(jù)這些隨機(jī)中文昵稱的概率值的分布來啟發(fā)式地設(shè)置了閾值.如果輸入字符串的概率值低于該閾值,則認(rèn)為輸入昵稱為隨機(jī)中文字符串昵稱.

      2) 英文昵稱.本文將英文昵稱分為拼音和隨機(jī)英文字符串2種模式.如同提取中文昵稱模式時(shí)所述的方法,本文分別使用對應(yīng)的語料庫來訓(xùn)練正常拼音或英文字符串的n-gram模型.根據(jù)隨機(jī)抽取的拼音昵稱或隨機(jī)英文字符串昵稱的概率值,啟發(fā)式地設(shè)置了閾值使得模型能檢測出拼音昵稱或隨機(jī)英文字符串昵稱.

      3)混合字符.混合字符一般具有較為明顯的模式,比如中英混合、夾雜特殊符號(比如分號、@)等.本文采用了Thomas等人[18]所提出的方法,以將昵稱抽象化成統(tǒng)一類型的符號串.具體地,本文首先設(shè)計(jì)一類字符映射規(guī)則,將昵稱中不同類型的字符映射到不同的符號上.比如中文字符用C表示,大寫字母字符用U表示,小寫字母字符用L表示,數(shù)字字符用D表示,其余字符保留原始字符.在該映射規(guī)則下,“張三123”將被映射為“CCLLL”.映射后得到的符號串,就是昵稱的模式,即符號串“CCLLL”就是昵稱“張三123”的昵稱模式.

      3.1.2 相似性特征

      基于各賬號的注冊屬性,本文提取8個(gè)相似性特征來判斷2個(gè)賬號是否在某些角度表現(xiàn)出相似性:

      1) IP前綴相同.如果2個(gè)賬號的24位IP前綴相同,則2個(gè)賬號具有該特征.

      2) IP相同.如果2個(gè)賬號的IP地址完全相同,則2個(gè)賬號具有該特征.

      3) 手機(jī)號碼前綴相同.如果2個(gè)賬號的手機(jī)號碼前綴相同,則2個(gè)賬號具有該特征.

      4) WiFi MAC相同.如果2個(gè)賬號的WiFi MAC相同,則2個(gè)賬號具有該特征.

      5) 設(shè)備ID相同.如果2個(gè)賬號的設(shè)備ID相同,則2個(gè)賬號具有該特征.

      6) 客戶端版本號相同.如果2個(gè)賬號的微信客戶端版本號相同,則2個(gè)賬號具有該特征.

      7) 設(shè)備操作系統(tǒng)類型相同.如果2個(gè)賬號的注冊設(shè)備系統(tǒng)類型相同,則2個(gè)賬號具有該特征.

      8) 昵稱模式相同.若2個(gè)賬號具有相同的昵稱模式,如均為中文名字昵稱、拼音昵稱或兩者昵稱抽象模式之間的編輯距離與其長度平均值的比例小于一定閾值(基于本文對注冊賬號昵稱數(shù)據(jù)的統(tǒng)計(jì)分析,將該閾值設(shè)為0.3),則認(rèn)為2個(gè)賬號具有該特征.

      3.1.3 異常特征

      本文提取的異常特征則包含9個(gè)部分:

      1) 老舊客戶端版本號.本文根據(jù)當(dāng)前已發(fā)布的最新微信版本,來確定老舊的或者罕見的微信客戶端版本號.若2個(gè)賬號客戶端均老舊,則認(rèn)為它們具有該特征.

      2) 老舊設(shè)備系統(tǒng)類型.本文根據(jù)各個(gè)手機(jī)操作系統(tǒng)的更新歷史,來確定老舊的或者罕見的設(shè)備系統(tǒng)類型.若2個(gè)賬號操作系統(tǒng)均老舊,則認(rèn)為它們具有該特征.

      3) 單屬性注冊數(shù)量.本文同樣通過統(tǒng)計(jì)分析數(shù)據(jù)來制定判斷單個(gè)相同屬性下注冊賬號數(shù)量是否超過閾值及是否可認(rèn)定為異常.具體地,若同一個(gè)IP地址下注冊的賬號超過40個(gè),或同一個(gè)WiFi MAC/設(shè)備ID下注冊的賬號超過25個(gè),或同一個(gè)手機(jī)號前綴下超過30個(gè),則認(rèn)定這個(gè)IP地址、WiFi MAC、設(shè)備ID或者手機(jī)號前綴是異常的;若2個(gè)賬號均具有單屬性注冊數(shù)量異常,則認(rèn)為它們存在對應(yīng)特征.

      4) 地理位置異常.若2個(gè)賬號手機(jī)號碼前綴相同,但I(xiàn)P不同,則本文認(rèn)定它們?yōu)楫惓?若IP相同,但手機(jī)號碼前綴不同,則同樣認(rèn)定2個(gè)賬號是異常的;若2個(gè)賬號均具有該異常屬性,則認(rèn)為它們具有地理位置異常特征.

      5) IP-WiFi多對多異常.倘若IP與WiFi存在多對多關(guān)系,即一個(gè)WiFi MAC對應(yīng)多個(gè)IP.同時(shí),被對應(yīng)的IP也對應(yīng)著多個(gè)WiFi MAC,則本文認(rèn)為這樣的IP和WiFi MAC是異常的;若2個(gè)賬號均具有IP-WiFi多對多異?,F(xiàn)象,則認(rèn)為它們存在IP-WiFi多對多異常特征.

      6) 時(shí)間分布異常.本文將一個(gè)IP段下的賬號注冊時(shí)間分布與正常賬號的注冊時(shí)間分布進(jìn)行對比,如果KL距離大于設(shè)定閾值,那么認(rèn)定該IP段是異常的.本文同樣基于數(shù)據(jù)分析的結(jié)果啟發(fā)式地調(diào)整該閾值,最終使用默認(rèn)值1.0作為KL距離的閾值;若2個(gè)賬號均具有時(shí)間分布異常屬性,則認(rèn)為它們存在時(shí)間分布異常特征.

      7) 昵稱模式異常.若2個(gè)賬號的昵稱模式均為隨機(jī)中文字符串或者隨機(jī)英文字符串,則本文認(rèn)為2個(gè)賬號在該特征上異常.

      8) 注冊國家異常.若用戶填寫的注冊國家和其真實(shí)注冊的國家不一致,則該賬號在注冊國家上是異常的;若2個(gè)賬號均存在該現(xiàn)象,則認(rèn)為它們存在注冊國家異常特征.

      9) 注冊時(shí)間異常.如果2個(gè)賬號均在半夜進(jìn)行注冊(本文使用的是在凌晨2:00—5:00),則本文認(rèn)為該2個(gè)賬號存在注冊時(shí)間異常特征.

      3.2 構(gòu)圖聚類

      本文提出了一種基于構(gòu)圖聚類的惡意注冊賬號檢測方法.該方法基于各賬號注冊屬性及提取的相似性和異常特征,視各賬號為圖中頂點(diǎn),計(jì)算節(jié)點(diǎn)間相似性并建立邊,從而構(gòu)建一張賬號間的相似性圖.隨后,通過進(jìn)行圖聚類和計(jì)算不同賬號的惡意分?jǐn)?shù),從而準(zhǔn)確識別圖中的惡意賬號.

      3.2.1 特征權(quán)重分配

      考慮到不同的特征在決策賬號間相似性時(shí)作用可能存在不同,本文首先為每個(gè)特征賦予一定的初始權(quán)值,其由對數(shù)據(jù)中相似惡意賬號的統(tǒng)計(jì)分析結(jié)果來進(jìn)行啟發(fā)式地確定.本文將特征的重要性分為4個(gè)等級,從低到高依次設(shè)為0.5,1.0,1.5,2.0.例如版本號相似、操作系統(tǒng)相似等惡意賬號間常見的特征,本文為它們配置最低初始權(quán)重.例如WiFi MAC相似、IP相似等包含地理位置等信息的特征,本文為它們配置最高初始權(quán)重.

      在初始權(quán)重的基礎(chǔ)上,本文進(jìn)一步通過多輪實(shí)驗(yàn)迭代的方式進(jìn)行權(quán)重調(diào)整,以期更好地表現(xiàn)出微信數(shù)據(jù)中惡意注冊賬號的特點(diǎn).本文通過在3.1.2節(jié)和3.1.3節(jié)所述分析數(shù)據(jù)上的構(gòu)圖聚類檢測結(jié)果,且在每輪迭代時(shí)只改變一個(gè)特征的權(quán)重等級,進(jìn)而對比上一輪實(shí)驗(yàn)和本次實(shí)驗(yàn)結(jié)果的優(yōu)劣,最終只記錄能提升性能的權(quán)重特征改變.如此對全部特征權(quán)重進(jìn)行逐個(gè)調(diào)整,并最終形成如表3所示的特征權(quán)重表,以用于對測試數(shù)據(jù)的實(shí)際檢測中.

      Table 3 Weights of Our Features

      3.2.2 邊的權(quán)重計(jì)算與連通圖建立

      基于3.1.2節(jié)、3.1.3節(jié)和3.2.1節(jié)所述的特征與特征權(quán)重,本文首先給出賬號間注冊相似性(Similarity)的定義:

      定義1.賬號相似性Similarity.設(shè)C1與C2為全體賬號集合C中任意2個(gè)賬號,CF1與CF2分別為C1與C2對應(yīng)的注冊屬性,F(xiàn)eat(x,y)為基于2個(gè)賬號各自注冊屬性進(jìn)行3.1.2和3.1.3節(jié)所述賬號間特征提取函數(shù),f則為3.2.1節(jié)所述特征權(quán)重向量,則C1與C2間的賬號相似性Similarity的計(jì)算方式為

      Similarity(C1,C2)=f·Feat(CF1,CF2),

      (1)

      其中“·”為內(nèi)積運(yùn)算符.

      基于賬號間注冊相似性的定義,本文進(jìn)一步給出賬號相似連通圖的定義:

      定義2.賬號相似連通圖G.設(shè)賬號相似連通圖G=(V,E),其中V為各注冊賬號所組成的頂點(diǎn)集合.對于?V1,V2∈V, 若Similarity(V1,V2)>Threshold, 則E中存在且唯一存在一條邊e=(V1,V2).另設(shè)權(quán)重W(e)=Similarity(V1,V2).

      對于決定是否在2個(gè)頂點(diǎn)間建邊的相似度閾值Threshold,本文同樣通過實(shí)驗(yàn)迭代的方式進(jìn)行設(shè)置.本文最終所使用的相似度閾值為3.5.

      3.2.3 連通圖聚類

      基于批量注冊的惡意賬號具備較強(qiáng)相似性這一特性,本文通過采用圖聚類的方式從相似連通圖中挖掘出由相似頂點(diǎn)組成的簇.具體地,本文采用典型圖聚類方法:對建立好的賬號間相似關(guān)系圖(非連通無向圖)進(jìn)行遍歷,獲取圖中所有連通分量.每個(gè)連通分量都是相似連通圖的一個(gè)極大連通子圖,從連通分量中的任一頂點(diǎn)出發(fā),能且只能訪問到該連通分量中所有的頂點(diǎn).將同一個(gè)連通分量內(nèi)的所有注冊賬號歸為一個(gè)賬號簇,其中所有賬號間表現(xiàn)出較強(qiáng)的相似性.

      然而,特定部分正常賬號可能與惡意賬號存在較為相似的屬性,進(jìn)而被關(guān)聯(lián)至特定賬號簇中.故本文將對各賬號簇進(jìn)行更細(xì)致的分析,從而準(zhǔn)確地檢測出簇中的惡意賬號.

      3.2.4 惡意分?jǐn)?shù)計(jì)算

      為了避免將特定正常賬號誤判為惡意賬號,本文基于連通分量中各頂點(diǎn)的邊權(quán)重來進(jìn)行更細(xì)致的判斷.其依據(jù)是相較惡意注冊賬號本身,特定正常賬號與惡意賬號間存在邊(相似)的可能性更少,故它們的邊數(shù)與權(quán)重更少.據(jù)此,本文計(jì)算每個(gè)賬號的惡意分?jǐn)?shù)Malicious Score來判斷.

      定義3.賬號惡意分?jǐn)?shù)Malicious Score.給定賬號連通圖G=(V,E), 對于?v∈V,設(shè)以其作為頂點(diǎn)的邊集合為Edge(v), 則定義v的Malicious Score的計(jì)算方式為

      (2)

      對于每個(gè)挖掘出的連通分量中的每個(gè)賬號頂點(diǎn),本文計(jì)算其所連接邊權(quán)重和的tanh值,以表示該賬號的惡意分?jǐn)?shù).惡意分?jǐn)?shù)越高,則代表該賬號與其他賬號的相似性越大,亦代表該賬號為惡意的可能性越大.計(jì)算出各賬號的惡意分?jǐn)?shù)后即可通過閾值對比來最終判斷各賬號是否為惡意.該閾值采用了與特征權(quán)重相同的方式,在分析數(shù)據(jù)上進(jìn)行配置和調(diào)整,并最終用于測試數(shù)據(jù)的檢測中,該閾值最終設(shè)為0.75.

      4 性能評價(jià)

      我們使用Scala編程語言實(shí)現(xiàn)了基于本文方法的原型系統(tǒng),并基于Spark框架實(shí)現(xiàn)百萬級別注冊賬號的快速準(zhǔn)確檢測能力.該系統(tǒng)已在微信應(yīng)用平臺進(jìn)行了部署和較長時(shí)期應(yīng)用.

      4.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文實(shí)驗(yàn)使用的數(shù)據(jù)為微信應(yīng)用2017年10月某一周的用戶賬號注冊日志.數(shù)據(jù)總計(jì)有1 040萬條注冊記錄,其中惡意賬號數(shù)量為500萬.平均每一天約有150萬的注冊賬號,其中惡意賬號占比最高為50%左右.

      1) 數(shù)據(jù)集劃分.一周的總數(shù)據(jù)集按天被分成7份.本文使用第1天的分析數(shù)據(jù)確定了表3所示的各特征權(quán)重、相似度閾值(值為3.5)和惡意分?jǐn)?shù)閾值(值為0.75).這些權(quán)重和閾值是通過啟發(fā)式的方法,根據(jù)模型在分析數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果不斷地調(diào)整而確定的.測試時(shí),分別取第1天、前3天、前5天、前7天的數(shù)據(jù)用于驗(yàn)證和對比模型的檢測效果.

      2) 數(shù)據(jù)集標(biāo)簽.為了驗(yàn)證模型的檢測效果,騰訊公司提供了數(shù)據(jù)集所有數(shù)據(jù)的標(biāo)簽.標(biāo)簽來源于其他根據(jù)注冊后用戶的行為來檢測的相關(guān)模型、其他用戶的舉報(bào)以及微信安全團(tuán)隊(duì)的抽樣審計(jì).

      3) 實(shí)驗(yàn)環(huán)境.本文系統(tǒng)構(gòu)建于騰訊公司Spark計(jì)算平臺之上.Spark是業(yè)內(nèi)常用的大規(guī)模數(shù)據(jù)計(jì)算引擎.在實(shí)驗(yàn)中,本文系統(tǒng)共使用了30個(gè)Executor,每個(gè)Executor配置了16核CPU和10 GB內(nèi)存.

      4) 用戶隱私保護(hù).本文工作是與微信安全團(tuán)隊(duì)的合作項(xiàng)目,已簽署了微信的相關(guān)保密協(xié)議.實(shí)驗(yàn)使用的數(shù)據(jù)源于用戶注冊賬號時(shí)收集的相關(guān)信息.所有收集的數(shù)據(jù)都已在微信的隱私保護(hù)協(xié)議中聲明,用戶在注冊賬號前必須閱讀且同意該協(xié)議才可以注冊賬號.在收集數(shù)據(jù)時(shí),微信會對敏感數(shù)據(jù)先脫敏再收集.如用戶手機(jī)的號碼僅保留號碼前綴,對WiFi MAC和設(shè)備ID進(jìn)行哈希計(jì)算等.

      4.2 系統(tǒng)實(shí)現(xiàn)

      在通過Spark平臺實(shí)現(xiàn)基于本文方法的原型系統(tǒng)時(shí),考慮到日均150萬的新增注冊賬號數(shù)量,直接基于任意一對賬號的注冊屬性獲取二者之間的相似性與異常特征,進(jìn)而計(jì)算二者相似度,最終構(gòu)建賬號相似度連通圖這樣的實(shí)現(xiàn)方法計(jì)算開銷將是巨大而不可接受的.據(jù)此,本文采用了如下工程方式來有效加速賬號間相似度計(jì)算,從而使本文原型系統(tǒng)能滿足微信應(yīng)用日均百萬級的新注冊賬號檢測需求:

      在讀入當(dāng)日新賬號的每個(gè)注冊屬性時(shí),就對所有賬號按相同的單個(gè)屬性值進(jìn)行劃分,即在各注冊屬性上將全體賬號劃分為多個(gè)集合,每個(gè)集合包含一定數(shù)量的賬號.由于本文設(shè)計(jì)的相似性和異常特征均提取自含有相同屬性值的賬號對,故只需對各集合內(nèi)部的賬號對進(jìn)行特征提取與相似度計(jì)算,進(jìn)而遍歷當(dāng)前注冊屬性的所有集合及其他所有注冊屬性的賬號劃分集合,即可完成所有可能存在相似性的賬號對的計(jì)算,而無需窮舉全體賬號內(nèi)的任意賬號對.

      此外,該實(shí)現(xiàn)方法的本質(zhì)是基于相同注冊屬性先選出在特定特征的部分賬號對(可能存在邊),忽略其余明確不存在特定特征的賬號對(肯定不存在邊),進(jìn)而再基于挑選出的賬號對進(jìn)行相似度計(jì)算(確定是否建邊).據(jù)此,此種方法下賬號連通圖中的邊與原始方法下連通圖中的邊將不會存在差異,對連通分量的挖掘與惡意賬號檢測結(jié)果同樣不會受到任何影響.

      4.3 準(zhǔn)確率和召回率

      若對惡意賬號的檢測結(jié)果中存在較多的誤報(bào),則容易造成大量正常用戶被誤封,將嚴(yán)重影響微信應(yīng)用的用戶體驗(yàn)和正常運(yùn)行.據(jù)此,為確保檢測出惡意賬號的準(zhǔn)確性,本文選擇了較高的相似度閾值,以在可接受的召回率前提下使檢測結(jié)果盡可能準(zhǔn)確.如圖4所示,本文方法檢測結(jié)果的準(zhǔn)確率為96%左右,召回率為50%~60%,隨著數(shù)據(jù)量從百萬級增長到千萬級,本文的算法仍然保持相對穩(wěn)定的性能.圖5則展示了各測試數(shù)據(jù)集下,本文方法的日平均檢測結(jié)果,每天平均可準(zhǔn)確檢測出40萬至50萬的惡意注冊賬號.

      Fig.4 Precision and recall of our method on the dataset collected in Oct. 2017圖4 基于2017年10月數(shù)據(jù)集的準(zhǔn)確率和召回率

      Fig.5 Average number of detected sybils per day圖5 每天平均的惡意賬號檢測數(shù)量

      4.4 時(shí)效性

      為了驗(yàn)證模型是否能在一段時(shí)間之后的數(shù)據(jù)集上仍保持較好的效果,本文又獲取了微信應(yīng)用2017年11月某一周連續(xù)5天的用戶賬號注冊日志.數(shù)據(jù)總計(jì)有690萬條注冊記錄,其中惡意賬號數(shù)量為294萬.使用與4.2節(jié)中同樣的參數(shù)和閾值,模型對每天注冊賬號檢測的準(zhǔn)確率和召回率如圖6所示.對比4.3節(jié)的模型檢測結(jié)果,可以看到在新數(shù)據(jù)集上模型有92%左右的準(zhǔn)確率和70%左右的召回率,依然保持著穩(wěn)定的檢測效果.由此可見,本文方法及選定閾值并不局限于特定時(shí)期的數(shù)據(jù),具有良好的時(shí)效性.

      Fig.6 Precision and recall of our method on the dataset collected in Nov. 2017圖6 基于2017年11月數(shù)據(jù)集的準(zhǔn)確率和召回率

      4.5 特征重要性

      根據(jù)第2節(jié)的注冊數(shù)據(jù)分析結(jié)果,在直觀上我們可以提出更加樸素的檢測方法:即僅基于IP地址或手機(jī)號等注冊屬性來進(jìn)行檢測,而不再需要3.1節(jié)所設(shè)計(jì)的相似性特征和異常特征.為了驗(yàn)證本文設(shè)計(jì)的相似性特征和異常特征的重要性,本文進(jìn)行了一個(gè)對比實(shí)驗(yàn).以本文提出的微信惡意賬號檢測模型為基準(zhǔn)線,分別與僅用IP地址、僅用手機(jī)號前綴和僅用設(shè)備ID三種不同檢測模型進(jìn)行對比.本文僅選用IP地址、手機(jī)號和設(shè)備ID這3個(gè)屬性的原因是它們對惡意和正常賬號的區(qū)分度遠(yuǎn)優(yōu)于其他屬性(如昵稱等).以僅用IP地址的檢測模型為例,根據(jù)分析數(shù)據(jù)中同一惡意IP地址下注冊的賬號數(shù)與同一正常IP地址下注冊的賬號數(shù),選擇一個(gè)合適的閾值(本文使用了500),如果測試數(shù)據(jù)中一個(gè)IP地址下注冊的賬號數(shù)超過該閾值,則此IP地址下的所有賬號都是惡意賬號,反之此IP地址下的所有賬號都是正常賬號.在僅用手機(jī)號前綴的檢測模型中,本文使用的閾值是9;在僅用設(shè)備ID的檢測模型中,本文使用的閾值是2.這些閾值是根據(jù)各模型的檢測結(jié)果啟發(fā)地調(diào)整得到的,使得各模型能夠取得最優(yōu)的檢測結(jié)果.需要注意的是,因?yàn)槭莾H用單個(gè)屬性來檢測,所以閾值與3.1.3節(jié)單屬性注冊異常中的閾值不一樣.對比實(shí)驗(yàn)的結(jié)果如圖7所示.

      Fig.7 Precision and recall of our method under different feature sets圖7 不同特征下的準(zhǔn)確率與召回率實(shí)驗(yàn)結(jié)果

      從圖7中可以看到,相比于本文提出的微信惡意賬號檢測模型,僅用單個(gè)屬性的樸素模型在準(zhǔn)確率上有明顯的差距.這就意味著,在實(shí)際使用場景中,這些模型會造成大量用戶的賬號被誤封,極大影響用戶體驗(yàn).這個(gè)對比實(shí)驗(yàn)表明,本文提取的相似性或異常特征是重要的,可以保證模型對惡意賬號覆蓋率和提高檢測結(jié)果的準(zhǔn)確率.

      4.6 可拓展性

      Fig.8 Running time of our method on different test data圖8 不同測試數(shù)據(jù)下方法的運(yùn)行時(shí)間

      基于實(shí)際場景測試,本文所實(shí)現(xiàn)原型系統(tǒng)檢測百萬級別的數(shù)據(jù)需耗時(shí)約20 min,檢測千萬級別的數(shù)據(jù)則需耗時(shí)約100 min,具體如圖8所示.可以看出,本文所實(shí)現(xiàn)原型系統(tǒng)對于千萬級的數(shù)據(jù)仍然有較快的檢測速度,并且檢測結(jié)果的準(zhǔn)確率穩(wěn)定在96%左右.由此可見,本文方法及原型系統(tǒng)可拓展性良好.

      4.7 系統(tǒng)部署

      本文提出的無監(jiān)督惡意注冊檢測模型及原型系統(tǒng)已被微信安全團(tuán)隊(duì)部署,用于對惡意注冊賬號的日常檢測.具體地,檢測模型會于每天24時(shí),基于賬號注冊日志對當(dāng)天的所有注冊賬號進(jìn)行線下檢測.由于模型存在著少量的誤報(bào)進(jìn)而導(dǎo)致誤封號,而這些被誤封號的用戶可以通過微信內(nèi)置的解封申訴渠道進(jìn)行解封.由此產(chǎn)生的誤封記錄將被維護(hù)人員分析,用于進(jìn)一步地提升模型的檢測效果.據(jù)近期統(tǒng)計(jì),本文系統(tǒng)每日依然可檢測出40萬左右的惡意賬號,根據(jù)用戶的申訴反饋和維護(hù)人員的抽樣分析,檢測準(zhǔn)確率在90%~95%.需要注意的是,微信公司每日新增注冊用戶數(shù)量在百萬級,故無法知悉其中全部惡意賬號數(shù)目并計(jì)算本文系統(tǒng)實(shí)際部署階段的漏報(bào)率或召回率.

      異常檢測系統(tǒng)在實(shí)際部署中同樣需要考慮先進(jìn)攻擊者進(jìn)行針對性逃避的可能.對于目前比較先進(jìn)的黑產(chǎn)攻擊者,他們的主要表現(xiàn)是注冊成功后各類攻擊行為更加復(fù)雜隱蔽.而本文方法瞄準(zhǔn)的是其注冊階段,即在其發(fā)動(dòng)攻擊之前進(jìn)行有效防范.本文方法所使用的注冊屬性在新用戶注冊賬號時(shí)必須提交,且會由于自動(dòng)注冊工具的使用而表現(xiàn)出聚集性.典型的黑產(chǎn)攻擊者均無法回避這2個(gè)特性.因此,本文方法能有效防范真實(shí)網(wǎng)絡(luò)中大部分典型的黑產(chǎn)攻擊者威脅.

      5 總 結(jié)

      本文首先系統(tǒng)介紹并分析了現(xiàn)有社交網(wǎng)絡(luò)惡意賬號檢測方法的原理及優(yōu)缺點(diǎn).隨后,通過全面地對社交網(wǎng)絡(luò)賬號的注冊屬性進(jìn)行統(tǒng)計(jì)分析,對比正常和惡意賬號在不同注冊屬性上的分布差異,本文設(shè)計(jì)了相似性特征和異常特征用于比較不同注冊賬號間的相似性,進(jìn)而構(gòu)建賬號相似連通圖,并通過連通圖算法挖掘并檢測惡意注冊賬號.本文方法具備不依賴帶標(biāo)簽訓(xùn)練集、檢測性能好且穩(wěn)定、處理速度快等優(yōu)點(diǎn),并已在微信運(yùn)營平臺得到了實(shí)際部署和長期應(yīng)用,有力打擊了在線社交網(wǎng)絡(luò)黑產(chǎn)鏈,保障廣大用戶安全使用微信應(yīng)用.

      猜你喜歡
      昵稱賬號閾值
      彤彤的聊天賬號
      十二星座專屬現(xiàn)代昵稱和古代姓名
      施詐計(jì)騙走游戲賬號
      派出所工作(2021年4期)2021-05-17 15:19:10
      小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
      基于自適應(yīng)閾值和連通域的隧道裂縫提取
      你爸媽的QQ昵稱是什么?
      比值遙感蝕變信息提取及閾值確定(插圖)
      河北遙感(2017年2期)2017-08-07 14:49:00
      室內(nèi)表面平均氡析出率閾值探討
      其他昵稱
      感悟(2016年8期)2016-05-14 10:40:04
      Google Play游戲取消賬號綁定沒有Google賬號也能玩
      CHIP新電腦(2016年3期)2016-03-10 14:52:50
      司法| 琼中| 宝清县| 乡城县| 云霄县| 射阳县| 夏河县| 顺平县| 寿阳县| 鹤庆县| 从化市| 黄冈市| 彩票| 军事| 安丘市| 柏乡县| 汶川县| 突泉县| 阳春市| 永嘉县| 元谋县| 木兰县| 云梦县| 安义县| 丽江市| 稷山县| 永修县| 南岸区| 武邑县| 宜兴市| 高州市| 富源县| 新乐市| 宝丰县| 江口县| 贺兰县| 中西区| 博野县| 利川市| 武城县| 刚察县|