◆王 蕊 徐岳皓 石 珺 呂 博 周 陽(yáng)
一種基于隱馬爾可夫模型的口令猜測(cè)方法
◆王 蕊1,2徐岳皓1石 珺1,2呂 博1,2周 陽(yáng)1,2
(1.中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院 北京 100041) (2.中電科網(wǎng)絡(luò)空間安全研究院有限公司 北京 100041)
隨著信息時(shí)代的發(fā)展,信息安全尤其是口令的安全性研究成為熱點(diǎn)問(wèn)題。本文提出一種基于隱馬爾可夫模型的口令猜測(cè)方法,通過(guò)為口令猜測(cè)問(wèn)題建立隱馬爾可夫模型,以大量的用戶(hù)口令數(shù)據(jù)集為輸入,以訓(xùn)練得到的初始狀態(tài)概率、轉(zhuǎn)換概率、觀測(cè)概率等信息為依據(jù),對(duì)數(shù)據(jù)集的口令字符組合、順序等模式進(jìn)行挖掘,最終以觀測(cè)序列生成的方式產(chǎn)生新的預(yù)測(cè)密碼,實(shí)現(xiàn)口令猜測(cè)。
口令猜測(cè);隱馬爾可夫;轉(zhuǎn)移矩陣
信息安全問(wèn)題受到越來(lái)越多的重視,用戶(hù)認(rèn)證機(jī)制成為保護(hù)用戶(hù)隱私安全的一種常用方法[1~3]。其中,文本口令具有實(shí)現(xiàn)簡(jiǎn)單方便等的特點(diǎn),是最為普遍使用的一種用戶(hù)認(rèn)證方式,然而卻存在口令強(qiáng)度不夠高的問(wèn)題。因此,口令的安全性研究成為熱點(diǎn)問(wèn)題,其中利用不同方法實(shí)現(xiàn)對(duì)口令集的猜測(cè)[4-6]是一項(xiàng)重點(diǎn)研究方向,具有重要研究意義。一方面,從破解者的角度猜測(cè)用戶(hù)口令可以使人們對(duì)口令的安全性有更深的認(rèn)識(shí);另一方面,猜測(cè)口令也可用于檢測(cè)用戶(hù)口令的強(qiáng)度,可方便用戶(hù)在選擇口令時(shí)避開(kāi)容易被猜測(cè)到的口令,或在猜測(cè)口令結(jié)果的基礎(chǔ)上更改口令以提升口令強(qiáng)度。
為了便于記憶,用戶(hù)的口令一般不是隨機(jī)的字符串,而是會(huì)包含一些特殊含義字符,例如,在選擇口令時(shí)加入姓名縮寫(xiě),生日等個(gè)人信息。傳統(tǒng)研究[7,8]在實(shí)現(xiàn)用戶(hù)口令模式概率模型的訓(xùn)練時(shí),需要利用用戶(hù)的個(gè)人信息,但網(wǎng)上泄露的口令數(shù)據(jù)集往往并不包含用戶(hù)信息。因此,為了提高模型的訓(xùn)練效率與預(yù)測(cè)精度,往往需要進(jìn)行大量的前期調(diào)研,尋找與給用戶(hù)口令匹配的信息。而且這種口令猜測(cè)方法更針對(duì)的是某個(gè)特定的用戶(hù),在猜測(cè)口令時(shí),也要預(yù)先知道用戶(hù)信息。綜上,一般而言,實(shí)現(xiàn)口令猜測(cè)時(shí)只考慮了數(shù)字口令,但在當(dāng)今時(shí)代,使用純數(shù)字作為口令的人少之又少,現(xiàn)實(shí)意義不強(qiáng)。
盡管每個(gè)用戶(hù)選擇口令的偏好不同,但大量的用戶(hù)口令數(shù)據(jù)集往往存在一定的統(tǒng)計(jì)特征和規(guī)律。因此,對(duì)大量用戶(hù)口令數(shù)據(jù)集進(jìn)行訓(xùn)練,可以挖掘出一些可預(yù)測(cè)的模式。本文利用隱馬爾可夫模型進(jìn)行口令猜測(cè),基于口令字符之間的初始狀態(tài)概率、轉(zhuǎn)換概率、觀測(cè)概率等信息對(duì)數(shù)據(jù)集的口令字符組合、順序等模式進(jìn)行挖掘可發(fā)現(xiàn)一定的規(guī)律。如此可見(jiàn),根據(jù)隱馬爾可夫模型猜測(cè)用戶(hù)口令具有很強(qiáng)的現(xiàn)實(shí)意義。
本文提出一種基于隱馬爾可夫模型的口令猜測(cè)方法,通過(guò)為口令猜測(cè)問(wèn)題建立隱馬爾可夫模型,以訓(xùn)練得到的初始狀態(tài)概率、轉(zhuǎn)換概率、觀測(cè)概率等信息為依據(jù),對(duì)數(shù)據(jù)集的口令字符組合、順序等模式進(jìn)行挖掘,最終以觀測(cè)序列生成的方式產(chǎn)生新的預(yù)測(cè)密碼,實(shí)現(xiàn)口令猜測(cè)。本文的優(yōu)勢(shì)在于不依賴(lài)如用戶(hù)個(gè)人信息等外在條件,只根據(jù)泄露數(shù)據(jù)集中的所有用戶(hù)口令來(lái)訓(xùn)練模型、猜測(cè)口令。本文的另一項(xiàng)優(yōu)勢(shì)在于不只針對(duì)數(shù)字口令,而是考慮了口令可能出現(xiàn)的所有字符類(lèi)別,包括字母、數(shù)字、漢字、特殊字符這四種類(lèi)別,可以更好地猜測(cè)復(fù)雜口令。
本文主要通過(guò)構(gòu)建隱馬爾可夫模型,以{字母,數(shù)字,漢字,特殊字符}四種狀態(tài)為模型對(duì)應(yīng)的隱狀態(tài),以口令中出現(xiàn)的不同字符作為不同隱狀態(tài)下的觀測(cè)值,通過(guò)模型的訓(xùn)練生成不同觀測(cè)序列,生成的觀測(cè)序列即為猜測(cè)的口令。本文以口令數(shù)據(jù)集為訓(xùn)練數(shù)據(jù),計(jì)算隱馬爾可夫模型的轉(zhuǎn)移概率、觀測(cè)概率、初始狀態(tài)概率,根據(jù)求得的初始狀態(tài)概率選擇初始狀態(tài),基于這個(gè)狀態(tài)通過(guò)觀測(cè)概率得到一個(gè)觀測(cè)值;利用這個(gè)狀態(tài)可以通過(guò)轉(zhuǎn)移概率得到下一個(gè)狀態(tài),然后又可以繼續(xù)得到下一個(gè)觀測(cè)值;以此類(lèi)推,直到把觀測(cè)序列生成完畢。
算法流程圖如圖1所示,本文提出的基于隱馬爾可夫模型的用戶(hù)口令猜測(cè)方法包括下列步驟:
(1)數(shù)據(jù)預(yù)處理,實(shí)現(xiàn)輸入數(shù)據(jù)的預(yù)處理,提取泄露口令數(shù)據(jù)集的所有密碼,并以0.75:0.25的比例隨機(jī)拆分為訓(xùn)練集和測(cè)試集;
(4)按照以下過(guò)程生成預(yù)測(cè)密碼:
(6)對(duì)比猜測(cè)口令集和測(cè)試集,計(jì)算猜測(cè)口令集的命中率,從而得出猜測(cè)正確率。
本文基于隱馬爾可夫模型生成猜測(cè)口令,通過(guò)對(duì)口令數(shù)據(jù)集的挖掘?qū)W習(xí)得到隱馬爾可夫模型,以訓(xùn)練得到的初始狀態(tài)概率、轉(zhuǎn)換概率、觀測(cè)概率等信息為依據(jù),結(jié)合觀測(cè)序列生成的方式產(chǎn)生新口令,從而實(shí)現(xiàn)口令猜測(cè)。本文可實(shí)現(xiàn)四種類(lèi)型(字母、數(shù)字、漢字、特殊字符)字符組合的口令猜測(cè),且該方法不局限于某個(gè)具體用戶(hù),而是猜測(cè)用戶(hù)們可能使用的口令,并且隨著數(shù)據(jù)集的增加,模型精度會(huì)越來(lái)越高,猜測(cè)的口令也會(huì)更符合人類(lèi)習(xí)慣。
圖1 基于隱馬爾可夫模型的口令猜測(cè)方法算法流程圖
與現(xiàn)有技術(shù)相比,本文提出的技術(shù)方案中的模型建立只依賴(lài)泄露口令數(shù)據(jù)集內(nèi)所有用戶(hù)口令,避免了對(duì)用戶(hù)信息的調(diào)研與整理,減少了人工工作量。本文將口令猜測(cè)問(wèn)題轉(zhuǎn)化為基于隱馬爾可夫模型的觀測(cè)序列生成問(wèn)題,基于模型的初始狀態(tài)概率、狀態(tài)轉(zhuǎn)移概率矩陣、觀測(cè)概率矩陣,按照概率的形式生成猜測(cè)口令,可支持字母、數(shù)字、漢字、特殊字符等四種字符組合口令的猜測(cè)。此外,通過(guò)計(jì)算目標(biāo)用戶(hù)口令在隱馬爾可夫模型下出現(xiàn)的似然度,可為檢測(cè)目標(biāo)用戶(hù)口令的安全強(qiáng)度提供了一個(gè)新思路。
[1].網(wǎng)絡(luò)信息安全技術(shù)綜述[J].甘肅科技,2009,25(17):29-33.
[2]王平,汪定,黃欣沂.口令安全研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2016,53(10):2173-2188.
[3]劉功申,邱衛(wèi)東,孟魁,等.基于真實(shí)數(shù)據(jù)挖掘的口令脆弱性評(píng)估及恢復(fù)[J].計(jì)算機(jī)學(xué)報(bào),2016,39(3):454-467.
[4]周浩,王靖康,王博,等.明文口令生成模型研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(4):9-16.
[5]Yan J J,Blackwell A F,Anderson R J,et al. Password Memorability and Security:Empirical Results[J].IEEE Security and Privacy Magazine,2004,2(5):25-31.
[6]Bonneau J,Herley C,Van Oorschot P C,et al. Passwords and the evolution of imperfect authentication[J]. Communications of the ACM,2015,58(7):78-87.
[7]滕南君,魯華祥,金敏,等.PG-RNN:一種基于遞歸神經(jīng)網(wǎng)絡(luò)的密碼猜測(cè)模型[J].智能系統(tǒng)學(xué)報(bào),2018,13(06):29-36.
[8]周環(huán),劉奇旭,崔翔,等.基于神經(jīng)網(wǎng)絡(luò)的定向口令猜測(cè)研究[J].信息安全學(xué)報(bào),2018,3(05):29-41.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2019年10期