融合多語(yǔ)言特點(diǎn)的無(wú)載體信息隱藏

2019-04-09 09:10:58彭博，李暉

微處理機(jī) 2019年1期

彭博，李暉

（沈陽(yáng)工業(yè)大學(xué)信息科學(xué)與工程學(xué)院, 沈陽(yáng)110870）

1 引言

信息隱藏（Information hiding, 或稱隱寫，Steganography），是指將機(jī)密信息偽裝為不引人注意的普通信息，從而達(dá)到隱蔽傳輸或隱蔽存儲(chǔ)的目的。其技術(shù)對(duì)國(guó)家安全與信息安全的重要意義不言而喻[1]。與圖片、音視頻等多媒體信息相比，文本信息具有占用空間小、傳輸方便、生活中應(yīng)用更廣泛等優(yōu)點(diǎn)[2]，因此，對(duì)文本信息隱藏的研究具有廣闊的發(fā)展前景和研究?jī)r(jià)值。目前對(duì)文本信息隱藏的研究主要分為兩大類：第一類是基于文本格式的信息隱藏，第二類是基于文本語(yǔ)法語(yǔ)義的信息隱藏。

基于文本格式的信息隱藏主要利用文本的特定格式，將秘密信息嵌入其中，比如利用文本段落的行間距變化[3]，文本顏色或字體大小的細(xì)微調(diào)整[4]等。這類方法的特點(diǎn)是魯棒性較差，一旦對(duì)其進(jìn)行謄寫、影印等攻擊，隱藏信息即隨之消失。

基于語(yǔ)法語(yǔ)義的信息隱藏則主要利用某一語(yǔ)體的特定語(yǔ)法格式，或者對(duì)文本語(yǔ)義進(jìn)行編碼來(lái)隱藏信息。比如利用宋詞的“韻律-詞性”格式進(jìn)行信息隱藏[5-7]，利用同義詞或同義句替換進(jìn)行信息隱藏[8-9]等。這類方法雖大多能抵御普通的基于格式的攻擊，卻在文本含義表達(dá)上略有欠缺，在可讀性上表現(xiàn)一般，部分文本語(yǔ)義較為生澀，容易引起攻擊者的注意，從而造成秘密信息的泄露。

近幾年來(lái)，一種新的“無(wú)載體信息隱藏”方法得到學(xué)者們的認(rèn)同?！盁o(wú)載體信息隱藏”，并不是不需要隱藏信息的載體，而是與傳統(tǒng)信息隱藏方法相比，不再將秘密信息嵌入到載體中（或?qū)d體進(jìn)行修改），相反，它直接以秘密信息作為驅(qū)動(dòng)，來(lái)“生成/獲取”含密載體[10]，以實(shí)現(xiàn)信息隱藏的目的。與傳統(tǒng)方法相比，無(wú)載體信息隱藏?zé)o需對(duì)原始載體進(jìn)行修改及嵌入，有效地提升了信息隱藏的魯棒性。Zhang J 等[11]、吉紅勇等[12]提出構(gòu)建文本大數(shù)據(jù)庫(kù)，利用秘密信息的詞級(jí)和頻率，在大數(shù)據(jù)庫(kù)中進(jìn)行匹配，尋找合適的文本并直接發(fā)送。由于該方法無(wú)需修改載體，從而減少了被攻擊的可能性，但其在嵌入率上仍有待提高。陸海等[13]提出了結(jié)合隨機(jī)碼本的無(wú)載體試題偽裝方法，利用秘密信息生成以試題為形式的偽裝，該方法避免了秘密信息的直接傳輸，減少了被發(fā)現(xiàn)的可能性，隱藏容量上也有一定的提高。

故此，提出一種融合多語(yǔ)言特點(diǎn)的無(wú)載體信息隱藏方法，首次提出將漢語(yǔ)與英語(yǔ)的特點(diǎn)相結(jié)合、利用雙語(yǔ)互相翻譯轉(zhuǎn)換的方法進(jìn)行信息隱藏。首先將漢語(yǔ)的秘密信息翻譯為英語(yǔ)信息，利用英文字母與漢語(yǔ)拼音的同一性，對(duì)翻譯后的英文文本進(jìn)行字母、格式上的處理，最后通過(guò)該文本段生成漢語(yǔ)的姓名，并作為秘密信息的載體，從而實(shí)現(xiàn)信息隱藏的目的。經(jīng)該方法處理后的信息具有很好的魯棒性，不會(huì)出現(xiàn)語(yǔ)義生澀等情況，并能在嵌入率上有所提升，具有很強(qiáng)的實(shí)用性和廣闊的應(yīng)用前景。

2 研究基礎(chǔ)

2.1 算法的基本思想

大多數(shù)學(xué)者在對(duì)文本信息隱藏的研究中只針對(duì)某一種語(yǔ)言進(jìn)行探索，很少有人注意到不同語(yǔ)言之間也存在一定的關(guān)系，這就造成了現(xiàn)有方法多針對(duì)于某一種語(yǔ)言的局限性。如果在信息隱藏中考慮將多種語(yǔ)言的特點(diǎn)進(jìn)行融合，那么將會(huì)更好地豐富信息隱藏的方法。比如SUHAD M. KADHEM 等人提出了將英文的秘密信息隱藏到阿拉伯文文體之中[14]，并取得了良好的隱藏效果。

表1 展示了現(xiàn)今世界各語(yǔ)言使用者的比例。漢語(yǔ)和英語(yǔ)是世界上使用人數(shù)最多，使用范圍最廣的兩大語(yǔ)言[15]，且兩種語(yǔ)言存在一定的相通性，即中文的注音是利用漢語(yǔ)拼音完成的，漢語(yǔ)拼音又與英文的字母構(gòu)成相同，即由26 個(gè)英文字母A-Z 構(gòu)成。一定程度上，英文可以寫成漢語(yǔ)拼音的形式，經(jīng)過(guò)處理后生成新的漢語(yǔ)文本，這就形成了一種全新的文本信息隱藏思路：假設(shè)傳遞的是中文的秘密信息，由于各語(yǔ)言之間具有在互譯時(shí)句子原意基本保持不變的性質(zhì)，可以先將其翻譯成英文，將得到的英文進(jìn)行適當(dāng)處理，再轉(zhuǎn)換成拼音，由拼音所生成新的漢語(yǔ)載體，得到與秘密信息完全不同的文本，從而達(dá)到秘密信息隱藏傳輸?shù)哪康摹?/p>

表1 50年來(lái)世界各語(yǔ)言使用者總數(shù)的比例

2.2 基于中文姓名載體的信息隱藏

與傳統(tǒng)修改載體的信息隱藏方法相比，無(wú)載體信息隱藏直接由秘密信息作為驅(qū)動(dòng)生成含密載體，免去了尋找載體、修改載體的繁瑣步驟。

目前文本無(wú)載體信息隱藏的主流方法是建立海量的文本大數(shù)據(jù)庫(kù)[16]，將秘密信息進(jìn)行分解后[17]，再與大數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，找到合適的文本載體，直接進(jìn)行傳送。這類方法雖能在一定程度上提高算法的安全性，減少被攻擊者發(fā)現(xiàn)的風(fēng)險(xiǎn)，卻帶來(lái)了兩個(gè)問(wèn)題：一是此類算法的嵌入率有待提升，往往一篇文章只能傳遞一個(gè)或幾個(gè)關(guān)鍵詞，對(duì)于大段秘密信息的傳遞效率很低；二是此類算法需要提前構(gòu)建10GB以上的大數(shù)據(jù)文本庫(kù)，才能保證秘密信息段的充分表達(dá)，造成存儲(chǔ)空間與搜索時(shí)間的大量冗余。

為了解決上述問(wèn)題，使無(wú)載體信息隱藏更好地發(fā)揮出其特點(diǎn)，本方法采用了完全構(gòu)造式信息隱藏，即由秘密信息直接生成含密載體，無(wú)需構(gòu)建大數(shù)據(jù)文本庫(kù)，進(jìn)一步節(jié)省了資源的開銷。為使生成的載體能夠完整表達(dá)秘密信息，且不引起攻擊者的注意，選取漢語(yǔ)的姓名作為最終的含密載體格式。選用漢語(yǔ)人名的更深一層的理由可歸納如下：

1）姓名是每個(gè)人獨(dú)一無(wú)二的標(biāo)志，其具有獨(dú)特性。中國(guó)的百家姓加上不同名字可以有無(wú)數(shù)種組合，具有極高的靈活性。同時(shí)，中國(guó)人姓名一般以二字或三字居多，有一定的共性和規(guī)律，方便生成合適的含密載體；

2）姓名大多來(lái)源于出生時(shí)父母的命名，由于父母在為孩子取名時(shí)的期望，以及會(huì)受當(dāng)時(shí)熱門的歷史事件或者父母的文化水平等諸多因素的影響，得到的名字也可能千差萬(wàn)別?；谶@些原因，即使生成的姓名比較生僻，也很少會(huì)引起攻擊者的懷疑；

3）在許多場(chǎng)景中，姓名都可以大規(guī)模地出現(xiàn)，例如在學(xué)校中學(xué)生的點(diǎn)名冊(cè)，出席會(huì)議時(shí)的參會(huì)人員名單，旅游時(shí)的旅客名單等等，都可以應(yīng)用于多種場(chǎng)合，只需要加上一定的修飾，完全不會(huì)引起攻擊者的懷疑，具有很高的隱蔽性，可以滿足保密通信的要求。

3 算法描述

所提出的這一融合多語(yǔ)言特點(diǎn)的無(wú)載體信息隱藏方法主要包括3 個(gè)環(huán)節(jié)：1）漢語(yǔ)秘密信息翻譯轉(zhuǎn)化成英語(yǔ)信息；2）對(duì)英語(yǔ)信息做恰當(dāng)處理，使其能夠正確進(jìn)行拼音轉(zhuǎn)換；3）構(gòu)建漢語(yǔ)姓名數(shù)據(jù)庫(kù)，由上一步得到的拼音信息自動(dòng)生成漢語(yǔ)姓名名單，即秘密信息傳輸?shù)妮d體。該方法的隱藏過(guò)程流程圖如圖1 所示。

圖1 隱藏過(guò)程流程圖

3.1 漢語(yǔ)到英語(yǔ)的轉(zhuǎn)化

為保證漢語(yǔ)的秘密信息能夠自動(dòng)并快速地被翻譯成英語(yǔ)信息。算法使用了百度翻譯提供的API接口，免去了人為翻譯對(duì)時(shí)間、資源等的浪費(fèi)，保障了信息處理的速度及準(zhǔn)確性。

3.2 對(duì)英文信息的處理轉(zhuǎn)換

對(duì)于翻譯好的英文信息進(jìn)行改寫處理，以便利用拼音的形式生成載體。利用拼音字母生成漢語(yǔ)姓名時(shí)，由于漢語(yǔ)的“a”，“e”，“i”，“o”，“u”，“v”等字母在自動(dòng)生成時(shí)對(duì)應(yīng)的漢字較少，無(wú)法滿足算法的需求。為解決這一問(wèn)題，綜合考量了英文字母使用頻率和拼音輸入法中26 個(gè)字母的使用頻率，同時(shí)還借鑒了生物學(xué)中RNA 密碼子的對(duì)應(yīng)關(guān)系，如表2所示，制定了變換規(guī)則，對(duì)上述字母進(jìn)行轉(zhuǎn)換，以便更好的生成載體，滿足傳輸要求。

表2 本算法設(shè)定的RNA密碼子對(duì)應(yīng)規(guī)則

利用上述對(duì)應(yīng)規(guī)則進(jìn)行轉(zhuǎn)換后，不但解決了部分字母生成載體困難的問(wèn)題，也有效地破壞了原英文單詞的書寫，使其難以被檢測(cè)識(shí)別，進(jìn)一步增強(qiáng)了系統(tǒng)的安全性。

3.3 構(gòu)建漢語(yǔ)姓名數(shù)據(jù)庫(kù)

中國(guó)人的姓名由姓氏和名字兩部分組成。為利用拼音快速準(zhǔn)確生成姓名載體，分別建立了兩個(gè)以姓氏和名字為一級(jí)索引的數(shù)據(jù)庫(kù)；二級(jí)索引則為各漢字的拼音首字母。其中，為使算法盡可能簡(jiǎn)便易行，在姓氏一欄中暫不考慮復(fù)姓的情況。表3 展示了姓名數(shù)據(jù)庫(kù)的構(gòu)建方法。

表3 姓名數(shù)據(jù)庫(kù)構(gòu)建方法

3.4 所提方法的完整步驟

3.4.1 信息隱藏過(guò)程

本信息隱藏算法分為兩部分，即信息隱藏過(guò)程和信息提取過(guò)程。信息隱藏過(guò)程算法的完整步驟詳細(xì)如下：

Step1：輸入秘密信息s；

Step2：根據(jù)要發(fā)送的秘密信息s，先將其整理為關(guān)鍵詞形式或盡量精簡(jiǎn)；

Step3：將整理好的秘密信息s 通過(guò)翻譯API 譯為英文的秘密信息e；

Step4：將處理后的英文信息e 利用RNA 對(duì)應(yīng)規(guī)則進(jìn)行轉(zhuǎn)換，得到拼音信息k；

Step5：根據(jù)拼音信息k 的長(zhǎng)度L，生成全部為2 或3的隨機(jī)數(shù)序列，使序列求和等于L，該序列即為生成姓名時(shí)的參照序列Q；

Step6：從頭至尾遍歷拼音信息k，同時(shí)訪問(wèn)參照序列Q；

Step7（如果Q 中元素為2）：從拼音信息中取兩個(gè)字母，第一個(gè)字母從“姓氏”數(shù)據(jù)庫(kù)中提取元素，第二個(gè)從“名字”數(shù)據(jù)庫(kù)中提取元素；

Step8（如果Q 中元素為3）：步驟同7，第一個(gè)字母從“姓氏”數(shù)據(jù)庫(kù)中提取，其余的從“名字”數(shù)據(jù)庫(kù)提??；

Step9：重復(fù)步驟6～7，直到遍歷所有的拼音信息k；

Step10：生成含密姓名載體c 。

3.4.2 信息提取過(guò)程：

提取過(guò)程是隱藏過(guò)程的逆過(guò)程，接收方在接收到姓名名單后，按照以下步驟還原出原始秘密信息：

Step1：接收方接收到載體信息c，利用計(jì)算機(jī)從姓名名單中提取出漢語(yǔ)拼音的首字母；

Step2：利用雙方早先約定的RNA 密碼子對(duì)應(yīng)規(guī)則，對(duì)提取的拼音信息進(jìn)行逆處理，得到英文消息e'；

Step3：補(bǔ)全空格、標(biāo)點(diǎn)等必要信息，使其成為標(biāo)準(zhǔn)的英文信息e；

Step4：利用翻譯API 將英文信息e 翻譯回漢語(yǔ)，即得到初始的秘密信息s；

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)例證

實(shí)驗(yàn)測(cè)試環(huán)境為Windows10 操作系統(tǒng)，CPU 為Intel(R) Core(TM) i5-6300HQ，主頻為2.3GHz，內(nèi)存為8GB，編程語(yǔ)言為Python3.5。

由于信息隱藏的應(yīng)用方向主要在于秘密信息的傳遞，故實(shí)驗(yàn)文本選擇了類似地下情報(bào)的信息語(yǔ)段，如圖2 所示。

圖2 傳遞的秘密信息語(yǔ)段

根據(jù)上述的算法步驟，可生成的含密姓名載體，如圖3 所示。

圖3 生成的姓名載體格式

在信息的提取過(guò)程中，根據(jù)前文所述的提取步驟，得到原始的秘密信息，如圖4 所示。

圖4 提取的秘密信息語(yǔ)段

由實(shí)驗(yàn)結(jié)果得知，經(jīng)過(guò)本信息隱藏算法處理，原始秘密信息轉(zhuǎn)變成了姓名形式的含密載體，且其沒(méi)有在新的載體中出現(xiàn)；對(duì)比提取到的秘密信息與原始信息，提取信息與原始信息略有不同，不過(guò)卻沒(méi)有改變?cè)夹畔⒌暮x，從實(shí)現(xiàn)了信息的隱秘傳輸。

4.2 性能分析

對(duì)于某一種信息隱藏算法，其主要評(píng)價(jià)方法一般由嵌入效率、魯棒性以及抗檢測(cè)性三方面組成。

嵌入效率一般由如下計(jì)算公式得出：

其中，H 表示算法嵌入效率，Lc為秘密信息的字節(jié)長(zhǎng)度，Lr為含密載體的字節(jié)長(zhǎng)度。

在第4.1 節(jié)的實(shí)驗(yàn)舉例中，該示例的嵌入率為31.4%。在多次隨機(jī)實(shí)驗(yàn)中，其嵌入率波動(dòng)情況如圖5 所示?？芍骄度肼蕿?4.2%，嵌入率最高值可達(dá)到46%，最低則為23%。

圖5 本文算法嵌入率波動(dòng)圖

造成這種波動(dòng)現(xiàn)象的原因是，在算法第一步翻譯過(guò)程中，部分漢語(yǔ)詞語(yǔ)對(duì)應(yīng)的英文翻譯較長(zhǎng)，形成部分冗余。對(duì)于此種現(xiàn)象，可在通信前由通信雙方進(jìn)行約定，對(duì)某些事物進(jìn)行代號(hào)標(biāo)記，則可保證嵌入率更加穩(wěn)定上升。對(duì)比以往的文本信息隱藏算法，該算法在嵌入率上的提升情況，可見(jiàn)表4 中的具體對(duì)比。

由于本方法不屬于基于格式的信息隱藏，故其可以抵御任意的謄寫、重抄、影印等攻擊，甚至可以以語(yǔ)音的方式進(jìn)行隱秘通信。同時(shí)，本方法以中文姓名作為載體，可以抵御語(yǔ)義分析、詞頻分析等統(tǒng)計(jì)學(xué)檢測(cè)手段，具有較好的魯棒性。

表4 嵌入效率對(duì)比圖

在抗檢測(cè)性方面，該方法的優(yōu)點(diǎn)可歸納如下：首先，由于采用了無(wú)載體信息隱藏，沒(méi)有對(duì)載體進(jìn)行修改，所以不會(huì)造成語(yǔ)義的生澀或格式上的異常；其次，在載體上以中文姓名名單作為形式，適用于各種場(chǎng)合的偽裝；最后，創(chuàng)新性地提出了中英文結(jié)合的信息隱藏方法，這在以往的研究中并未被人提及。此外，攻擊者在進(jìn)行檢測(cè)分析時(shí)會(huì)更注意中文的格式和語(yǔ)義等，忽略其注音等情況，也為抗檢測(cè)性增加了保障。

5 結(jié)束語(yǔ)

提出了一種融合多語(yǔ)言特點(diǎn)的無(wú)載體文本信息隱藏方法，將多語(yǔ)言之間的關(guān)系融合到信息隱藏技術(shù)中，擺脫了以往文本信息隱藏只在一種語(yǔ)言中尋求方案的局限性，拓寬了思路。利用計(jì)算機(jī)進(jìn)行程序編寫及仿真后的實(shí)驗(yàn)結(jié)果表明，該方法可以有效地進(jìn)行隱秘通信，抵抗現(xiàn)有的隱寫分析手段，并在嵌入率上做到了一定的提升。由于本方法基于中英文的翻譯展開，對(duì)于較為抽象的中文信息，如唐詩(shī)、宋詞等，其嵌入率會(huì)大打折扣，所以后續(xù)的研究重點(diǎn)是針對(duì)此類復(fù)雜情況改進(jìn)該方案，使其具有更好的普適性。