• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于神經(jīng)機(jī)器翻譯的文本隱寫方法

      2021-01-04 06:23:26尉爽生楊忠良江旻宇黃永峰
      關(guān)鍵詞:語(yǔ)句編碼概率

      尉爽生,楊忠良,江旻宇,黃永峰

      1.清華大學(xué)電子工程系,北京100084

      2.萊斯大學(xué)計(jì)算機(jī)科學(xué)系, 美國(guó)得克薩斯州77005

      Shannon 在1949 發(fā)表的《保密系統(tǒng)的通信理論》中描述了解決安全問(wèn)題的3 種技術(shù)方案:加密系統(tǒng)、隱私系統(tǒng)和隱藏系統(tǒng)[1].雖然加密系統(tǒng)和隱私系統(tǒng)至今依然是網(wǎng)絡(luò)系統(tǒng)中的主要安全方案,但它們?cè)诒Wo(hù)信息安全的同時(shí)也暴露了信息的重要性和存在性,因此容易遭受各種針對(duì)性攻擊.信息隱藏利用載體數(shù)據(jù)的信息冗余空間[5]進(jìn)行秘密信息嵌入,掩蓋了信息的存在性,從而減少被攻擊的風(fēng)險(xiǎn).

      自然語(yǔ)言文本是人們?nèi)粘I钪惺褂米顝V泛的信息載體,基于文本的信息隱藏存在廣闊的應(yīng)用空間.文本信息隱藏的方法主要有基于文本格式[2-4]、基于文本語(yǔ)法、語(yǔ)義[5-6]和基于文本生成[7-11]的方法.基于文本格式的方法主要是通過(guò)修改文本文件的一些格式屬性實(shí)現(xiàn)信息的嵌入,例如使用不可見(jiàn)字符(空格、制表符等)在單詞間增刪[2],還有對(duì)格式化文本(WORD 等)通過(guò)行移編碼和字移編碼[3-4]對(duì)文本的行間距或字符間距做微小改變來(lái)進(jìn)行信息嵌入.這類方法主要出現(xiàn)在早期的研究中,魯棒性較差,重新排版或者清除格式后隱藏的秘密信息也會(huì)丟失.基于語(yǔ)法、語(yǔ)義的信息隱藏方法結(jié)合語(yǔ)言學(xué)、統(tǒng)計(jì)學(xué)理論以自然語(yǔ)言處理(natural language processing, NLP)技術(shù)為基礎(chǔ),通過(guò)對(duì)文本進(jìn)行詞匯、語(yǔ)法、語(yǔ)義變換來(lái)實(shí)現(xiàn)秘密信息的嵌入,在這類方法中相對(duì)成熟的有同義詞替換算法[5-6].

      基于自然語(yǔ)言文本生成方法的目標(biāo)是利用自然語(yǔ)言處理技術(shù)生成符合自然語(yǔ)言統(tǒng)計(jì)特征的載密文本.文獻(xiàn)[7]提出了一種基于馬爾可夫鏈模型和DES(data encryption standard)的文本信息隱藏系統(tǒng),通過(guò)計(jì)算語(yǔ)料庫(kù)訓(xùn)練集中單詞出現(xiàn)的頻率得到轉(zhuǎn)移概率,利用轉(zhuǎn)移概率對(duì)單詞進(jìn)行編碼,然后在文本生成過(guò)程實(shí)現(xiàn)秘密信息的嵌入.文獻(xiàn)[8]利用一階馬爾可夫模型構(gòu)建生成宋詞的語(yǔ)言模型,提出了將信息隱藏融入到宋詞生成過(guò)程的方法.近年來(lái),深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域得到廣泛應(yīng)用,使自然語(yǔ)言處理能力得到了較大的提升,隨之出現(xiàn)了較多的基于神經(jīng)網(wǎng)絡(luò)模型的文本隱寫方法.文獻(xiàn)[9]以神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)設(shè)計(jì)了基于中文古詩(shī)生成的信息隱藏方法,并通過(guò)模版約束的生成方法以及依據(jù)互信息的大小排序候選詞的方法提高含秘詩(shī)詞語(yǔ)句的質(zhì)量.文獻(xiàn)[10]使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)模型在生成的tweets 和emails文本中嵌入秘密信息.文獻(xiàn)[11]提出一種基于RNN 的文本信息隱藏方法,根據(jù)需要隱藏的秘密信息生成高質(zhì)量的載密文本,并對(duì)單詞的條件概率分布進(jìn)行定長(zhǎng)編碼和變長(zhǎng)編碼處理,在隱蔽性和信息嵌入率方面都表現(xiàn)了良好的性能.然而這些方法只在生成較短文本或?qū)υ挄r(shí)具有較好的性能,難以生成主題明確且語(yǔ)義完整的長(zhǎng)文本.

      當(dāng)今NLP 技術(shù)能力快速提升,基于文本生成的信息隱藏方法取得了不錯(cuò)的成果,表現(xiàn)出了巨大的潛力.機(jī)器翻譯可以根據(jù)源語(yǔ)言文本來(lái)生成同樣意義的目標(biāo)語(yǔ)言文本,因此本文通過(guò)研究機(jī)器翻譯的技術(shù)特點(diǎn),提出了一種基于神經(jīng)機(jī)器翻譯的文本信息隱藏方法.

      1 相關(guān)研究

      1.1 基于翻譯的信息隱藏方法

      統(tǒng)計(jì)機(jī)器翻譯模型在預(yù)測(cè)翻譯結(jié)果的過(guò)程中通常會(huì)為每個(gè)源語(yǔ)句翻譯出多個(gè)候選語(yǔ)句.通過(guò)對(duì)該候選語(yǔ)句進(jìn)行編碼,并根據(jù)待嵌入秘密信息選取其中一個(gè)候選語(yǔ)句作為翻譯語(yǔ)句輸出,便可以將秘密信息嵌入到翻譯語(yǔ)句中.文獻(xiàn)[12]首次提出這種思路并設(shè)計(jì)了Lost in Translation(LiT)算法,LiT 算法使用多臺(tái)翻譯機(jī)對(duì)載體文本中的句子進(jìn)行翻譯,則每個(gè)語(yǔ)句可獲得不同的翻譯結(jié)果.對(duì)不同的翻譯機(jī)進(jìn)行Huffman 編碼,根據(jù)需要隱藏的信息位選取對(duì)應(yīng)編碼的翻譯機(jī)所產(chǎn)生的翻譯文本,從而實(shí)現(xiàn)信息隱藏.文獻(xiàn)[13]針對(duì)文獻(xiàn)[12]存在的安全性問(wèn)題,提出了不需要傳輸載體文本的改進(jìn)算法LiJtT(Lost in Just the Translation).該算法使用通信雙方共享的密鑰和散列函數(shù)計(jì)算不同翻譯結(jié)果的哈希值,指定每個(gè)哈希值的某些位(稱為隱藏信息位)表示其對(duì)應(yīng)的翻譯結(jié)果的攜帶信息,選取哈希值中隱藏信息位與當(dāng)前需要隱藏的信息相同的翻譯結(jié)果作為載密文本.信息接收方計(jì)算出載密文本的哈希值即可提取隱秘信息,但該方法實(shí)現(xiàn)起來(lái)較為復(fù)雜,信息嵌入率很低.文獻(xiàn)[14]提出了改進(jìn)的方案Lost in n-best List(LinL),與其他使用多個(gè)翻譯模型的方法相比,該方法只使用一個(gè)統(tǒng)計(jì)機(jī)器翻譯模型,因此產(chǎn)生的候選結(jié)果差異小,使得該方法具有更好的抗隱寫分析能力.但是上述方法都存在信息隱藏容量較低以及算法過(guò)于復(fù)雜的問(wèn)題,因而實(shí)用性較差.

      1.2 神經(jīng)機(jī)器翻譯

      使用神經(jīng)網(wǎng)絡(luò)模型來(lái)完成機(jī)器翻譯任務(wù)的神經(jīng)機(jī)器翻譯(neural machine translation,NMT)是2013年以后快速發(fā)展起來(lái)的.Google 在2014年提出了編碼器-解碼器(Encoder-Decoder)模型框架[15],該模型框架包括2 個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN),分別作為Encoder 和Decoder,主流的NMT 模型都以這種框架為基礎(chǔ).之后文獻(xiàn)[16]提出了在NMT 中引入注意力(Attention)機(jī)制,進(jìn)一步提升了翻譯質(zhì)量.目前,NMT 的很多性能都超過(guò)了統(tǒng)計(jì)機(jī)器翻譯模型(statistical machine translation, SMT),已成為主流的機(jī)器翻譯技術(shù).

      典型的編碼器-解碼器框架如圖1所示,假設(shè)輸入序列為X={x1,x2,···,xt},在時(shí)間步t,RNN 根據(jù)當(dāng)前時(shí)刻的輸入向量xt和上一時(shí)間步的隱藏狀態(tài)ht?1得到當(dāng)前的隱藏狀態(tài)ht=f(xt,ht?1),隨后編碼器將各時(shí)間步的隱藏狀態(tài)變換為表示輸入序列語(yǔ)義編碼的向量c=q({h1,···,ht}),其中的f和q被稱為激活函數(shù),它們對(duì)編碼器中相應(yīng)層的輸入進(jìn)行非線性的映射.

      圖1 編碼器-解碼器框架Figure 1 Encoder-decoder framework

      解碼器在解碼過(guò)程中的時(shí)間步根據(jù)語(yǔ)義編碼的向量c和已經(jīng)生成的單詞y1來(lái)預(yù)測(cè)單詞,最終生成整個(gè)輸出序列Y={y1,y2,···,yt},輸出序列的概率可以表示為

      解碼器最終目標(biāo)是得到最大概率的序列,也就是使用搜索算法求解arg maxp(Y).通常不使用窮舉搜索法,因?yàn)樗鼜?fù)雜度太高,效率很低.更常用的是Beam Search.

      1.3 集束搜索解碼器

      Beam Search 的主要策略是在每個(gè)時(shí)間步都選取條件概率最大的K個(gè)候選序列,最終得到K個(gè)候選語(yǔ)句并從中選擇最佳語(yǔ)句作為輸出結(jié)果.這里K稱為集束寬度(Beam Size).在第1 個(gè)時(shí)間步選取了條件概率最大的K個(gè)單詞,分別作為K個(gè)候選序列的首位.之后每一時(shí)間步都基于上一步的K個(gè)候選序列,分別找出條件概率最大的K個(gè),得到K*K個(gè)候選序列,然后分別計(jì)算其評(píng)分,只保留評(píng)分最高的K個(gè)單詞.

      序列的評(píng)分計(jì)算式如下:

      對(duì)于機(jī)器翻譯,不同的候選序列長(zhǎng)度可能不一樣,因此評(píng)分需要進(jìn)行歸一化處理

      Beam Search 具有更加豐富的搜索空間,可以得到較好的結(jié)果.當(dāng)然K越大,得到全局最優(yōu)的可能性就越大,但是計(jì)算代價(jià)也會(huì)很大.通常選擇合適的大小滿足實(shí)際需要即可.

      2 基于神經(jīng)機(jī)器翻譯的文本信息隱藏方法

      神經(jīng)機(jī)器翻譯模型通過(guò)編碼器對(duì)源語(yǔ)言文本進(jìn)行編碼得到語(yǔ)義向量,然后通過(guò)解碼器生成目標(biāo)文本.本文設(shè)計(jì)的信息隱藏方法利用這種翻譯機(jī)制在Beam Search 解碼器中添加信息隱藏模塊,在解碼輸出目標(biāo)語(yǔ)言文本的過(guò)程中實(shí)現(xiàn)信息隱藏.

      2.1 信息隱藏模塊

      信息隱藏模塊的結(jié)構(gòu)如圖2所示,翻譯模型的解碼器使用Beam Search 搜索算法可以得到每一步輸出的候選單詞.首先對(duì)當(dāng)前位置進(jìn)行可嵌入性檢測(cè)以減少信息嵌入對(duì)文本生成質(zhì)量的影響,對(duì)于可嵌入信息的位置,依據(jù)候選詞的概率排序進(jìn)行編碼,然后根據(jù)需要嵌入的信息選擇對(duì)應(yīng)編碼的單詞作為輸出.

      圖2 信息隱藏模塊Figure 2 Information hiding module

      本文設(shè)計(jì)了一種依據(jù)候選詞概率的“自適應(yīng)”的判別方法,可用來(lái)評(píng)判當(dāng)前位置是否適合信息嵌入.每個(gè)單詞生成位置的候選詞概率分布都會(huì)有差異,首先將當(dāng)前位置的候選單詞按概率大小進(jìn)行排序,然后計(jì)算前兩個(gè)候選單詞概率的比值,當(dāng)這個(gè)比值大于一定的閾值(閾值大小可根據(jù)實(shí)驗(yàn)效果進(jìn)行調(diào)整)時(shí),就可以判斷該位置不適合信息嵌入.如果限定每個(gè)位置只嵌入0 或者1,那么只檢測(cè)前兩個(gè)單詞的概率比值即可.如果希望盡可能嵌入更多的信息,那么可繼續(xù)依照概率排序檢測(cè)相鄰單詞概率的比值是否大于閾值,在不超過(guò)Beam Search 搜索寬度的前提下,得到當(dāng)前位置最多可選的候選詞.

      候選單詞需要先按照一定的規(guī)則進(jìn)行編碼,只有這樣信息隱藏模塊才能根據(jù)需要嵌入的二進(jìn)制比特流來(lái)選擇對(duì)應(yīng)編碼的候選詞.在進(jìn)行信息隱藏與信息提取時(shí),也需要根據(jù)同樣的編碼規(guī)則解碼出單詞對(duì)應(yīng)的編碼.在通信系統(tǒng)中,典型的編碼方式有定長(zhǎng)編碼和變長(zhǎng)編碼.定長(zhǎng)編碼可用滿二叉樹(shù)的葉子節(jié)點(diǎn)來(lái)表示,需要當(dāng)前候選單詞至少有2n個(gè),假設(shè)當(dāng)前位置有5 個(gè)可用的候選詞,那么可以根據(jù)概率大小排序取前4 個(gè)編碼為{00、01、10、11}.變長(zhǎng)編碼實(shí)際是依據(jù)候選詞的概率排序,使用哈夫曼樹(shù)(Huffman tree)的葉子節(jié)點(diǎn)進(jìn)行編碼.變長(zhǎng)編碼依據(jù)當(dāng)前可用候選詞的概率排序依次編碼為{0,10,110,111,···}.

      對(duì)于相同數(shù)量的候選詞來(lái)說(shuō),變長(zhǎng)編碼可以有更長(zhǎng)的編碼長(zhǎng)度,使得在單個(gè)位置嵌入的信息位數(shù)更多.然而,長(zhǎng)編碼意味著所選單詞概率較低,生成文本質(zhì)量較差.文本質(zhì)量應(yīng)該優(yōu)先于信息嵌入率考慮,因此本文使用定長(zhǎng)編碼方式.

      2.2 信息隱寫算法

      信息嵌入過(guò)程如圖3所示,神經(jīng)機(jī)器翻譯模型使用Beam Search 解碼器.在目標(biāo)文本逐詞解碼過(guò)程中,對(duì)Beam Search 搜索的候選單詞進(jìn)行編碼,然后根據(jù)需要嵌入的bit stream 選擇對(duì)應(yīng)編碼的單詞.

      圖3 神經(jīng)機(jī)器翻譯及隱寫模型Figure 3 Neural machine translation and steganography model

      在翻譯過(guò)程中,解碼器在某些位置會(huì)輸出占位符ε,它會(huì)在整個(gè)目標(biāo)語(yǔ)句生成后清除,這種占位符所在的位置是不可進(jìn)行信息隱藏處理的.還有一些位置上候選詞空間中相鄰排序的候選詞概率差異較大,這些位置通常只有概率最大的那個(gè)候選單詞是唯一合適的選擇,如圖3中的lauter.這個(gè)位置就不能進(jìn)行信息嵌入,因?yàn)橹挥幸粋€(gè)有效的候選單詞而未達(dá)到本算法的編碼要求.這些檢查工作由可嵌入性檢測(cè)單元執(zhí)行.

      隱藏算法具體步驟描述如下:

      步驟1輸入源語(yǔ)言序列X={x1,x2,···,xt},以及完成二進(jìn)制編碼的秘密信息序列B={b1,b2,···,bn},例如{1,0,···,1}.

      步驟2翻譯模型開(kāi)始執(zhí)行翻譯任務(wù).

      步驟3產(chǎn)生目標(biāo)語(yǔ)句的第1 個(gè)詞語(yǔ)y1時(shí)使用貪婪搜索選取目標(biāo)候選詞中最大概率的單詞,第1 個(gè)單詞位不能嵌入信息.

      步驟4產(chǎn)生通過(guò)Beam Search 算法搜索目標(biāo)語(yǔ)句序列的下一個(gè)單詞yt,得到目標(biāo)單詞的候選詞空間P(yt?1,yt|xt).每一步都根據(jù)目標(biāo)語(yǔ)句序列的概率評(píng)分進(jìn)行排序,保留Beam Size 個(gè)評(píng)分最優(yōu)的結(jié)果.本文暫存目標(biāo)詞語(yǔ)的候選單詞及對(duì)應(yīng)的概率Ci={c1i,c2i,···,cmi},然后生成下一個(gè)目標(biāo)單詞.

      步驟5重復(fù)步驟4 直至目標(biāo)語(yǔ)言生成完,并得到Beam Size 個(gè)評(píng)分最優(yōu)的候選翻譯,選取一個(gè)評(píng)分最高的翻譯序列并提取其搜索路徑上各時(shí)間步上的候選單詞及對(duì)應(yīng)概率的集合,按照候選單詞的概率排序得到整個(gè)目標(biāo)語(yǔ)句的候選詞集合C={C1,C2,···,Ci}.

      步驟6根據(jù)步驟5 得到的候選單詞及對(duì)應(yīng)概率的集合,依次對(duì)序列各位置的候選單詞進(jìn)行可嵌入性檢測(cè)并完成候選單詞編碼.在可嵌入信息位,根據(jù)秘密信息序列B中的二進(jìn)制位流選取候選單詞中對(duì)應(yīng)編碼的單詞進(jìn)行解碼輸出,不可嵌入位則直接使用最大概率的候選單詞解碼輸出,最終得到目標(biāo)語(yǔ)句單詞序列的輸出

      二進(jìn)制秘密信息全部嵌入完成后,剩余文本將繼續(xù)翻譯但不進(jìn)行信息嵌入.秘密信息的長(zhǎng)度以及信息嵌入的開(kāi)始和結(jié)束位置等信息統(tǒng)一編碼在二進(jìn)制比特流中.

      2.3 信息提取算法

      秘密信息的提取過(guò)程如圖4所示,信息提取時(shí)采用與信息嵌入相同的模型及模型參數(shù).對(duì)源語(yǔ)言文本執(zhí)行翻譯,獲取最大概率的目標(biāo)語(yǔ)句序列及其搜索路徑上的候選詞集合C={C1,C2,···,Ci}.接著對(duì)各位置的候選詞使用與信息嵌入方法一致的可嵌入性檢測(cè)并對(duì)候選單詞進(jìn)行編碼.最后查找隱寫文本中各單詞所對(duì)應(yīng)候選詞中的編碼,這些編碼即為嵌入的二進(jìn)制序列.

      圖4 秘密信息提取Figure 4 Secret information extraction

      隱藏信息提取算法可用如下步驟來(lái)描述:

      步驟1輸入源語(yǔ)言序列X={x1,x2,···,xt},及待提取信息的隱寫文本

      步驟2使用翻譯模型對(duì)源語(yǔ)言序列X進(jìn)行翻譯得到概率評(píng)分最大的目標(biāo)語(yǔ)言序列Y={y1,y2,···,yt},提取其搜索路徑上各位置的候選單詞及概率集合C={C1,C2,···,Ci}.

      步驟3對(duì)候選詞集合中各位置上的單詞進(jìn)行可嵌入性檢測(cè)并進(jìn)行編碼.

      步驟4對(duì)隱寫文本中的每個(gè)單詞位yt重新進(jìn)行信息提取,查找yt對(duì)應(yīng)的候選詞編碼,這個(gè)編碼即為嵌入的隱藏信息bi.

      步驟5重復(fù)步驟4 直至遇到隱寫語(yǔ)句的結(jié)束符.

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 模型訓(xùn)練及數(shù)據(jù)預(yù)處理

      本文設(shè)計(jì)的信息隱藏模塊可以很方便地集成到神經(jīng)機(jī)器翻譯模型中,雖然當(dāng)前使用Attention 機(jī)制的神經(jīng)翻譯模型較為普遍,但是Attention 機(jī)制需要較大的內(nèi)存和計(jì)算開(kāi)銷.文獻(xiàn)[17]通過(guò)與統(tǒng)計(jì)機(jī)器翻譯的對(duì)比總結(jié)了當(dāng)前神經(jīng)機(jī)器翻譯的一些不足之處,指出了Attention 機(jī)制對(duì)于長(zhǎng)語(yǔ)句翻譯的作用有限,同時(shí)指出了Attention 機(jī)制和統(tǒng)計(jì)機(jī)器翻譯中詞對(duì)齊的相關(guān)性.

      文獻(xiàn)[18]提出了一種不使用注意力機(jī)制的即時(shí)翻譯模型,以文獻(xiàn)[16]的研究為基礎(chǔ)來(lái)移除Attention 機(jī)制,并且使用多層LSTM網(wǎng)絡(luò)實(shí)現(xiàn)編碼和解碼的功能,其翻譯質(zhì)量與參考模型相近,并且在長(zhǎng)語(yǔ)句翻譯時(shí)效果更好.于是本文以這種模型為基礎(chǔ)進(jìn)行實(shí)驗(yàn),在解碼器中添加本文的信息隱藏模塊.

      實(shí)驗(yàn)中使用WMT 2014 數(shù)據(jù)集進(jìn)行模型訓(xùn)練,該數(shù)據(jù)集包含450 萬(wàn)行英語(yǔ)/德語(yǔ)的平行文本.用于訓(xùn)練的平行語(yǔ)料庫(kù)按照文獻(xiàn)[18]的方式進(jìn)行預(yù)處理,首先使用文獻(xiàn)[19]提出的fast_align 方法進(jìn)行對(duì)齊處理,然后在目標(biāo)語(yǔ)句和源語(yǔ)句中插入占位符使它們長(zhǎng)度相同.測(cè)試數(shù)據(jù)選用WMT newstest 2014.

      3.2 隱寫實(shí)驗(yàn)

      在隱寫實(shí)驗(yàn)中使用隨機(jī)序列作為秘密信息,設(shè)定“自適應(yīng)”信息可嵌入性檢測(cè)的閾值t=0.5.為了評(píng)估本方法的最小信息嵌入率,各信息嵌入位只選擇概率最大的兩個(gè)候選單詞進(jìn)行編碼,編碼長(zhǎng)度為1 bit.經(jīng)過(guò)多次重復(fù)實(shí)驗(yàn)得到了不同隱寫序列對(duì)應(yīng)的隱寫文本,測(cè)試集中的一行測(cè)試語(yǔ)句實(shí)驗(yàn)結(jié)果如表1所示.

      表1 隱寫實(shí)驗(yàn)樣本Table 1 Steganography experiment samples

      在機(jī)器翻譯領(lǐng)域評(píng)價(jià)翻譯質(zhì)量時(shí)通常會(huì)用文獻(xiàn)[20]提出的BLEU(bilingual evaluation understudy)評(píng)價(jià)指標(biāo),BLEU 值越高,表示文本翻譯質(zhì)量越高.對(duì)于實(shí)驗(yàn)所用的NMT 模型,當(dāng)不嵌入隱蔽信息時(shí),其生成的翻譯文本的BLEU 均值為16;當(dāng)嵌入隱蔽信息時(shí),其生成的翻譯文本的BLEU 均值為9.6.考慮到BLEU 指標(biāo)的結(jié)果表示翻譯結(jié)果與參考翻譯的相似程度,評(píng)價(jià)方法主要是計(jì)算N 元模型(N-gram)的匹配數(shù)量.對(duì)于參考翻譯中的同義詞或相似的翻譯結(jié)果,可能得到較低的評(píng)分,而隱寫文本會(huì)經(jīng)常出現(xiàn)同義詞,因此該指標(biāo)對(duì)于評(píng)估隱寫文本的質(zhì)量有一定的局限性.本文抽取部分隱寫結(jié)果進(jìn)行了人工分析,在信息嵌入率適中的情況下,語(yǔ)義及語(yǔ)句的流暢性較好,如表1中的實(shí)驗(yàn)樣本.

      3.3 隱藏容量

      隱藏容量(embedding rate)是評(píng)估隱寫算法性能的一個(gè)重要指標(biāo),它用于衡量在文本中嵌入信息的多少.隱藏容量Re的計(jì)算方法是將實(shí)際嵌入的比特?cái)?shù)除以整個(gè)生成文本的比特?cái)?shù),其表達(dá)式為

      式中,N為語(yǔ)句的總數(shù),Li表示第i行語(yǔ)句的長(zhǎng)度,k表示每個(gè)單詞嵌入的信息編碼位數(shù),B(si)表示在第i行語(yǔ)句的總位數(shù),本文的原英文語(yǔ)句中單詞的每個(gè)字母在計(jì)算機(jī)系統(tǒng)中占8 bit,因此其中mi,j表示第i行語(yǔ)句中第j個(gè)單詞所包含的字母總數(shù).和分別為語(yǔ)句的平均長(zhǎng)度和每個(gè)單詞包含的平均字母數(shù),λ為可嵌入信息位置的比例.

      評(píng)估相對(duì)嵌入率(bits per sentence)時(shí)只需把前文計(jì)算的隱藏容量Re與語(yǔ)句的平均比特位數(shù)相乘即可,即

      實(shí)驗(yàn)產(chǎn)生的隱寫文本,統(tǒng)計(jì)實(shí)驗(yàn)產(chǎn)生的隱寫文本中不同長(zhǎng)度語(yǔ)句的平均信息嵌入位數(shù),結(jié)果如表2所示.其中,整個(gè)測(cè)試集共2 737 條語(yǔ)句,平均每條語(yǔ)句包含17 個(gè)單詞,信息嵌入位數(shù)均值10.5 bit,隱藏容量均值1.32%.

      表2 隱藏容量統(tǒng)計(jì)結(jié)果Table 2 Hide capacity statistics

      實(shí)驗(yàn)數(shù)據(jù)表明本文的隱寫算法在不同的語(yǔ)句長(zhǎng)度下都有穩(wěn)定的隱藏容量.實(shí)驗(yàn)中每個(gè)可嵌入信息的位置嵌入信息編碼長(zhǎng)度為1 bit,即k=1,語(yǔ)句信息嵌入能力達(dá)到了10.5 bit/sentence.文獻(xiàn)[9]提出的LiJiT 算法取得的最大信息嵌入率為0.33%,達(dá)到2.2 bit/sentence.文獻(xiàn)[10]中的LinL 算法信息嵌入率比LiJiT提高了20%,約為2.8 bit/sentence.對(duì)比數(shù)據(jù)如表3所示.

      表3 相關(guān)算法隱藏容量對(duì)比Table 3 Comparison of hidden capacity by related algorithms

      3.4 抗隱寫檢測(cè)實(shí)驗(yàn)及安全性分析

      文本隱寫分析的實(shí)質(zhì)是區(qū)分隱寫文本和正常文本的二分類問(wèn)題,主要方法包括針對(duì)特定信息隱藏算法的方法和盲檢測(cè)方法.文獻(xiàn)[21]提出了針對(duì)基于機(jī)器翻譯模型的信息隱藏的檢測(cè)方法,并指出該檢測(cè)方法有以下缺點(diǎn):一是需要了解隱藏算法的一些私密信息,而這些信息事實(shí)上第3 方很難竊?。欢切枰獙?duì)檢測(cè)文本做大量的機(jī)器翻譯,檢測(cè)效率較低.因此針對(duì)性的檢測(cè)方法難以實(shí)用,當(dāng)前隱寫分析主要研究通用性的盲檢測(cè)方法.盲檢測(cè)方法不需要了解信息隱藏系統(tǒng)的詳細(xì)信息,只需根據(jù)載體特征來(lái)判斷是否包含隱藏信息.文獻(xiàn)[22]提取文本的單詞頻率和二元組頻率特征后使用支持向量機(jī)(support vector machine, SVM)進(jìn)行文本分類,該方法本質(zhì)是區(qū)分不同翻譯機(jī)的翻譯特征,而對(duì)只使用一臺(tái)翻譯機(jī)的方法無(wú)效.

      文獻(xiàn)[23]提取文本中單詞的相關(guān)性特征后使用Softmax 分類器設(shè)計(jì)了一種高效的文本隱寫分析方法,該方法表現(xiàn)出比其他檢測(cè)方法更高的檢測(cè)效率和準(zhǔn)確率.本文使用該檢測(cè)方法進(jìn)行隱寫檢測(cè)實(shí)驗(yàn),首先在隱寫文本和非隱寫文本中分別隨機(jī)抽取80%作為訓(xùn)練樣本,其余的作為測(cè)試樣本.實(shí)驗(yàn)測(cè)試對(duì)隱寫樣本檢測(cè)的正確率只有0.57,精度只有0.68,并且召回率只有0.26.

      實(shí)驗(yàn)結(jié)果中的正確率和召回率說(shuō)明該隱寫檢測(cè)方法難以區(qū)分正常文本和隱寫文本,表明本文的隱寫方法具有較高的抗隱寫檢測(cè)能力.

      在當(dāng)前的互聯(lián)網(wǎng)中,網(wǎng)絡(luò)用戶發(fā)布多語(yǔ)種文本的現(xiàn)象比較普遍,因此網(wǎng)絡(luò)空間中多語(yǔ)言文本的數(shù)量急劇增大.無(wú)論進(jìn)行自動(dòng)的隱寫分析檢測(cè)還是僅篩選可疑文本,均大大增加了檢測(cè)時(shí)間和計(jì)算量.如果利用人工跨語(yǔ)言分析來(lái)進(jìn)行隱寫檢測(cè),將會(huì)面臨難以想象的工作量和難度.更進(jìn)一步地,如果進(jìn)行秘密信息傳遞的雙方靈活地約定傳輸形式,如在極端的時(shí)間段、載體文本語(yǔ)種的切換或者發(fā)布渠道的切換等,那么檢測(cè)方就更難以搜集到足夠的含秘樣本來(lái)進(jìn)行隱寫分析.

      需要注意的是使用本文所提算法進(jìn)行秘密信息傳輸?shù)碾p方共享模型參數(shù),因此模型及參數(shù)的分發(fā)和更新都需要通過(guò)可信信道完成.綜合以上分析,本文的方法具有一定的安全優(yōu)勢(shì).

      4 結(jié) 語(yǔ)

      本文提出了一種基于神經(jīng)機(jī)器翻譯模型的文本信息隱藏方法,根據(jù)神經(jīng)機(jī)器翻譯模型的工作原理和技術(shù)特點(diǎn)選擇Beam Search 解碼器,在解碼器中添加信息隱藏模塊.依據(jù)相鄰候選詞概率比值關(guān)系設(shè)計(jì)了“自適應(yīng)”的可嵌入性監(jiān)測(cè)單元,在信息嵌入之前先對(duì)各候選詞集合進(jìn)行可嵌入性檢測(cè),然后對(duì)候選詞進(jìn)行編碼,有效降低了信息嵌入對(duì)目標(biāo)語(yǔ)言文本質(zhì)量的影響.實(shí)驗(yàn)結(jié)果表明,本文方法在隱藏容量和抗隱寫檢測(cè)性方面均表現(xiàn)良好.在接下來(lái)的研究中,我們將使用更為先進(jìn)的神經(jīng)機(jī)器翻譯模型和預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn),并且通過(guò)進(jìn)一步研究文本翻譯的特點(diǎn)尋找更適合的信息隱藏位置,優(yōu)化隱寫算法,提高隱寫文本質(zhì)量.

      猜你喜歡
      語(yǔ)句編碼概率
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
      《全元詩(shī)》未編碼疑難字考辨十五則
      重點(diǎn):語(yǔ)句銜接
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      精彩語(yǔ)句
      麻城市| 泗阳县| 临猗县| 荥阳市| 昂仁县| 隆昌县| 资阳市| 遂平县| 开封市| 顺平县| 陆丰市| 江北区| 荃湾区| 汉中市| 宝清县| 哈尔滨市| 太和县| 九龙城区| 阜新市| 阿拉善右旗| 康乐县| 万安县| 葫芦岛市| 老河口市| 澜沧| 江门市| 永善县| 碌曲县| 龙游县| 阜南县| 精河县| 安国市| 新乡市| 漾濞| 津市市| 陵川县| 娄烦县| 资溪县| 桃江县| 岑巩县| 会昌县|