金真伊 李德
摘 要:本算法首先對文本進行分詞并統(tǒng)計每個詞的詞頻及詞性,經(jīng)過預處理后提取特定的分詞序列及對應的詞頻作為文本特征。同時定義了一種能適用于中英文的基于文本特征的相似度計算方法,用以確定閾值和檢測水印。實驗結(jié)果表明,該算法與同類算法相比具有更強的魯棒性,并且處理文件不受文本格式及多媒體內(nèi)容的限制,具有很好的實驗效果。
關(guān)鍵詞:文本;零水印;相似度
DOI:10.16640/j.cnki.37-1222/t.2019.05.153
0 引言
目前對文本數(shù)字水印的研究領(lǐng)域主要集中在文本圖像和具有格式的文檔水印算法的研究,采用方法大多是改變語義[1-2]或調(diào)整格式[3-4]來嵌入水印信息。這些方法有各自的特點,但在水印的容量和魯棒性上存在明顯的不足。由于多數(shù)文本水印算法的嵌入信息量不大,還比較容易察覺并且魯棒性較低;另外,網(wǎng)絡上的侵權(quán)行為,不僅僅是原方不動的照搬,還包括對原作品的移位變換,同義詞替換等方式,傳統(tǒng)的版權(quán)保護方法[5-6]效果并不理想。
針對傳統(tǒng)嵌入式水印不能解決文本的魯棒性和不可感知性的矛盾,本文采用基于文本特征的文本水印算法來嵌入水印。目前基于特征來實現(xiàn)文本版權(quán)保護的方法主要有:通過漢字的特征來構(gòu)造水印,這種方法可以反映文字的主要信息,但稍對文本進行修改就會影響水印;與自然語言相結(jié)合的方法進行水印的嵌入,魯棒性還有待改進;使用編輯距離的方法計算相似度實現(xiàn)水印的嵌入,算法的魯棒性還不夠理想;本文在已有算法的基礎上,采用零水印技術(shù),利用文本特征實現(xiàn)水印的嵌入,并且提出一種基于文本特征的相似度計算方法,用于閾值的確定及水印的嵌入。
1 水印的嵌入和提取方法
1.1 水印嵌入算法
(1) 對文字信息進行預處理和分詞處理,并形成有效的特征信息;
(2)在文本中去除無用信息并統(tǒng)計計算詞頻信息;
(3)計算特征詞相似度以及詞頻距離相似度,并為兩種相似度分配一定的權(quán)重;
(4)根據(jù)相似度判斷文章的注冊與否;
(5)為避免重構(gòu)水印攻擊,引入時間戳機制。
1.2 水印檢測算法
(1)對文本進行預處理和分詞、降維處理;
(2)計算文本的特征值和特征詞頻;
(3)根據(jù)特征相似度和詞頻相似度,最終確定文章的相似度;
(4)匹配相似度值,如果不匹配,不允許注冊;
(5)作者可以根據(jù)自己的基本信息及密鑰信息,取得自己的水印信息,證明版權(quán)歸屬。
2 實驗結(jié)果及分析
本算法定義了一種能適用于中英文的基于文本特征的相似度計算方法,實驗中隨機選取40篇文本進行相似度計算和匹配。計算和匹配結(jié)果表明,唯一性檢測中最大相似度低于0.4,反復實驗過程中為了提高檢測效率,將閾值增加到0.7。
本算法對字體和段落的調(diào)整、格式的轉(zhuǎn)換以及不敏感內(nèi)容的刪除等操作,具有一定的穩(wěn)健性。說明該算法具有良好的抗攻擊能力。實驗結(jié)果中可以看出本文算法與同類算法相比在部分攻擊上具有一定的優(yōu)勢。
3 結(jié)論
本算法為了解決現(xiàn)有文本水印算法魯棒性低等問題,提出一種新的基于文本特征信息的相似度計算方法。本方法的目標是對要注冊版權(quán)的文本進行版權(quán)驗證,不允許有版權(quán)的作品進行注冊保護,將詞性頻率作為文本特征進行相似度計算,可以有效的抵抗各種攻擊。實驗結(jié)果表明本方法較好的解決了水印透明性與魯棒性之間的矛盾,與同類算法相比在魯棒性上具有明顯的優(yōu)勢。
參考文獻:
[1]M.J.ATALLAH,V.M.RASKINCROGAN.Natural language watermarking: Design,analysis,and a proof-of-concept implementation.Proceedings of the 4th International Workshop on Information Hiding.2001,7(02):185-199.
[2]M.J.ATALLAH,C.J.MCDONOUGH,V.RASKIN.An overview and implementations.Proceedings of the 2000 Workshop on New Security Paradigms.2000,86(03):51-65.
[3]J.BRASSIL,S.LOW,F(xiàn).MAXEMCHUKN.Copyright protection for the electronic distribution of text documents.Proceedings of the IEEE.1999,89(07):1181-1196.
[4]J.BRASSIL,S.LOW,F(xiàn).MAXEMCHUKN.Electronic marking and identification techniques to discourage document copying. IEEE Journal on Selected Areas in Communications.1995, 13(08):1495-1504.
[5]Y.Z.Cheng,J.Zhang.An algorithm for the illegal copying detection of digital documents.Proceedings of the IEEE International Conference on NLP-KE.2005,16(08):384-387.
[6]X.M.Sun,G.Luo.Component-based digital watermarking of Chinese texts.Proceedings of the Third International Conference on Information Security.2004,18(09):76-81.
*為通訊作者