基于格式文本水印是迄今为止算法出现的最多的一类文本水印。从最初的行移位,字移位,特征编码到后来从特征编码上发展出来的改变字体大小,颜色等方法,基于格式文本水印的研究非常活跃。Brassil T 等人在文献[1]中提出的行移位可以同时适用于中英文,但字移位只能适用于英文。其后出现的基于字体颜色[2],大小[3]的方法可以同时适用于中英文,但鲁棒太差,不能盲提取。文献[4]同时使用了改变字符编码和行移位,实现了基于内容和基于格式两种水印算法的结合,鲁棒性较好,但其嵌入位置是由英文单词的长度和间距来确定,因此该算法只适用于英文文本。基于内容的文本水印主要是通过字符编码替换来达到水印嵌入的目的,是一类鲁棒性和安全性都较好的文本水印。文献[5]用外形相似的希腊字母来替换英文字母,该方法只适合于英文,且水印空间小,无法嵌入较多的水印信息。文献[6]基于汉字表达式的文本水印是目前针对中文文本最好的一种水印算法该算法只适用于中文文本。基于不重要表示文本水印类似于图像水印中的 LSB,利用文本中不重要的标点符号位置或者空格来嵌入水印。此类水印算法不稳定,在传输过程中都有可能丢失水印信息,鲁棒性和安全性还不如后来的基于格式的文本水印。基于自然语言的文本水印最早由 02 年美国Purdue大学的Mikhail.J.Atallah和VictorRaskin等人提出的。如文献[7]就是一种专门针对中文的基于不完整语义理解的水印算法。后来的基于同义词替换的水印算法是基于自然语言文本水印算法的简化,针对某些选定的词组,用同义词替换来嵌入水印。这类算法受到不同语种的语法限制,均不能同时适用于中文和英文文本。
分析可知,只有少数基于格式文本水印的嵌入方法能够同时适用于中文和英文文本,但目前的这类水印算法水印空间小,鲁棒性和安全性很弱,实用性不高。
在对现有资料的查阅分析中,到目前为止还没有发现以同时适用于中英文文本为研究出发点的文本数字文本水印文献,也没有一个完整的专门针对中文和英文两种语言并存的文本水印算法。然一个同时适用于中英文的文本数字水印算法而日常生活中使用的很多文档却又是中英文混合的,基于此,本文提出一种不受语种限制,能同时适用于中英文,并且水印空间和水印性能都得到提高的文本数字水印算法。
文本水印常见的攻击方式有格式攻击,添加攻击,删除或替换攻击等几种。格式攻击是通过对水印文本进行格式调整来达到清除水印的目的,如对文本全文设置相同的间距,字体大小,颜色,清除下划线等,这些操作不能对该算法使用的属性起作用,但对于清除格式操作该算法却不能免疫。即该水印嵌入方式对于除清除格式之外的格式攻击具有良好的抵抗能力。添加攻击就是攻击者添加字符,句子或者段落来破坏原有水印的提取。该文本水印算法使用了两一个同时适用于中英文的文本数字水印算法13个属性的修改,如果攻击者仅仅进行了字符,句子或段落的添加,那么所添加内容的这两个属性都不具备水印空间的特征值,在水印提取时,就可以发现这些被故意添加的非原文本内容,同时仍可以根据具有水印空间特征值的字符提取出正确的水印信息。删除或替换攻击是对水印文本的字符,句子或段落进行删除或者替换的操作。该算法的水印信息经过循环嵌入,到整个文本,因此文本中有一组或多组的水印。当文本只有一组水印,遭受删除攻击后无法提取水印。当有两组或者两组以上的水印时,如果被删除内容集中,大部分时候仍然能正确提取出水印;如果删除内容分散,则无法提取出水印。对于替换攻击来说,由于 word 属性具有继承性,替换后的字符仍然具有水印特征,可以正确提取水印信息。提取出来的水印信息,可以根据其中的文本内容摘要检测出文本内容已经被修改。由此可见该文本水印算法对此类攻击有一定程度的抵抗力,但仍需改善。 水印的国内外研究现状与发展趋势(3):http://www.youerw.com/yanjiu/lunwen_1628.html