OCR三维验证码破解技术研究与实现(2)

致谢 19

参考文献 20

1 绪论

1。1 研究背景与意义

随着互联网的普及，验证码已经深入我们的生活，不管是注册邮箱、社交网站账号，还是在网站上登录、发帖，乃至在网上购买火车票，我们都会遇到要求输入验证码的情况。验证码（CAPTCHA）是为了加强网络安全而生的，CAPTCHA的全称是“Completely Automated Public Turing test to tell Computers and Humans Apart”，即全自动开放式人机区分图灵测试[1]，它能产生一个测试，在理想的情况下，人类能回答这一测试而计算机程序不能，从而区分用户是人类还是计算机程序。CAPTCHA技术最早由卡内基梅隆大学研究并应用在Yahoo网站上，现在各大网站都广泛运用这一技术以加强网站和账号安全。论文网

验证码的种类多种多样，大体说来可分为基于文本、图像、声音和推理四种类型。基于文本的验证码是目前使用和研究最广泛的，它把一串数字、字母或者汉字随机组合，再把字符序列加以扭曲、变形、粘连、添加噪声等等，并把字符与背景融合以图像形式呈现，通过这些处理让计算机无法识别。基于图像的验证码则是通过图像呈现的内容让用户选择目标事物，它无需文本输入，但依赖于已有的图像数据库。基于声音的验证码是对视觉验证码的补充，比如把字符内容用声音播出。基于推理的验证码可与文本验证码结合，比如通过文本呈现一组算式，要求输入算式的结果。

随着验证码技术的不断普及，验证码破解技术也随之发展。研究验证码破解技术的意义在于寻找计算机识别能力的极限，并以此设计出计算机更难识别的验证码。因为现有的验证码技术并不完善，一旦验证码能被程序识别，网站和用户将会承受巨大的风险。因此，只有在验证码设计和破解的对抗研究中，才能不断提高验证码的安全性和可靠性。同时，研究验证码破解技术也能推动计算机视觉、模式识别等技术的发展。

如上文所说，基于文本的验证码是目前研究和应用的最广泛的，这里的文本通常指二维文本，以下简称2D文本。2D文本验证码图像中包含数字、字母或其他文字，它的破解算法一般包括验证码预处理、字符分割以及字符识别这三个研究内容。其中，验证码预处理包括去除噪声、字符修正等等，字符分割近年来也出现了竖直投影法、连通域分割法等大量算法，分割效率很高。而单个字符的识别已经可以取得很高的正确率，大部分方法的识别率在90%以上[2]。所以，对于传统的2D文本验证码，破解已经比较容易，为了增加破解难度，只能对字符一味添加噪声或进行更夸张的变形，但这也将不利于人类用户识别，因此这样的道路是不可取的。

针对传统2D文本验证码这样的局限性，研究人员开发出了安全性更高的基于三维文本的验证码，以下简称为3D文本验证码。3D文本验证码与2D文本验证码相比，对于人类用户识别的难度几乎没有什么不同，但对于计算机OCR（Optical Character Recognition，光学字符识别）软件，识别难度却大大增加，其主要原因是字符提取的难度大大增加了。目前针对3D文本验证码的研究远远不如普通的2D文本验证码，因此对破解3D文本验证码的研究是很有必要的。

1。2 国内外研究现状

1。3 毕业设计课题研究主要工作

随着3D验证码的渐渐普及，对其的破解研究也应跟上步伐。本课题针对网络上的一种三维文本验证码，采用先提取验证码字符，并作后期修正，再利用现有的ABBYY（泰比）公司的OCR软件FineReader进行整体识别的方法，并通过实验对此方法做出评估。本课题的主要研究工作包括以下几点： OCR三维验证码破解技术研究与实现(2):http://www.youerw.com/jisuanji/lunwen_97532.html