OCR三维验证码破解技术研究与实现(2)
时间:2022-08-06 22:05 来源:毕业论文 作者:毕业论文 点击:次
17
致 谢 19 参 考 文 献 20 1 绪论 1。1 研究背景与意义 随着互联网的普及,验证码已经深入我们的生活,不管是注册邮箱、社交网站账号,还是在网站上登录、发帖,乃至在网上购买火车票,我们都会遇到要求输入验证码的情况。验证码(CAPTCHA)是为了加强网络安全而生的,CAPTCHA的全称是“Completely Automated Public Turing test to tell Computers and Humans Apart”,即全自动开放式人机区分图灵测试[1],它能产生一个测试,在理想的情况下,人类能回答这一测试而计算机程序不能,从而区分用户是人类还是计算机程序。CAPTCHA技术最早由卡内基梅隆大学研究并应用在Yahoo网站上,现在各大网站都广泛运用这一技术以加强网站和账号安全。论文网 验证码的种类多种多样,大体说来可分为基于文本、图像、声音和推理四种类型。基于文本的验证码是目前使用和研究最广泛的,它把一串数字、字母或者汉字随机组合,再把字符序列加以扭曲、变形、粘连、添加噪声等等,并把字符与背景融合以图像形式呈现,通过这些处理让计算机无法识别。基于图像的验证码则是通过图像呈现的内容让用户选择目标事物,它无需文本输入,但依赖于已有的图像数据库。基于声音的验证码是对视觉验证码的补充,比如把字符内容用声音播出。基于推理的验证码可与文本验证码结合,比如通过文本呈现一组算式,要求输入算式的结果。 随着验证码技术的不断普及,验证码破解技术也随之发展。研究验证码破解技术的意义在于寻找计算机识别能力的极限,并以此设计出计算机更难识别的验证码。因为现有的验证码技术并不完善,一旦验证码能被程序识别,网站和用户将会承受巨大的风险。因此,只有在验证码设计和破解的对抗研究中,才能不断提高验证码的安全性和可靠性。同时,研究验证码破解技术也能推动计算机视觉、模式识别等技术的发展。 如上文所说,基于文本的验证码是目前研究和应用的最广泛的,这里的文本通常指二维文本,以下简称2D文本。2D文本验证码图像中包含数字、字母或其他文字,它的破解算法一般包括验证码预处理、字符分割以及字符识别这三个研究内容。其中,验证码预处理包括去除噪声、字符修正等等,字符分割近年来也出现了竖直投影法、连通域分割法等大量算法,分割效率很高。而单个字符的识别已经可以取得很高的正确率,大部分方法的识别率在90%以上[2]。所以,对于传统的2D文本验证码,破解已经比较容易,为了增加破解难度,只能对字符一味添加噪声或进行更夸张的变形,但这也将不利于人类用户识别,因此这样的道路是不可取的。 针对传统2D文本验证码这样的局限性,研究人员开发出了安全性更高的基于三维文本的验证码,以下简称为3D文本验证码。3D文本验证码与2D文本验证码相比,对于人类用户识别的难度几乎没有什么不同,但对于计算机OCR(Optical Character Recognition,光学字符识别)软件,识别难度却大大增加,其主要原因是字符提取的难度大大增加了。目前针对3D文本验证码的研究远远不如普通的2D文本验证码,因此对破解3D文本验证码的研究是很有必要的。 1。2 国内外研究现状 1。3 毕业设计课题研究主要工作 随着3D验证码的渐渐普及,对其的破解研究也应跟上步伐。本课题针对网络上的一种三维文本验证码,采用先提取验证码字符,并作后期修正,再利用现有的ABBYY(泰比)公司的OCR软件FineReader进行整体识别的方法,并通过实验对此方法做出评估。本课题的主要研究工作包括以下几点: (责任编辑:qin) |