深度学习的图像语义提取研究(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

深度学习的图像语义提取研究(2)

22

四、总结与展望 24

(一) 总结 24

(二) 应用 24

(三) 展望 25

致谢 27

参考文献 28

一、绪论

(一) 背景

世界上第一张摄影图像诞生于约200年前[1],从此拉开了图像在记录人类历史方面的序幕。最近10年,互联网经历了井喷式的资源增长。随之产生的问题是用户无法准确获取自己想要的图片,因此如何寻找一种方式让用户快速获取自己想要的图片,目前已经成了一个巨大的难题。论文网

将图像进行归类是一个处理这个巨大难题的方案。然而图像资源在互联网上的井喷给图像归类带来了麻烦,图像检索系统无法按照有效的图像归类进行图像检索,造成检索的图像无法准确满足用户的需求。

图像归类的一个难点是如何提取优质的图像语义特征[2]。刚开始由于图像数量较少,利用人工就可以完成图像的分类工作。人工分类的优势在于完全基于人类的自然语言来提取语义特征,不存在语义鸿沟问题,精准度相对较高,劣势在于要消耗大量的人力,效率低下,不适合大规模使用,而且提取的语义受到个人主观因素(经历、情感)的影响,每个人对于图片的理解可能不同,因此得出的语义各有一定的差异。

目前机器可以完成简单的图像归类。机器自动分类的方法是由机器自动从图像的底层视觉特征(如颜色、纹理、形状等)和关连性的文字(比如用户对于图像的评论等)中提取语义特征,对于图像进行分类。社交网络上的图像资源发布通常都会配有文字;文章中的图片周围也包含相关性的文字,因此这种方式相比于人工分类的方式更为高效。其优势在于这个过程不需要人工参与,可以大规模使用,劣势在于受到语义鸿沟的障碍,精确度不高,造成用户无法精确获取想要的图片。

传统机器图像归类是基于视觉反馈的对象特性(颜色、形状等登),这与人类理解图像时所产生的复杂信息具有一定的差距,从而造成了语义鸿沟[3],使用者无法更快找到自己想要的图片。例如,传统的图像归类只能标注“肉”这一简单的语义,但其实用户在查找图片时希望查到的是“正在烤盘上烤的肉”这一高级语义。语义鸿沟成了图像归类的一大难题。寻找一种有效的方式来解决语义鸿沟问题,将会有效提升图片的分类和搜索精确度。

人工智能的高速成长为解决语义鸿沟带来了有效的策略。通过运用深度学习相关的模型,训练机器学习图像中包含的接近人类自然语言的高层语义特征,然后根据语义特征进行分类。这种方式很好地解决了语义鸿沟问题,极大地提升了图像归类的效果。

总体来说,深度学习相关的神经网络,例如卷积神经网络等等,已经被广泛地运用到了图像处理当中,但是对于深度学习在图像处理上的科研并没有放缓,研究人员正在加紧探索图像处理的更多领域。

(二) 国内外研究现状

(三)研究目的与意义

计算机技术的发展已经大大提升了人们的生活,但是好奇心总是驱使着人们去探索更多的可能,当人们在生活中可以随心所欲操控自己的手机和电脑的时候,人们开始渴求科幻片里的人工智能,即机器能够像人一样思考,处理事件,就像游戏《光环》里的人工智能科塔娜一样。

硬件,软件和用户习惯方面的成熟发展,也预示着现在发展人工智能领域技术是水到渠成的。苹果的Siri,微软的Cortana,谷歌的无人驾驶汽车和Alpha Go,越来越多与人工智能相关的名词出现在新闻当中。之所以这些名词相关的产品会受到关注,一方面是好奇,一方面也确实是人们在这些方面有了需求,人们总是在追寻更好的产品。 (责任编辑:qin)