图 1微软小冰-无法处理图片
但是现有的问答系统基本都是针对文本内容的问答系统,针对图像的却少之又少。我们接收信息的来源除了文字,大部分是来源于图像或者视频的,所以实现图像问答系统是势在必行的。如图 1,微软的小冰机器人无法理解我发的这幅图像。但是,如果一个聊天机器人不能处理图像的话感觉图像问答系统对于图像检索,对话系统都具有十分重要的意义。它可以丰富对话系统的内容,也可以使得图像检索的结果更加地准确。
1.2问答系统研究综述
问答系统的雏形在1960年左右就生成了,但是国外的学者希望计算机能处理自然语言的问题。1980年,问答系统受到广泛地关注。根据图灵测试,人们认为如果计算机能够利用人类的自然语言来和人类交流,那么就可以认为是智能的。从此,大量学者们投身到自然语言问答系统和聊天机器人的研究中来。
因为之前的计算能力和知识库都比较小,实验规模很受限制,所以问答系统一直都是某一特殊领域的专家系统。不过随着计算能力和信息的增加,信息检索开始飞速发展,但是问答系统的研究却进展甚少。2005年来,移动互联网飞速发展,用户手机可以接受结果的面积有限,问答系统再次被人们推到前台来。
现在包括苹果、谷歌、百度、阿里巴巴、MIT等公司和高校都在积极地投身于研究自然语言处理问答系统中来。在每年额文本信息检索会议(TREC)上,自动问答系统都是热点之一。
1.2.1聊天机器人软件
根据用户输入的聊天内容得到类似人类的回复的系统就是聊天机器人。现在有很多的公司和研究机构都在研究聊天机器人。例如亚马逊的Alex,微软的小冰、Cortana,韩国开发者开发的小黄鸡,国内还有京东的客服机器人JIMI等等。聊天机器人主要分为两种,一种就是供娱乐用的聊天机器人,例如微软的小冰。这种机器人里面还有一类特殊的聊天机器人,这类机器人除了可以陪用户娱乐闲聊之外,还可以帮助人们生活、工作,这种机器人我们称之为个人助手,例如苹果的Siri,亚马逊的Alex。另外一种聊天机器人就主要应用在商业领域,例如京东的客服助手JIMI。
娱乐型的聊天机器人大都提供了闲聊这种功能,如图 2像微软的小冰这类机器人还有一些还提供了天气预报,开放领域问答,脑筋急转弯等功能。但是这些聊天机器人大都不能处理关于图像的问题。
图 2微软小冰聊天界面
1.2.2问答系统国内外研究现状
1.2.3图像问答综述
图像问答技术就是将自然语言处理和图像理解技术相结合而产生的一个新兴的领域。图像问答跟传统的文本问答系统主要的区别就在与文本问答系统的答案来源于数据库、文档等一些文本资源,而图像问答系统的答案主要来源是图像,使用者的问题也是主要针对图像的内容来提出的。图像问答问题主要有基于推理的方法和端到端的方法[19]。所谓推理的方法,就是利用一些预定义的规则,例如“苹果在桌子上”这种规则产生我们想要的答案。端到端的方法大都采用深度学习,将图像和问题作为输入直接得到输出。
图像问答主要有两个关键问题,第一个是如何理解图像,图像作为答案的来源,那么图像理解的好坏将直接影响到我们的答案的准确度;另外一个就是如何理解问题,作为生成答案的一部分,问题决定了我们应该去寻找什么样的信息,那么问题理解程度的深浅将决定了我们得到答案的好坏。
a.基于推理的图像问答
Malinowski[2]等人提出的使用基于不确定输入的多世界(multi-world)方法实现对于真实世界的场景问答是基于推理的方法中较有代表性的一种。在使用带有深度信息的数据集NVU-Depth V2cktaset的情况下,该方法可以对场景使用语义分割算法[3]来构建世界并且收集关于物体的识别信息,例如物体颜色、类别和3D位置;然后利用语义分割产生一个对于该场景的多种world解释;最后通过概率模型来得到答案. Python图像问答算法的聊天机器人软件的设计+源代码(3):http://www.youerw.com/jisuanji/lunwen_24799.html