2005年以来,国内中文互联网络中出现了以百度知道、搜搜问问、新浪爱问、天涯问答等为代表的社区问答系统。这些问答系统以互动交流的形式,为用户提供知识共享和交互服务,使得社区网络中的数字网络得到了发展,大大提升了互联网的使用效率,同时也在很大程度上改变了互联网的固有模式。就百度知道[2]来说,目前百度知道的注册用户已经过亿,每天3。8亿人次通过百度知道获取信息,在过去的10年中,百度知道已累计解决了超过4。08亿个问题,这个数字记录还在每天不断上升。84098
但是在近几年,它们都显露出了各自的问题,主要问题是这些第一代问答社区一般只依靠群体智慧,从而无法保证回答信息的权威性和可靠性,由此带来了很多比如信息失真、信息虚假、信息过时老化和信息冗余等众多质量问题[3]。这些问题导致大量低质量回答泛滥而真正认真回答的高质量问题被埋没,更严重的是有些不法人士利用问答系统进行诈骗等犯罪活动,不仅对受害人造成身心伤害也对社区问答网站的形象造成了极大的破坏。
面对日益严重的信息质量问题,国内的社区问答系统也进行了相应的调整,推出了一系列的质量控制措施。专家参与制就是其中的典型代表,网站依靠机器挖掘技术挖掘平台内高质量的内容,并辅助以管理员的人工支持,找到一大批高质量的内容与用户。对于这批高质量的问答核心用户群体,网站再进行再分层的细分管理手段,采用针对性激励手段鼓励优秀的问答个人和问答团体,从而产生大量高质量的回答内容。论文网
知乎就是其中的代表,依靠高质量的问答信息,知乎在短短几年内就达到了千万级的注册用户。首先,知友来自不同层次、专业、年龄、民族和地区,这样就保障了知友信息来源的多维性[4],避开了传统问答系统的雷区。其次,在知乎发展初期就形成了良好的学术氛围,更多的知友愿意摆事实讲道理并客观地论证信息内容,这就促进了知乎的良性发展。但是目前国内的高质量问答领域还存在很多问题,仍然在发展阶段,还需要不断的发展。
除了这类的综合性的问答网站,针对某一特定领域的垂直问答网站也不断涌现。垂直问答网站采用垂直搜索引擎,特别针对某一具体行业或专业的细分类别。这类垂直问答网站的出现为专业信息的快速、准确交流提供了一个有效平台,受到了专业人士的青睐,也是问答网站发展的新方向。
传统的问答搜索引擎存在很多不足,一方面传统问答引擎中用户的检索需求主要通过关键字检索完成,但是用户的需求往往是复杂,用户无法通过关键字的简单组合来表达自己所想要搜索的内容,问题的描述不清自然会导致搜索结果不佳。另一方面,互联网中已经累积了大量的问答对,用户期待网站可以利用社区网络中归档的问答对自动回答问题而不是浪费时间等待答案。为了解决这个问题,国外一些有实力的科研机构开始探索新的自动问答技术[5],其中比较的著名、有代表性并且具有自动问答功能的系统包括美国AskJeeves[6]公司的检索系统、AnswerBus、Webclopedia等。
这些网站利用浅层句法分析[7],从词法、句法、语义等语境信息入手,识别出问题的名词短语、动词短语,得出句法树。再对问题类型进行分析,通过预先设定的问题类型识别表,可以基本识别出问题的类型。接着对关键词进行提取和扩展。关键词扩展通过同义词扩展可以提高问题的查全率,有利于找出最适合的答案。系统根据得出的关键字进行信息检索,对于包含答案的备选结果们进行实体识别选出多个参考答案,再根据关键词频率等评价标准得到最匹配的答案。