话题检测与跟踪(Topic Detection and Tracking,简称TDT)是一项旨在依据事件对语言文本信息流进行组织、利用的研究,也是为应对信息过载问题而提出的一项应用研究。

1996年,TDT技术的想法被首次提出,当时美国国防高级研究计划署想要研究一项技术能在没有人工干预的情况下自动识别出新闻数据流的话题。1997年,研究者开始对这项技术进行初步研究,并做了一些基础工作(包括建立了一个针对TDT研究的预研语料库)。当时的研究内容包括寻找内在主题一致的片断,即给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,判断新事件的出现以及旧事件的再现[1]。从1998年开始,在DARPA支持下,美国国家标准技术研究所(NIST)每年都要举办话题检测与跟踪国际会议,并进行相应 66772

的系统评测。国内这方面的研究开展得要晚一些,最近北京大学和中科院计算所的研究人员也开始进行这方面的跟踪和研究。

目前,TDT系列测试语料有很多,包括TDT2、TDT3,由于这些语料库中收录了大量的报道,免去了数据稀疏导致的结果不准确。从语料库未来的发展来看,主要向两方面拓展,即信息多源性和多语言的特性[2]。

由此可见,话题检测与追踪的研究是通过大规模的评测来进行的,自从1996年以来,该领域进行了多次大规模的评测,由于该项技术与自然语言处理技术具有多种共性,所以在研究过程中相应领域的信息识别抽取技术也就相应的随之发展。由于新闻语料具有突发性和延续性的特性,通过该技术可以实现新闻事件的实时监控,于是话题检测与追踪逐渐成为新闻文本信息处理领域的研究热点

上一篇:产品方案设计国内外研究现状
下一篇:意见领袖国内外研究现状综述

新闻误读国内外研究现状

全媒体手机新闻研究现状和参考文献

手机客户端新闻推送机制研究现状

太阳追踪系统国内外研究现状

清管追踪定位技术研究现状与发展趋势

运动目标追踪技术国内外研究现状

网络新闻推荐研究现状

安康汉江网讯

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发

我国风险投资的发展现状问题及对策分析