2.3.2 决策树算法 8

2.3.3 Rocchio算法 8

3 网络新闻命名实体的研究 9

3.1 新闻实体要素的类型 9

3.2 新闻命名实体的重要性 10

3.3 命名实体的识别 10

3.3.1 基于规则的时间识别 11

3.3.2 人名识别 11

3.3.3 地名识别 12

3.3.4 机构名识别 13

4 基于命名实体的话题追踪 13

4.1 基于命名实体的话题追踪流程 13

4.2 基于命名实体的话题追踪实现基础 15

4.2.1 卡方统计量 15

4.2.2 向量空间模型 16

4.3 基于命名实体的话题追踪方法的分析与改进 17

4.3.1 基于命名实体的话题追踪的优势 17

4.3.2 话题追踪方法改进的设想 17

4.4 本章小结 19

结  论 21

致  谢 22

参 考 文 献 23

1 引言

1.1 研究背景和意义

随着互联网的出现,信息的传播速度、信息的采集和规模都达到了一个空前的状态,我们正处在一个信息爆炸的时代,汹涌而来的信息有时候让人无所适从。

新闻信息是人们较为关注的一类信息,也是网络上比较常见的一类信息,在网页中占有很大的比例。由于新闻报道对时间比较敏感,增长速度比较快,时效性也比较强,随着时间的推移网络上会涌现出现大量新的讯息,旧的信息会湮没在新的信息中。因此,针对某一新闻事件,从海量的新闻信息中获取相关报道并形成新闻事件流成为了关注的焦点,于是网络新闻话题追踪技术就产生了。

网络新闻话题追踪技术是追踪话题动态发展的一项信息智能获取技术。众所周知,与一个话题相关的信息常常是分散在不同的时间节点和信息源的,而话题追踪技术能够有效地将这些信息聚集组织起来,形成一个整体。就具体应用情况而言,比如,对于金融工作者,他需要在第一时间了解任何可能会引起股市波动的事件;对于国家安全情报工作者,他们必须时刻关注着任何与国家安全话题相关的事件,利用话题追踪技术可以随时获取某一话题相关的所有新闻信息,发现事件整体的动态和趋势。

1.2 新闻话题追踪的发展现状

1.3 基本概念

1.3.1 命名实体

命名实体是文本中基本的信息元素,也是正确理解文本的基础。狭义的讲,命名实体是指现实世界中那些具体或者是抽象的实体,如人、地点、公司、组织等,通常也是有唯一的标识符,比如人名、地名、公司名等。而广义的讲,命名实体还包括时间、数量表达式等等。

1.3.2 话题

所谓话题就是一个核心的事件或者活动,也可以是与这个核心事件或者活动直接相关的事件或者活动。而这个事件或者活动通常是由于一些原因导致在特定的时间和地点发生,会涉及到一些人物,会导致一定的结果。因此,简而言之话题就是若干个对于相关事件的报道的集合。比如“波士顿爆炸案”就是一个话题,这个话题涉及了爆炸案嫌疑人、爆炸案中中国留学生一死一伤、爆炸事件救援行动、美国国会降半旗悼念死者等等一系列相关事件和活动。来~自^优尔论+文.网www.youerw.com/

上一篇:转移成本在用户满意和用户忠诚关系间的中介效应
下一篇:新浪微博意见领袖的识别研究

基于使用与满足理论的弹...

弹幕文化基于受众人群的发展现状研究

基于社会化媒体的电影营销

基于传播要素的微博网络传播研究

基于微博的舆情生态研究

基于网络的中学生思想政治自主学习策略研究

基于公开视野下政府应对...

张洁小说《无字》中的女性意识

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

ASP.net+sqlserver企业设备管理系统设计与开发

互联网教育”变革路径研究进展【7972字】

麦秸秆还田和沼液灌溉对...

网络语言“XX体”研究

我国风险投资的发展现状问题及对策分析