基于门户网站的新闻热点发现与舆情分析技术(3)

(3) 提出和实现新闻热点发现和聚类算法；
(4) 搭建基于Django的多门户的新闻采集、热点发现的展示系统。
本论文接下来各章节将按使用的不同技术进行分类：第二章主要介绍与课题相关的网页分析技术；第三章将讨论本文研究的一些基本概念和系统的整体框架；第四章从新文本体、新闻评论介绍新闻信息的获取；第五章讨论热点发现与舆情分析的核心算法与可视化展示；最后会在第优尔章对全文工作进行总结。

2 网页信息处理相关技术简介
总所周知，互联网上的网页信息是复杂无序且数量巨大的，从中提取出有用的信息需要一系列技术支持。对于本课题而言，我们把注意力集中到以下优尔个方面：从门户网站获取新闻网页；处理获取的网页中的文本信息；对文本信息进行分词与关键字提取；对文本进行分类与聚类；对评论信息的情感分析处理；对所得数据进行可视化处理。
2.1 网页信息获取
网页信息获取技术指的是，通过一定的人工归纳技巧以及程序自动化，实现从公共网络平台中获取自己所需的页面。由于页面信息各有不同，常用的方法可大致分为两类，一是通用网页获取技术，二为可定制网页获取技术。通用网页获取技术指，通过对不同网站不同网页的网页信息共同点进行高度抽象，通过去噪等技术将所需文本信息与网页分离；可定制网页获取技术指，通过分析不同网站的网页模板、URL形成规则、网站层次结构，对特定的网站内的信息进行过滤，从而提取出我们所需要的信息。二者从本质上是相同的，在不同的应用场景各有优劣。通常我们将计算机从互联网上批量获取网页并获取信息的过程称为网页爬取。
网页爬取是不能凭空开始的，需要一定数量的种子URL作为起始节点，种子的选取从一定程度上决定爬取的效果。种子URL一般是技术人员通过一定观察并结合经验来选取的，通常是链接数量多、包含可用信息多、更新频率适中的特殊网页，如门户网站首页或目录页。在爬取过程初始，我们将种子URL压入爬取系统的待访问队列中来驱动系统运行。每一次，从待访问队列中弹出一个URL，对相应页面进行访问与处理，再将该URL标记为已访问以防止循环爬取网页。对爬取的页面，在提取页面本身有效信息的同时，通过一系列的解析技术，我们能够获得页面中所有的URL信息，这些URL很有可能指向更多的有效信息，需要将它们加入到待访问URL队列中。在正常情况下，如果不加以限制，网页爬取程序会不断重复“爬取网页获取URL”过程直到所有可以获取的URL都被爬取即待访问队列为空才会终止。而这实际情况下会导致难以接受的程序运行时间和大量无关URL的访问与解析，所以我们需要根据实际的需求与软硬件指标，对爬取过程的网页栈深度与程序运行时间加以限制。当然，这只是理想情况下的分析，实际的爬取工作因网络条件和爬取对象网站的各种限制需要做出定制的修改。例如对象网页对频繁的访问有所限制，爬虫系统就需要通过IP池、浏览器模拟等技术进行适应；又如在面对大量网站时效率不高，爬虫系统需要在多线程、流水线、爬取顺序等方面做不同考量。由于本文并非网页爬虫的专题研究，在此对相关技术不做详述。
以上所述的过程大部分属于通用网页获取，而在可定制网页获取中，我们通过人工分析与观察出了所需网页的特征，例如本课题中我们的注意力主要集中在新闻与评论信息中，可以通过技术手段在访问网页之前判断待访问页面是否包含所需要的信息，而这一过程主要是通过对网页URL的结构进行人工分析与机器匹配实现的，该功能的具体实现我们在后文新闻信息的获取中会具体讨论。基于门户网站的新闻热点发现与舆情分析技术(3):http://www.youerw.com/yanjiu/lunwen_21067.html