面向新闻同步的网站内容自动提取与分类研究(2)

高效率地自动检索、分析这些海量信息的重要性也就凸现出来。目前网络信息的检索服务主要还是由百度和Google等主流搜索引擎提供。搜索引擎抓取分析互联网上的网页是通过爬虫完成的。然而因为语义网的发展状况所限，现有的网页编写法则只是考虑了页面上的HTML元素的样式设计，却没有考虑对机器分析网页提供语义支持，比如计算机程序并不可以直接地理解新闻页面中哪一部分属于新闻标题，哪一部分属于新闻正文。不能解释页面的语义，会难以分别页面中的关键信息和垃圾信息，也就无法对页面中的信息进行有效的检索。因此在网络实际应用背景下的信息检索对内容自动提取技术存有巨大的需求。因为页面数量巨大没有办法通过人来进行一一编写，动态网页制作技术因此诞生并且成为主流的网页制作技术。动态页面技术预先通过模板确定网页结构，而后将查询到的关键信息填充到模版中的对应位置形成需要的页面。因此通过这一方法产生的页面具有相同的结构，但是页面的内容却是相差很大的。的网页内容自动提取技术就是利用了动态页面的这一特点。

当然，除了要对新闻网页内容进行自动提取外，还要对提取的内容进行自动分类，可以说网页内容的自动分类和网页内容的自动提取是密不可分的。网页分类是在文本分类的基础上发展起来的。网页是一种特殊的文本，其中包含了更多的结构信息，包括内容的标题、对外的链接信息、不同内容的字体和颜色、显示位置等，同时也包含有各种广告、版权等信息。文本自动分类的相关研究开始于上世纪50年代末，开创性的研究是H．P．Luhn在这一方面先进行了的。1960年，Maron在JACM上发表了关于自动分类的第1篇题为“On relevanceprobabilistic indexing and information retrieval”的论文，此后很多知名的情报学家，比如如K Sparch'、G Salton以及R．M．Needham等都在这一方面进行了很好的研究。到现在为止，自动分类在国外历经了三个主要的发展阶段：第一个阶段(1958年--1964年)主要是自动分类的可行性研究，第二个阶段(1965年--1974年)主要是自动分类实验研究，第三个阶段(1975年一至今)进入了实用化的阶段。文献综述

1.2研究意义

信息提取在自然语言处理领域中的研究历史悠久，已经出现了较多的成熟技术。而信息提取技术在网页中的应用研究起步不久，而网络的基础设施和网站、网页数量迅速增长，网页信息提取技术面临着持续快速增长的挑战。由于互联网普及大规模化和飞速发展，千千万万的新闻网站建立并且不断的发布新闻网页。但是计算机程序却不可以像人一样直接地区分页面内容是新闻标题还是正文，因此没有办法对网页中的信息进行高效检索。从而在网络实际应用背景下的信息的检索对网页内容自动提取技术存有巨大的需求。

网页分类传统是由人来实现的，即人在对网页的内容进行分析后，赋予它一个相对应的类别。如Yahoo[、AltaVista等搜索引擎为了便于用户对信息的进行查找及提高搜索效率，由专业人员手工对所有网页进行分类。显而易见，这种方法需要大量的人力，随着网页信息的飞速增长，以来人工的方式不再那么的现实。因此，网页自动分类技术也就慢慢成为一个比较好的研究方向，该技术通过用户特定的分类方法或者通过自己学习得到到的分类模型，可以对未知类别的网页进行自行的判断和，从而代替人工方式对海量信息进行分类。网页自动分类又称为在线文档分类，通过分析需要分类的网页的内容信息特点，并将其与已有网页的信息特点进行比较，将需要分类网页划分到特征最接近的一类中。

上一篇：Netlogo网络舆论会话情境关联与聚合研究

下一篇：移动互联网用户使用行为影响因素研究

面向新闻同步的网站内容自动提取与分类研究(2)

提高网站茬Google中的排名...

Android课程同步练习系统的设计

jsp+mysql面向大众的医疗咨询平台设计与实现

面向微信公众平台的智能客服机器人设计

Android智能手机的移动校园新闻平台的设计

eclipse面向网络信息内容共...

面向精准营销的移动互联...

麦秸秆还田和沼液灌溉对...

安康汉江网讯

互联网教育”变革路径研究进展【7972字】

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

LiMn1-xFexPO4正极材料合成及充放电性能研究

新課改下小學语文洧效阅...

张洁小说《无字》中的女性意识

ASP.net+sqlserver企业设备管理系统设计与开发