主题采集系统国内外研究现状和发展趋势
时间:2017-05-26 11:27 来源:毕业论文 作者:毕业论文 点击:次
国内现状,现在国内的系统:中国科学院软件技术研究所在国内外已有主题采集系统的基础上,开发了“天达”主题web信息采集系统。为实现对基于主题的信息自动采集,将整个处理过程分成七大模块:主题选择、初始URL选择、Spider采集、页面分析、URL与主题的相关判定(链接过滤/链接预测)、页面与主题的相关性判定(页面过滤)、数据存储。9275 国外现状,国外的系统有:c&c Research Laboratories开发的WTMS(基于主题的网络信息采集分析系统)。WTMS提供了几种不同层次的可视化的信息提取,用户能够在搜索的同时进行浏览,除了传统的基于关键字的搜索,结构化分析技巧使得用户能够对于收集结果获得几种有用的知识。它整合了查询和浏览,超越了基于关键词的查询,用户能够成批的收集相关信息,过滤不重要的信息。用户很容易的共享收集到的信息。 网页采集技术发展现状 网络正在不断地改变着我们的生活,Internet己经成为当今世界上最大的信息资源库,如何快速、准确地从浩瀚的信息资源库中寻找到所需的信息已经成为网络用户的一大难题。无论是一些通用搜索引擎(如谷歌、百度等),或是一些特定主题的专用网页采集系统,都离不开网页采集,因而基于Web的网页信息采集和处理日益成为人们关注的焦点。传统的Web信息采集所采集的页面数量过于庞大,采集的内容也过于杂乱,需要消耗很大的系统资源和网络资源。同时internet信息的分散状态和动态变化也是困扰信息采集的主要问题。 1.1.3 发展趋势 采集系统开发目的就是提供一个有力的工具,帮助普通用户(熟悉基本的HMTL)而非编程人员从异构数据源收集信息并转换为他所需要的信息,功能包括网页采集、分析下载、直接入库、自动分类整理、内容定期更新监测等,整个采集过程基于参数和配置管理控制,提供图形化界面编辑或向导式操作。 系统将为最终用户提供一步到位的信息再整理过程,将浩瀚信息从无序化到有序化,可广泛用于情报收集、信息监控、行情跟踪、专业信息资源站、搜索引擎上二次开发、内部知识系统或天气预报、股市、汇率、商情、动态新闻等的实时采集更新等。设计时充分考虑最大程度的通用性、易用性。 (责任编辑:qin) |