国内现有的系统有中科院软件技术研究所开发的“天达”主题web信息采集系统。为了实现基于主题信息的自动采集,将整个处理过程分成了七个大模块:主题选择、初始URL选择、Spider采集、页面分析、URL与主题相关性判定(链接过滤和链接预测)、页面与主题的相关性判定(页面过滤)、数据存储。65852

为了有效的提高主题web信息采集的可靠性(查全率和查准串的综合)和效率,系统需要在采集的过程中增加过滤机制,以便采集的页面能够向主题靠拢。系统采用了综合扩展元数据方法和链接分析方法的IPagerank方法,这种方法是进行URL和主题的相关性判定,可以大量减少采集页面的数目,并有效地提高主题信息搜索的效率和速度。

国外的系统有C&C Rsearch Laboratories 开发的WTMS(基于主题的网络信息采集分析系统)。论文网

WTMS提供了几种不同层次的可视化信息提取方法,用户能够在搜索的同时进行浏览,除了传统方式上基于关键字的搜索,结构化分析技巧使得用户能够对于收集结果获得几种不同的有用的知识。它整合了查询与浏览,超越了基于关键词的查询,用户能够成批的收集相关信息,过滤不重要的信息。用户能够很容易地共享收集到的信息。

优点:引入最佳中心页面和权威页面作为过滤信息的技巧,它通过减少超过20%的下载页面来改进性能,同时只丢失了很少的无关紧要的页面。

缺点:结构化分析不容易使用传统的搜索引擎或以前的主题管理系统,而且系统还不支持中文处理。

参 考 文 献

 

[1]  邹涛,张福炎.网络信息搜寻技术与发展[J].计算机工程与科学 1998     

[2]  陈松桥.计算机应用[M].长沙:湖南科学技术出版社 2002

[3]  李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统[M].北京:科学出版社 2005

[4]  郭红,郭朝珍,苏群.多网站信息采集与异构信息集成应用[J].福州大学学报(自然科学版)2001

[5]  龙银香.基于HTML标记的信息隐藏方法[J].微计算机信息 2006

[6]  孙鑫,余安萍. VC++深入详解[M]. 北京:人民邮电出版社 2006.

[7]  王国辉,李钟尉. Java程序设计自学手册[M]. 北京:人民邮电出版社 2008.

[8] (美)Douglas C.Schmidt,Stephen D.Huston著,於春景译. C++网络编程卷1[M]. 武汉:华中科技大学出版社 2003.

[9] (英)哈诺德著,朱涛江,林剑译. Java网络编程(第3版)[M]. 北京:中国电力出版社 2005.

[10] 南京航空航天大学图书馆组. 网络信息采集与应用[M]. 北京:清华大学出版社 2005.

[11] 李盛韬,余智华等.Web信息采集研究进展[J].计算机科学 2003

[12] (美)HarjinderS Gll著 王仲谋 刘书舟译.数据仓库-客户/服务器计算指南[M].北京:清华大学出版社 1997

[13] Elliotte Rusty Harold,杜大鹏,李善茂,傅烨. XML实用大全 2000

[14] Ann Navarro,Chuck White,周生炳,宋浩,Linda Burman.XML从入门到精通 2000

[15] 王超,张鹏. ASP NET/XML深入编程技术 2002

 


上一篇:物联网的国内外研究现状
下一篇:局域网实时监控的研究现状和发展趋势

农作物面积信息的提取国内外研究现状

基于虚拟仪器Labview的数据采集研究现状

温度采集的研究现状

数据采集的意义和研究现状

风速观测器研究现状综述

数据采集系统国内外研究现状综述

学生信息管理系统国内外研究现状及参考文献

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

麦秸秆还田和沼液灌溉对...

互联网教育”变革路径研究进展【7972字】

ASP.net+sqlserver企业设备管理系统设计与开发

LiMn1-xFexPO4正极材料合成及充放电性能研究

网络语言“XX体”研究

安康汉江网讯

新課改下小學语文洧效阅...

老年2型糖尿病患者运动疗...