delphi+access的RegExpr互联网信息采集程序的开发(2)
时间:2018-08-15 11:43 来源:毕业论文 作者:毕业论文 点击:次
要实现互联网信息采集程序,首先需要了解如何从互联网抓取数据,输入URL,能够让程序从指定的网站开始抓取数据。 其次是数据的过滤,因为互联网信息大多是非结构化的,每个网站所采集到的信息也不尽相同,然后需要将采集到的无用信息过滤掉,只留下使用者所需要的数据。 然后是存储到本地的数据库中,数据库应该建立怎样的数据结构,能够灵活的应用于不同的网站。最后是数据的显示,编辑和修改,涉及到数据库相关语句的操作。 2 开题报告 2.1 课题的背景、现状及理解 本课题包含两大部分,一是如何在互联网采集信息并加以分析处理的思想方法,二是进行系统设计和实际编程,完成一个互联网信息采集程序。 主要由网络数据抓取,数据过滤,数据存储。 1.网络数据抓取,使用idHTTP网络编程。网络数据抓取,首先要实现的是网络数据的下载。本课题使用delphi的相关控件及函数实现网页源代码的下载。 2.数据的过滤,利用正则表达式技术进行网页数据的过滤提取。加载reg perl 库,录用库函数进行过滤 3.存储到本地的数据库,需要建立对应的SCHEMA,然后插入数据库元组。 2.2 课题的相关技术及课题难点 课题利用到了从互联网抓取数据的网络编程技术;存储到本地数据库并进行编辑和显示的数据库编程技术,如SQL语句等;实现多路采集的技术,如多线程技术;过滤无用信息的技术。 其中的课题难点在于,不同的网站数据结构并不相同,抓取到的也是非结构化的数据,并不能直接加入数据库,如何判定数据的相关程度,过滤掉无用数据,将所需的数据存储入数据库。而且网络数据采集下来往往是混带有很多网页标记的字符串,如何从这些字符串中找出所需要的数据,并且要满足一定的模式,因此不能简单的利用字符串匹配算法。 2.3 可以解决课题难点的当代技术 可以解决从字符串中提取出有用信息,过滤掉无用信息的技术有:正则表达式技术,字符串匹配技术 正则表达式是一种上下文无关的语法,能够表达字符串集和字符串集中字符的顺序(IEEE对正则表达式的定义),通过正则表达式,可以测试某个字符串是否符合一定的模式。我们可以实现在指定的字符集中搜索相匹配的字串。正则表达式的优点在于,可以按照一定的模式进行数据的匹配和数据相关度的判断,而不是简单的进行字符串查找,针对网络信息常常带有网页标记的特征。正则表达式适用于本次课题。可以使用PERL语言编写正则表达式规范。 字符串匹配技术是一种简单的从字符串中匹配对应字符串的技术,它的缺点有,灵活性差,遇到部分无关字符会终止匹配,这个不能适合于网络信息匹配字符串的模式,因此无法满足课题的需要。 2.4 对于课题的预测 软件预计使用borland delphi作为编程软件进行可视化编程,语言为pascal,需要加载REGEX库。 正则表达式技术目前已经相对成熟,在编译器,语法分析器中皆有利用,正则表达式在编译原理课程中已接触过;数据库技术和多线程技术在编程中是经常利用到的技术。课题需要经过系统设计,局部设计,编程实现等环节,其中局部设计中的数据过滤需要花费相对较多的时间。 3 整体设计 3.1 课题的目标 互联网信息采集系统,要求实现如下功能:⑴、任选一款数据库存储采集的信息。⑵、通过操作界面设置信息源URL或其他地址。⑶、可同时进行多路信息采集。⑷、可编辑和修改数据库中已采集的信息。 (责任编辑:qin) |