delphi+access的RegExpr互联网信息采集程序的开发(3)

时间:2018-08-15 11:43 来源:毕业论文作者:毕业论文点击:次

3.2 课题的整体设计
因此将整体设计分为若干个部分。
第一部分解决网页的解析，下载到本地。如网页中有很多的图片，流媒体，将有用的下载下来并保存在数据库。如果网页中存在超链接，需要采集的数据在网页的超链接中，则需要把超链接对应的网站也下载下来进行分析。
难点在于如何从网页源代码中分析出超链接并再次下载对应网页。
第二部分解决下载到本地的网页的内容的提取及存入数据库，根据HTML源文件的解析技术，将网页源文件中，用户所需要的信息提取出来。因为网页的数据结构不一样，所以要求本地的数据库要是可以由用户自行定义的，如图书信息需要存储书名，作者，出版社等等，天气信息需要存储地点，天气，温度等等，用户可以自行的定义数据库中的各个属性和它们的缺省值。并且选择哪些数据存入数据库，可以由用户人工干预，可以通过扫描网页源代码并设置过滤器，设置某个关键词，当它出现在title或者超链接的名字中时，将所需要的内容下载下来，或着将下载下来的网页文件显示为一个界面，用户可以手工搜索并选取所需要的数据，然后根据用户选择的内容进行入库。
       难点在于信息的过滤，下载下来的数据还有可能因为网页编码的区别而有不同。
       第三部分是数据库操作，包括数据录入，重复判断，数据库显示，删除。
3.3 课题预计使用的语言及平台
     课题预计使用delphi进行编程，配合使用正则表达式及数据库操作语句。 (责任编辑：qin)

delphi+access的RegExpr互联网信息采集程序的开发(3)

时间:2018-08-15 11:43 来源:毕业论文 作者:毕业论文 点击:次

时间:2018-08-15 11:43 来源:毕业论文作者:毕业论文点击:次