delphi+access的RegExpr互联网信息采集程序的开发(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

delphi+access的RegExpr互联网信息采集程序的开发(3)


3.2 课题的整体设计
因此将整体设计分为若干个部分。
第一部分解决网页的解析,下载到本地。如网页中有很多的图片,流媒体,将有用的下载下来并保存在数据库。如果网页中存在超链接,需要采集的数据在网页的超链接中,则需要把超链接对应的网站也下载下来进行分析。
难点在于如何从网页源代码中分析出超链接并再次下载对应网页。
第二部分解决下载到本地的网页的内容的提取及存入数据库,根据HTML源文件的解析技术,将网页源文件中,用户所需要的信息提取出来。因为网页的数据结构不一样,所以要求本地的数据库要是可以由用户自行定义的,如图书信息需要存储书名,作者,出版社等等,天气信息需要存储地点,天气,温度等等,用户可以自行的定义数据库中的各个属性和它们的缺省值。并且选择哪些数据存入数据库,可以由用户人工干预,可以通过扫描网页源代码并设置过滤器,设置某个关键词,当它出现在title或者超链接的名字中时,将所需要的内容下载下来,或着将下载下来的网页文件显示为一个界面,用户可以手工搜索并选取所需要的数据,然后根据用户选择的内容进行入库。
       难点在于信息的过滤,下载下来的数据还有可能因为网页编码的区别而有不同。
       第三部分是数据库操作,包括数据录入,重复判断,数据库显示,删除。
3.3 课题预计使用的语言及平台
     课题预计使用delphi进行编程,配合使用正则表达式及数据库操作语句。 (责任编辑:qin)