3.2 课题的整体设计
因此将整体设计分为若干个部分。
第一部分解决网页的解析,下载到本地。如网页中有很多的图片,流媒体,将有用的下载下来并保存在数据库。如果网页中存在超链接,需要采集的数据在网页的超链接中,则需要把超链接对应的网站也下载下来进行分析。
难点在于如何从网页源代码中分析出超链接并再次下载对应网页。
第二部分解决下载到本地的网页的内容的提取及存入数据库,根据HTML源文件的解析技术,将网页源文件中,用户所需要的信息提取出来。因为网页的数据结构不一样,所以要求本地的数据库要是可以由用户自行定义的,如图书信息需要存储书名,作者,出版社等等,天气信息需要存储地点,天气,温度等等,用户可以自行的定义数据库中的各个属性和它们的缺省值。并且选择哪些数据存入数据库,可以由用户人工干预,可以通过扫描网页源代码并设置过滤器,设置某个关键词,当它出现在title或者超链接的名字中时,将所需要的内容下载下来,或着将下载下来的网页文件显示为一个界面,用户可以手工搜索并选取所需要的数据,然后根据用户选择的内容进行入库。
       难点在于信息的过滤,下载下来的数据还有可能因为网页编码的区别而有不同。
       第三部分是数据库操作,包括数据录入,重复判断,数据库显示,删除。
3.3 课题预计使用的语言及平台
     课题预计使用delphi进行编程,配合使用正则表达式及数据库操作语句。
上一篇:汽车虚拟中控平台的仿真与软件实现
下一篇:WSN基于网络编码的无线传感器网络Qos传输机制研究

Android的音乐播放器的研究与应用

基于Android的五子棋设计与实现

jsp+mysql考试管理系统的设计与实现+ER图

php+mysql微擎系统的活动报名管理系统设计

基于云储存的文件管理系统设计+源代码

RFID射频识别技术的餐饮自...

安卓的生活助手设计与实现+源代码

室外办公系统创新设计研究

硅酸钇镥闪烁晶体的光学性能研究

建议全面开放生育政策,...

常用游戏对于小学生英语教学的影响

中班幼儿“求助”型告状行为的访谈提纲

天秤男婚后出轨能改好吗...

哈萨克民歌中生态美學思想的表现【4092字】

地方政府跨区域联合环境污染治理研究

人性化的用户界面设计研究

无刷电机调速系统设计任务书