数据挖掘的主题标绘数据获取技术与实现(3)
时间:2023-05-07 20:04 来源:毕业论文 作者:毕业论文 点击:次
第四章:对全文内容进行总结,指出不足和待改进的地方,并提出后期展望。 2 主题标绘数据获取技术 目前,标绘数据获取的主要手段是基于网络爬虫技术。网络爬虫又称为网络机器人或网络蜘蛛,它是通过给定一个起始网页,通过解析网页中包含的链接地址来寻找其他的网页,如果不进行限制,则在理想状况下会将互联网中所有可见的网页都抓取下来。网络爬虫按照系统结构,可以分为以下三种类型:1)通用网络爬虫、2)深层网络爬虫、3)主题网络爬虫。 其中,通用网络爬虫的爬取对象是网络中所有领域、各种格式的信息。它的特点是爬取的数据量大,覆盖面广,但也因此无法获取用户所需要的特定领域的信息数据。但通用网络爬虫在运行过程中无法发现隐藏在普通网页中的信息和规律,缺乏一定的主动性和智能性[14]。例如需要登陆输入用户名和密码验证的页面,或者含有页码导航的页面则无法爬行。 而深层爬虫与常规爬虫的不同是,深度爬虫在下载完成页面之后并没有立即遍历其中的所有超链接,而是使用一定的算法将其进行分类,通过分析网页的结构并将其归类为普通网页或存在更多信息的深度网页,针对深度网页构造合适的表单参数并且提交,以得到更多的页面。文献综述 主题网络爬虫也称为专业爬虫、垂直爬虫或聚焦爬虫[17]。该类型的爬虫可以满足用户对指定领域信息需求,在爬取页面上与通用网络爬虫不同,既不追求过高的抓取覆盖率也不全盘采集接受所有的网页和链接。它根据既定的目标或主题,有选择的访问互联网上网页与相关的链接,获取所需要的信息[15]。 2。1 标绘数据来源分析 根据标绘数据获取的来源,可分为通用网络和深层网络两部分进行标绘数据的获取。通用网络即表层网,指可以通过传统网页搜索引擎索引的页面,以超链接可以到达的静态页面为主构成的Web页面[16],如:百度旅游、携程、去哪儿网等类似的门户网站。而深层网络与通用网络则不同,是指存储在网络数据库中,不能通过超链接直接到达,而是通过动态网页技术访问的页面[16],如:新浪微博、Facebook、推特等需要登录或填写表单认证的社交网站。因此,依据标绘数据其来源的不同,选择使用不同的爬虫技术,针对性强则效率更高。 (责任编辑:qin) |