互联网的上信息和用户自身信息大量的下载与上传,其中积累的数据量以指数式的速度不断增加。爆炸式增长的数据背后隐藏着许多有价值的信息,现今人们已认识到掌握数据的重要性,希望将网络上海量的标绘数据按需求地获取下来,进行更高层次的分析,以此更好地利用这些数据。正因如此,越来越多的企业迫切地需要大量有价值的数据分析市场背景现状、客户需求和发展策略以进行决策支持。基于大数据时代环境,对数据的获取、分类、分析和运用是发展的趋势,在这种情况下数据挖掘技术应运而生。
近几年,智能终端技术的成熟和普及令人们的生活更加地依赖互联网和手机。人们习惯通过手机等移动智能终端上的应用随时地获取和分享自己的信息,在使用此类应用的过程中,随时随地将发生的地理事件及个人的心情感悟分享到互联网上,而该类信息或数据含有丰富的地理位置信息。研究中形象地将这些由人们标注而产生的含有地理位置信息的数据称为标绘数据[1]。
1。1。2 研究意义论文网
随着LBS、GIS和移动智能终端等技术的发展普及,由大众用户发布产生的包含丰富地理位置信息的标绘数据不断地增长壮大。标绘数据的特点是含有地理位置,具有时间属性,结构多样,数据量大产生的速度快。这些含有地理位置信息的标绘数据蕴含的信息丰富,具有挖掘价值。
而标绘数据的来源和形式多种多样,大部分信息隐藏在Web页面中,无法通过搜索引擎查询得到。网络爬虫能模拟用户浏览网页的,将网页中用户关心的信息抓取下来。根据不同的数据获取途径从而选择不同类型的网络爬虫,则可在较短的时间内获取和整合庞大且真实、客观的主题标绘数据,提高了数据获取的效率并缩减获取成本,得到的标绘数据时效性高且增强了数据的延展性。
1。2 相关研究现状
1。2。1 标绘数据研究现状
1。2。2 标绘数据获取来源
1。3 研究目的与主要内容
1。3。1 研究目的
本课题需要实现完成的目标是:设计和实现基于深层网络爬虫技术的新浪位置微博标绘数据获取系统。模拟用户搜索微博数据,达到高效获取高质量标绘数据的目的。以旅游主题为例,数据抓取的范围是浙江省内244个景区的位置微博数据。本系统实现的功能涉及获取景区POI和用户签到微博数据,并在功能实现的前提下,增加设计数据获取系统界面,以便于更新、二次获取数据和推广。
1。3。2 研究内容
1)标绘数据获取途径和获取技术的选择。根据不同的数据获取途径选择不同类型的网络爬虫可以大大提高标绘数据获取的效率,因而本课题选择新浪微博作为标绘数据获取来源,采用深层网络爬虫技术来获取浙江省244个景区位置微博数据。
2)主题标绘数据获取系统的功能设计与实现
景区POI数据、景区位置微博签到数据获取的设计。
3)主题标绘数据获取系统的界面设计与实现
实现通过交互操作设置微博标绘数据获取的条件。满足筛选不同地区,选择景区、POI及输入指定时间范围功能的要求,合理设计系统界面。
1。4 文章结构
第一章:主要介绍了文章的研究背景与意义,简述了相关的研究现状和标绘数据获取的途径,明确本课题研究的目的和内容,说明文章结构安排。
第二章:首先简述了标绘数据获取的手段及其几种类型,然后分析标绘数据的来源,选取新浪微博标绘数据为例,详细介绍深层网络爬虫和操作流程。
第三章:详细解析旅游主题标绘数据获取系统的设计与实现,分别从需求分析、数据库设计、系统功能设计以及界面设计四个方面展开。