摘要随着移动智能终端技术的飞速发展,互联网上积累了海量含有丰富空间信息的标绘数据,其背后隐含研究挖掘的价值。标绘数据的来源分为通用网络和深层网络。深层网络中的数据比通用网络的要多得多,而且数据质量高。国内热门社交媒体——新浪微博属于深层网络,由用户自发上传分享的位置微博数据客观真实且数据量庞大,具有研究的价值和意义。但深层网络不能通过普通的搜索引擎进行数据采集,因此使用深层网络爬虫技术获取标绘数据。88652
Abstract:With the rapid development of mobile intelligent terminal technology, a large amount of spatial information has been accumulated on the internet。 The source of plotting data is pided into general network and deep network。 The data in the deep network is much higher than that of the general network, and the quality of the data is high。 Domestic popular social media - Sina micro-blog is a deep network, by the user to upload and share the location of spontaneous micro-blog data objective reality and a huge amount of data, with the value and significance of the study。 However, deep web can not collect data through the ordinary search engine, so the deep web crawler technology is used to obtain the plotted data。
毕业论文关键词:Web数据挖掘; 标绘数据; 深层网络; 网络爬虫; 新浪微博源Q于D优G尔X论V文Y网wwW.yOueRw.com 原文+QQ75201`8766
Keyword: Web Data Mining; Plotted Data; Deep Web; Web Crawler;Micro-blog Sina
目 录
摘 要 I
1 绪论 1
1。1 研究背景与意义 1
1。1。1 研究背景 1
1。1。2 研究意义 1
1。2 相关研究现状 1
1。2。1 标绘数据研究现状 1
1。2。2 标绘数据获取来源 2
1。3 研究目的与主要内容 2
1。3。1 研究目的 2
1。3。2 研究内容 2
1。4 文章结构 3
2 主题标绘数据获取技术 3
2。1 标绘数据来源分析 4
2。2 深层网络爬虫技术 4
3 主题标绘数据获取系统设计与实现 5
3。1 主题标绘数据获取系统需求分析 5
3。2 主题标绘数据库设计 6
3。3 系统功能设计From优T尔K论M文L网wWw.YouERw.com 加QQ75201^8766 与实现 8
3。3。1 景区POI获取功能设计 9
3。3。2 位置微博获取功能设计 11
3。3。3 系统界面设计与功能集成 14
4 总结 15
4。1 本文总结 15
4。2 后期展望 15
参考文献 16
致 谢 17
1 绪论
1。1 研究背景与意义
1。1。1 研究背景
互联网的飞速发展大大改变了人们传统的生活方式,使得人们生活中的许多方面都发生深刻的变化。一方面,随着互联网的日益普及,Web现今已经成为人们获取信息的一个重要途径,人们通过Web接触到了比以前多的多的数据和信息。另一方面,越来越多的组织、企业在互联网上开展各种业务,传统的发展策略、企业战略制定也纷纷转向互联网,Web从而成了储存、发布及搜索获取数据的重要载体。