针对这一现状,本文从Twitter和新浪微博的博文数据入手,提取其中带有Hashtag的博文,利用分词方法对中英文的Hashtag的词性长度等方面进行比较研究,并且通过数据库和代码编写,以图表的方式更加直观明了的呈现出来。
1.3研究内容
本文以新浪微博和Twitter为研究对象,利用自动抓取爬虫程序工具,抽取微博用户相关信息,对微博内容进行收集、整理、加工和分析。并对Hashtags进行提取,构建分类体系,对数据进行预处理之后将中英文Hashtags进行分类、比较研究,重点比较研究中英文Hashtag在词性、长度等统计特征上的分布情况,最后根据分析结果,提出关于更好利用Hashtags的相关建议。
总体思路如图1所示。
图 1 本文的总体思路
1.4本文主要结构
本文分为如下5个章节:
第一章为绪论,主要分析本文的研究背景,Web2.0时代下微博的产生和发展,并指明本文的研究意义,同时简单描述了本文的研究内容。
第二章为文献综述,介绍了标签和分类系统的相关理论,包括标签的定义、类型及应用。调研了国内外关于Hashtag的研究现状。结合理论研究,在接下来的通过详细介绍数据处理及计算结果,对新浪微博和Twitter的Hashtag进行挖掘分析。来~自^优尔论+文.网www.youerw.com/
第三章为数据处理流程的总体介绍,主要是对本文关于中英文Hashtag在外部特征以及内部特征分析上的一个总体概括与介绍。
第四章为Hashtag的外部特征分析。抓取新浪微博与Twitter的数据并进行整理、加工和处理。调研科学网平台架构、用户群体特点及Hashtag的相关信息。提取中英文的Hashtag,并对数据进行外部特征分析,主要包括中英文Hashtag的数量、长度、频次以及在微博文中出现的位置等方面的统计分析与处理,使数据更加规范合理,便于接下来的分析与比较。
第五章为Hashtag的内部特征分析,针对爬虫程序抓取的微博数据,对Hashtag进行调查统计分析。具体内容包括:词性标注、构建分类体系对中英文Hashtag进行分类、流行标签的统计分析等。处理过程中使用数据库及java等编程语言处理数据。
最后一章是总结与展望,本章中会阐述本文中所完成的工作,并对未来研究进行展望。