针对这一现状,本文从Twitter和新浪微博的博文数据入手,提取其中带有Hashtag的博文,利用分词方法对中英文的Hashtag的词性长度等方面进行比较研究,并且通过数据库和代码编写,以图表的方式更加直观明了的呈现出来。

1.3研究内容

  本文以新浪微博和Twitter为研究对象,利用自动抓取爬虫程序工具,抽取微博用户相关信息,对微博内容进行收集、整理、加工和分析。并对Hashtags进行提取,构建分类体系,对数据进行预处理之后将中英文Hashtags进行分类、比较研究,重点比较研究中英文Hashtag在词性、长度等统计特征上的分布情况,最后根据分析结果,提出关于更好利用Hashtags的相关建议。

 总体思路如图1所示。

   

图 1 本文的总体思路

1.4本文主要结构

  本文分为如下5个章节:

  第一章为绪论,主要分析本文的研究背景,Web2.0时代下微博的产生和发展,并指明本文的研究意义,同时简单描述了本文的研究内容。

  第二章为文献综述,介绍了标签和分类系统的相关理论,包括标签的定义、类型及应用。调研了国内外关于Hashtag的研究现状。结合理论研究,在接下来的通过详细介绍数据处理及计算结果,对新浪微博和Twitter的Hashtag进行挖掘分析。来~自^优尔论+文.网www.youerw.com/

  第三章为数据处理流程的总体介绍,主要是对本文关于中英文Hashtag在外部特征以及内部特征分析上的一个总体概括与介绍。

第四章为Hashtag的外部特征分析。抓取新浪微博与Twitter的数据并进行整理、加工和处理。调研科学网平台架构、用户群体特点及Hashtag的相关信息。提取中英文的Hashtag,并对数据进行外部特征分析,主要包括中英文Hashtag的数量、长度、频次以及在微博文中出现的位置等方面的统计分析与处理,使数据更加规范合理,便于接下来的分析与比较。

  第五章为Hashtag的内部特征分析,针对爬虫程序抓取的微博数据,对Hashtag进行调查统计分析。具体内容包括:词性标注、构建分类体系对中英文Hashtag进行分类、流行标签的统计分析等。处理过程中使用数据库及java等编程语言处理数据。

  最后一章是总结与展望,本章中会阐述本文中所完成的工作,并对未来研究进行展望。

上一篇:网络新闻文本中的命名实体自动抽取研究
下一篇:基于Agent的突发事件中网络舆情演变过程中的网民群体行为建模研究

RFID标签超市货物自动盘点器的设计

Android图像标签技术以及移动终端平台的开发

面向中医诊断帕金森病领域多标签学习

Android的中英文教学软件设计+ER图

hadoop互联网标签体系的设计及实现

中文专业博客的标签质量评估研究

基于Swift和标签模糊匹配的...

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究

互联网教育”变革路径研究进展【7972字】

老年2型糖尿病患者运动疗...

麦秸秆还田和沼液灌溉对...

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发

张洁小说《无字》中的女性意识

新課改下小學语文洧效阅...

我国风险投资的发展现状问题及对策分析