网络舆情分类研究+文献综述(3)_毕业论文

毕业论文移动版

毕业论文 > 新闻传播论文 >

网络舆情分类研究+文献综述(3)


1)    建立数据集
得到收集文本数据后,中文文本相对于英文文本有很大的区别,因此在进行分类前,首先应该针对中文文本进行分词、去停用词等。并且将数据人工分为测试集和训练集。
2)    建立文本表示模型
文本分类基于文本的特征所趋向的领域。文本特征是指能够突出地代表待分类文本的主要内容,为了降低文本分类的处理数据复杂度,有必要提取出文本内容的特征项进行代表文本内容,从而能够提高文本分类处理方法的性能和精度。
通过数学模型实现机器对文本的特征提取。不同的数学模型,所提取特征的效果不同。现阶段文本表示模型主要有两种:空间向量模型和布尔模型 (责任编辑:qin)