对语料库文本功能可视化进行对应分析
时间:2018-09-03 15:50 来源:毕业论文 作者:毕业论文 点击:次
摘要: 文本挖掘中的探索性数据分析主要依赖于有效的可视化技术,可以揭露隐藏文件之间的关系和文档的对应关系及其功能。在文本挖掘,文件是由文度非常高的功能向量表示,需要降文来获得视觉投影在二文或三文空间。对应分析是一种无监督的做法,允许建设用两份文件和功能同时放置的低文投影空间,使它在文本挖掘适合探索性分析。然而,目前使用的是有限的单词功能。在本文中,我们探讨这个特殊文档的表示比较字母的N元语法和单词的N元语法的表示,发现这些替代表示在分离不同的类文件产生更好的结果。我们进行克罗地亚语和英语的双语平行语料库的实验分析,使我们能够同时探索不同语言的可视化的质量功能的影响。27695 毕业论文关键词: 文本挖掘,文本可视化,字母N元语法,单词N元语法,对应分析。 Textual features for corpus visualization using correspondence analysis Abstract: Explorative data analysis in text mining essentially relies on effective visualization techniques which can expose hidden relationships among documents and reveal correspondence between documents and their features. In text mining, the documents are most often represented by feature vectors of very high dimensions, requiring dimensionality reduction to obtain visual projections in two- or three-dimensional space. Correspondence analysis is an unsupervised approach that allows for construction of low-dimensional projection space with simultaneous placement of both documents and features, making it ideal for explorative analysis in text mining. Its present use, however, has been limited to word-based features. In this paper, we investigate how this particular document representation compares to the representation with letter n-grams and word n-grams, and find that these alternative representations yield better results in separating documents of different class. We perform our experimental analysis on a bilingual Croatian-English parallel corpus, allowing us to additionally explore the impact of features in different languages on the quality of visualizations. Keywords: Text mining, Text visualization, Letter n-grams, Word n-grams, Correspondence analysis 目录 摘要 i Abstract i 目录 ii 1 绪论 1 1.1 酒店管理系统概述 1 1.2 选题的目的和意义 2 1.3 酒店管理系统在国内外发展现状 3 1.4 酒店管理系统的发展趋势 4 1.5 论文的主要内容 5 2 酒店管理系统系统需求分析 6 2.1 业务及用户需求分析 6 2.2 系统可行性分析 7 2.2.1 技术可行性 7 2.2.2 经济可行性 7 2.2.3 操作可行性 8 2.3 系统数据库分析 8 2.3.1 数据库分析 8 2.3.2 数据库结构设计 9 2.4 运行环境 14 3 酒店管理系统设计 16 3.1 系统设计指导思想及原则 16 3.2 系统功能设计 16 3.2.1 客房信息查询模块 17 3.2.2 客户信息查询模块 17 3.2.3 酒店营业统计模块 18 3.2.4 订\退房管理模块 18 3.2.5 后台管理模块 18 3.2.6 登录模块 19 3.3 系统具体模块设计 19 3.4 数据库详细设计 20 3.4.1 数据库的实施 20 3.4.2 数据库的试运行 20 (责任编辑:qin) |