基于Hownet的情感词典构建研究(7)
时间:2017-06-17 14:33 来源:毕业论文 作者:毕业论文 点击:次
2.5 基于Hownet的应用 虽然Hownet作者声明Hownet并不是一部义类词典,但Hownet中所定义的关系都是基于语义定义的,从语言学的角度,Hownet也可认为是语义研究的成果[23]。 迄今为止,出现了不少基于Hownet的研究,如香港科技大学利用Hownet进行了汉语语料库的语义标注研究[24],台湾中央研究院进行了一些基于知网的基础研究,包括建立事件关系库、角色转换库、典型演员库和基于Hownet事件框架的中文动词句法[25];山西大学利用Hownet统计出现频率而达到词义排歧的目的[26];中国科学院计算技术研究所刘群、李素建进行了基于Hownet的词汇语义相似度计算[27]等等 3情感词典的构建 本文的基础情感词是以Hownet中的词语为基础的,将词句收集到SQLSERVER数据库中。 3.1 Hownet中情感词的转换 3.1.1 Hownet情感词简介 在知网中把情感词分为程度级别词语、负面评价词语、正面评价词语、负面情感词语、正面情感词语和主张词语这五种。本文从中进行分析提取相关情感词语,见图3.1。 图3.1 Hownet中情感词分类 3.1.2 生僻字处理 首先对Hownet中的词进行手工的筛选,找出那些生活中很不常见的字、词语,获得生僻字表,加以区别。通过挑选获得下面110个生僻的字词,加以去除,获得基础情感词。在数据库中构建表spc来存储生僻字。生僻字词如下:嬖、惼、忭、忭跃、傧、孛、不胜欣忭、黪、唱喏、憷、瘅、谠、忉、犯憷、棼、哿、哏、瞽、闳、蕻、會、惛、溷浊 、恝置、谫陋、艽、徼、徼幸、劼、廑、苴、窭、狷、狷介、剀、噲、獪、酹、裣衽、懔、癃、劢、颟顸、媢、媢嫉、瞀、勐、眄、愍、狃、恧、排揎、盘陁、 裒、跂望、佥同、慊、硗、硗薄、硗瘠、愀、劬、阒、阒寂、阒然、牣、毵毵 、埽、剡、赏赉、梼昧、讆、杌、芴、傒倖、睎、葸、忺、向隅、婞、婞直、忷、恟、絮烦、儇、迓、 弇陋、窈冥、猗、嶷、悒、挹、翊戴、嫕、夤、顒、雩、窳、窳败、窳惰、窳劣、饫、詟、忮、锺、颛、颛蒙、醊、迍邅、崒。将其余的词存储到表shiyan中。 3.1.3 基础情感词和修饰词的获取 本文所构建的情感词典的目的主要是为对网上评论进行情感性判断而构建的词库,所以将网上获取的词称为评论词,将评论词分为3部分:基础情感词、修饰词、评论对象。例如这个评论“屏幕比较模糊”,可以将其分为:基础情感词“模糊”、递进修饰词“比较”、评论对象“屏幕”。根据这种分词原则,将已获取的基础情感词进行处理。将基础情感词进行进一步的精简,获得最基础的情感词。处理采用手工处理的方法,手工挑出可以再分的情感词如:“关怀备至”、“不待见”、“非常悲哀”、“过分操心”、“极度悲哀”、“痛恨”、“发育完全”、“高强度”、“毫不动摇”、“极好”、“极其流行”、“绝好”、“颇为重要”、“十分重要”、“无比幸福”等,将上述的词语进行分割,获取基础情感词如“关怀”、“待见”、“悲哀”、“操心”、“悲哀”、“恨”、“发育”、 “动摇”、“好”、“流行”、 “好”、“重要”、“重要”、“幸福”等,获取修饰词如“备至”、“不”、“非常”、“过分”、“极度”、“痛”、“完全”、“毫不”、“极”、“极其”、“绝”、“颇为”、“十分”、“无比”等。 (责任编辑:qin) |