摘要:[目的/意义]《汉语大词典》是已有汉语语文工具书规模最大的,内容浩繁。引用书证涵盖古今,利用该词典建立相关引证数据库并开展相关研究分析显得尤为重要。[方法/过程]文章首先利用基于规则的抽取方法获取了词典词汇语义引证的内部、外部信息。随后对清洗、处理过的外部数据进行描述性统计分析,探讨具体分布情况。利用CRF条件随机场进行十折交叉检验对预处理后的内部语料进行训练、测试。[结果/结论]通过分析其外部信息,可以看出中国古代文学发展的高峰时期是唐宋明清,被引用次数多的作者和作品都集中在这四个朝代;通过训练内部引证信息,得到可应用于该词典的人名、官职等实体识别的模型,最高准确率达87%,召回率达93%。30681 毕业论文关键词:释义语料库;知识抽取;条件随机场;实体识别
Knowledge Extraction and Analysis of Lexical Semantic Citation Based on Interpretation Corpus
Abstract: [Purpose/Significance] "Chinese Dictionary" is the largest Chinese language tool and it’s content is numerous. It is very important to use the dictionary to establish relevant citation databases and carry out related research and analysis. [Method/Process] Firstly, the internal and external information of lexical citation of lexical lexicon is obtained by rule-based extraction method. Then the cleaning and processing of external data descriptive statistical analysis to explore the specific sub-cases. The internal corpus after pretreatment was trained and tested by 10 - fold cross - validation with CRF condition random field. [Result/Conclusion] By analyzing the external information, we can see that the peak period of the development of ancient Chinese literature is the Tang and Song Dynasties, the Ming and Qing dynasties, the number of cited authors and works are concentrated in the four dynasties; by training the internal citation information, can be applied to the dictionary name, Office and other entities to identify the model, the highest accuracy rate of 87%, recall rate of 93%.
Key words: Interpretation corpus;Knowledge extraction;Conditional random field;Entity identification
目 录
摘要 1
关键词 1
Abstract. 1
Key words 1
引言: 2
一、 文献综述 2
二、 释义语料库简介 3
三、 词汇语义引证知识的自动抽取 4
(一)抽取规则 4
1.正则表达式简介 4
2.正则表达式的基本单位 4
(二)实体抽取 4
2.抽取数据再处理 5
1.规则构造与实体抽取 5
四、 词汇语义引证知识的分析 6
(一)引证外部信息分析 6
(二)引证内部信息分析 7
1.CRF模型介绍 7
2.实体识别实验 8
3.引证义项统计分布 11
五、 结语 11
致谢 11
表 1 正则表达式元字符 4
表 2 CRF文件格式 9
表 3 CRF分词后输出结果示例 10
表 4 训练评价 10
表 5 第八次实验特征评价 11
表 6 第九次实验特征评价 11
表 7 实体长度分布 11
图 1 释义语料库语料 4
图 2 朝代分布情况 6
图 3 作者分布情况 7
图 4 书名分布情况 7