基于CDTB语料库的篇章关系标注研究(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于CDTB语料库的篇章关系标注研究(3)

篇章关系的标注则是对篇章关系进行分析的基础和重要组成部分,是研究篇章关系的第一步。篇章关系表示体系是整个篇章关系研究极其重要的基础环节,对于篇章关系标注具有理论支撑的作用。对标注的方式方法和标注平台的研究和可行性探讨,直接影响到篇章关系研究的质量和前景。

1。2 国内外研究现状

1。2。1 国外研究

1。2。2 国内研究

1。2。3 存在的问题

1。3 本文主要研究内容

本文主要研究的内容包括以下几个部分:1、建立宏观篇章关系结构的表示体系。根据中文的篇章结构的特点,从宏观上确定篇章关系的表示方式,提出篇章主题-段间关系-段落主题三层宏观篇章关系模型。2、提出宏观篇章结构的标注方式与方法。在宏观篇章关系结构表示体系的基础上,提出宏观篇章结构的标注方式,对于如何具体进行标注的方法进行阐释。3、建设宏观篇章关系的标注平台。构建一个宏观篇章关系的标注平台,对生语料进行半自动的人工标注,构建语料库。

第二章  宏观篇章关系表示体系构建及组成

文献[[[]  刘辰诞。 篇章学的可接受性与文学批评的接受理论[J]。 外国文学。 2011,(5):

104-110。]]中指出篇章是指连续的话段或句子构成的语言整体,是一段有意义、传达一个完整信息、前后衔接、语义连贯且具有一定交际目的和功能的言语作品。而篇章关系,则是对于其基本语义单元之间的语义关系、逻辑结构等一系列相关的特征的总体。

篇章关系作为篇章语言学的一个重要研究领域,在20世纪60年代在欧美就已经形成,Weinrich、W。A。Koch、van Dijk等对于篇章的研究都做出了重要的贡献。中国自古以来重视篇章的结构和关系,其中不乏为大众所知的“起承转合”、“八股文”等。

现代篇章关系研究的方向是以计算机技术为基础,以传统篇章语言学为指导,协助人类进行更快、更全、更准确的文本处理。篇章关系作为自动摘要、问答系统甚至下一代搜索引擎都有着重要的作用。

2。1 构建基于CDTB的宏观篇章关系表示体系

笔者的语料来源自CDTB语料库的新闻语料。由于语料在结构上、编码上不是标准的XML格式,存在着不规范、难处理等问题,因此在进行语料标注时,先进行了文本的预处理,使得具有统一编码的XML格式的文本文档,以保证后续标注的精度和效率。来.自^优+尔-论,文:网www.youerw.com +QQ752018766-

其新闻语料来源于新华日报,新华日报是官方报纸,具有质量高、文本标准等特点,对于篇章关系的表述具有规范化作用,减少噪点的发生。

篇章关系的表示方法有许多种,RST篇章修辞理论把篇章关系看成是一棵树,而PDTB则是依照谓词链接,形成一个二元关系组。文献[[[]  刘挺,王开铸。 基于篇章多级依存结构的自动文摘研究[J]。 计算机研究与发展。 1999,(4):96-105。]]中提出把篇章关系结构描述为一个有向图,它由代表基本篇章单元的节点和代表基本篇章单元之间相互关系的弧按照特定的方式结合而成。在弧上,是该关系的权重值。另外,该文献也定义了基于图的闭包运算和其他相关定义,使得基于图的篇章结构表示体系得以完整。

笔者提出的是一种基于序列化的关系二叉树的表示体系。该体系主要包括段落主题、段落关系、篇章主题三大部分。在对于段落关系上,采用二元关系组合表示段落与段落间的关系。在段落的主次关系上,对于重要的关系元用箭头表示,不重要的用直线连接

(责任编辑:qin)