文献[[[] 徐凡,朱巧明,周国栋。 基于树核的隐式篇章关系识别[J]。 软件学报。 2013,(5)
:1022-1035。]]则采用了基于多树核的方式运用浅层语义信息和以态度韵为导向对隐式篇章关系进行了识别。它在宾州篇章树库(PDTB)语料库上,不仅仅采用了常规的词汇、语法特征,还根据裁剪后的浅层语义结构树和语言极性情感分析等更加符合人性的特征对篇章进行自动分析。这对于篇章结构关系的标注具有启发式的作用。
文献[[[] 李艳翠,孙静,周国栋。 汉语篇章连接词识别与分类[J]。 北京大学学报(自然科学版)。 2015,(2):307-314。]]建立了汉语篇章树库(CDTB)语料库的微观篇章结构及关系表示体系,结合了PTB和RST的优点,把篇章结构和篇章关系分开来表示。在微观上,把句子与句子之间的关系分为4大类共17小类,并对微观的篇章结构进行了相应的主次关系表示,根据连接词在识别微观篇章关系上取得了较好的成果,对宏观的篇章结构具有借鉴性的作用。
3 存在的问题
篇章关系的识别也受到了学者越来越多的关注,然而篇章关系无论在理论体系、语料资源,还是计算模型,都缺乏深入的研究,尤其是宏观篇章关系目前还停留在理论方面的尝试。
语料资源方面,目前主流的英语篇章语料库PDTB没有标注篇章单位主次关系,修辞结构篇章树库(RST-DT)标注了篇章关系连接的篇章单位的“核心”和“卫星”(微观主次关系)。目前已有的汉语篇章语料资源,大多都没有针对篇章关系进行标注,只有CDTB进行了微观的篇章关系的标注,没有进行宏观的篇章关系的标注。
目前中文语料库规模尚不充足,适合于研究篇章关系的语料库不是很多。而随着智能计算机时代的来临,成熟的机器学习算法与较小规模的语料库之间的矛盾日益突出,急需进行语料库建设和再建设。