自然语言语篇处理
摘要:自然语言处理中的语篇处理是AI领域的核心难题,涉及语篇连贯性、结构分析和指称消解三大关键问题。语篇连贯性通过结果、解释等关系实现,而语篇结构可通过有监督/无监督算法进行切分。指称消解则需解决代词、名词短语等指称表达的实体对应问题,包括同指消解和代词回指消解两类任务。这些技术对信息检索、文本摘要等应用至关重要,但代词多义性等问题仍带来挑战。
摘要:自然语言处理中的语篇处理是AI领域的核心难题,涉及语篇连贯性、结构分析和指称消解三大关键问题。语篇连贯性通过结果、解释等关系实现,而语篇结构可通过有监督/无监督算法进行切分。指称消解则需解决代词、名词短语等指称表达的实体对应问题,包括同指消解和代词回指消解两类任务。这些技术对信息检索、文本摘要等应用至关重要,但代词多义性等问题仍带来挑战。
目录
自然语言语篇处理
人工智能领域最棘手的难题,是让计算机处理自然语言,换言之,自然语言处理也是人工智能中难度最高的问题。谈及自然语言处理的主要难题,语篇处理当属其中之一 —— 这一任务需要构建相关理论与模型,解释话语如何衔接形成连贯的语篇。实际上,语言的存在形式从来都是相互搭配、结构清晰且语义连贯的句群,而非像零散的影像片段那样,由孤立、无关联的句子组成。这类语义连贯的句群,就被称作语篇。
连贯性的概念
语篇的连贯性与语篇结构在诸多方面相互关联。连贯性作为优质文本的特质之一,常被用于评估自然语言生成系统的输出质量。这里便引出一个问题:文本的 “连贯” 究竟指什么?假设我们从报纸的每一页各摘取一句话,这些句子能构成语篇吗?答案显然是否定的,因为它们之间缺乏连贯性。一个连贯的语篇,必须具备以下特征:
话语间的连贯关系
若语篇中各话语之间存在有意义的关联,该语篇便具备连贯性,这一特征被称为连贯关系。例如,话语间的关联需要通过某种解释来佐证其合理性。
实体间的关联
语篇连贯的另一项特征,是语篇中的各类实体之间必须存在特定关联,这类连贯性被称作基于实体的连贯性。
语篇结构
关于语篇,一个关键问题是:它需要具备何种结构?答案取决于我们对语篇所做的切分方式。语篇切分的定义是,为篇幅较长的语篇确定其结构类型。尽管语篇切分的落地实现难度较大,但对于信息检索、文本摘要、信息抽取这类应用而言,这一环节至关重要。
语篇切分算法
本节将介绍语篇切分的相关算法,具体如下:
无监督语篇切分
无监督语篇切分通常表现为线性切分,我们可以通过实例理解这一任务:将文本切分为多个段落单元,每个单元对应原文的一个语段。这类算法的设计依托于衔接性,衔接性指通过特定的语言手段,将不同的文本单元联结起来。其中,词汇衔接是衔接性的一种表现形式,指两个文本单元中,两个或多个词汇之间存在关联(如使用同义词)。
有监督语篇切分
上述无监督语篇切分算法,无需人工标注的切分边界;而有监督语篇切分则需要带有边界标注的训练数据,且这类数据的获取难度较低。在有监督语篇切分中,语篇标记词 / 提示词发挥着重要作用。语篇标记词(或提示词)是用于标示语篇结构的词或短语,这类标记词具有领域特异性。
文本连贯性
词汇复现是梳理语篇结构的一种方式,但仅凭这一点,无法实现语篇的连贯。要打造连贯的语篇,我们需要重点关注具体的连贯关系。正如前文所述,连贯关系定义了语篇中话语之间可能存在的关联形式。赫布提出了以下几种典型的连贯关系:
我们用S₀和S₁两个符号,分别代表两个存在关联的句子的语义。
结果关系
指S₀所表述的状态,可能引发S₁所表述的状态。例如:拉姆身陷火海,他的皮肤被烧伤了。这两个句子便体现了结果关系。
解释关系
指S₁所表述的状态,是S₀所表述状态产生的原因。例如:拉姆和希亚姆的朋友起了争执,因为他喝醉了。这两个句子体现了解释关系。
并列关系
指从S₀的表述中可推导出 p (a1,a2,…),从S₁的表述中可推导出 p (b1,b2,…),且对于所有的 i,ai 与 bi 均具有相似性。例如:拉姆想要一辆车,希亚姆想要一笔钱。这两个句子体现了并列关系。
详述关系
指从S₀和S₁的表述中,均可推导出同一个命题 P。例如:拉姆来自昌迪加尔,希亚姆来自喀拉拉邦。这两个句子体现了详述关系。
场景关系
指从S₀的表述中可推导出一种状态的变化,且这种变化的最终状态可从S₁中推导而出,反之亦然。例如:拉姆拿起了那本书,然后把书递给了希亚姆。这两个句子体现了场景关系。
构建层级化语篇结构
语篇的整体连贯性,也可通过连贯关系之间的层级结构来体现。例如,以下语段即可用层级结构表示:
- S₁:拉姆去银行存钱。
- S₂:随后,他乘火车前往希亚姆的服装店。
- S₃:他想买些衣服。
- S₄:他没有适合参加派对的新衣服。
- S₅:他还想和希亚姆聊聊自己的健康状况。
指称消解
解读语篇中的句子,是语篇处理的另一项重要任务,而要完成这一任务,我们需要明确话语所指向的实体对象。在此过程中,指称解读是核心环节。指称的定义是:用于指代某个实体或个体的语言表达形式。例如,在语段 “拉姆是 ABC 银行的经理,他在一家商店看到了自己的朋友希亚姆,于是走上前去和他打招呼” 中,“拉姆”“他的”“他” 均属于指称表达。
同理,指称消解的定义是:确定不同的语言表达形式分别指代哪些实体的任务。
指称消解中的专业术语
指称消解涉及以下专业术语:
- 指称表达:用于实现指称的自然语言表达形式,上述例句中的各类表述均属于指称表达。
- 指称对象:指称所指向的实体,例如上述例句中,“拉姆” 就是指称对象。
- 同指:当两个表达形式指代同一个实体时,这两个表达形式即为同指关系。例如,“拉姆” 和 “他” 是同指。
- 先行语:为其他指称表达提供指代依据的语言成分,例如,“拉姆” 是指称表达 “他” 的先行语。
- 回指与回指表达:回指指的是对前文已出现实体的指代,用于回指的表达形式则被称作回指表达。
- 语篇模型:一种包含语篇中所有被指代实体的表征,以及实体之间关联关系的模型。
指称表达的类型
指称表达主要分为以下五类:
不定名词短语
这类指称表达,用于将受话者此前未知的实体引入语篇语境。例如:有一天,拉姆出门去给他带了些吃的。句中的 “些(吃的)” 即为不定指称。
定名词短语
与不定名词短语相反,这类指称表达指代的是受话者已知、或可识别的实体。例如:我过去常读《印度时报》。句中的《印度时报》即为定指称。
代词
代词是定指称的一种形式。例如:拉姆放声大笑。句中的 “他” 便是代词类指称表达。
指示词
指示词用于指示对象,其用法与普通的定指代词不同,例如 “这”“那” 均为指示代词。
名称
这是最简单的指称表达类型,可指代人、机构、地点等,例如上述例句中的 “拉姆”,就是名称类指称表达。
指称消解的任务类型
指称消解主要包含以下两类任务:
同指消解
指在文本中找出指代同一实体的所有指称表达,简言之,就是寻找同指表达的任务。一组同指表达被称作同指链。例如,前文例句中的 “他”“总经理”“他的”,便构成了一条同指链。
同指消解的约束条件
在英语中,同指消解的主要难点在于代词it,原因是该代词的用法十分多样。例如,它可像he和she一样指代具体对象,也可指代非具体的事物,如:下雨了(It's raining.)、这太棒了(It is really good.)。
代词回指消解
与同指消解不同,代词回指消解的任务是,为单个代词找到对应的先行语。例如,对于代词 “他的”,代词回指消解的任务就是找到其先行语 “拉姆”。
更多推荐



所有评论(0)