摘要:自然语言处理中的语篇处理是AI领域的核心难题,涉及语篇连贯性、结构分析和指称消解三大关键问题。语篇连贯性通过结果、解释等关系实现,而语篇结构可通过有监督/无监督算法进行切分。指称消解则需解决代词、名词短语等指称表达的实体对应问题,包括同指消解和代词回指消解两类任务。这些技术对信息检索、文本摘要等应用至关重要,但代词多义性等问题仍带来挑战。

目录

自然语言语篇处理

连贯性的概念

话语间的连贯关系

实体间的关联

语篇结构

语篇切分算法

无监督语篇切分

有监督语篇切分

文本连贯性

结果关系

解释关系

并列关系

详述关系

场景关系

构建层级化语篇结构

指称消解

指称消解中的专业术语

指称表达的类型

不定名词短语

定名词短语

代词

指示词

名称

指称消解的任务类型

同指消解

同指消解的约束条件

代词回指消解


自然语言语篇处理

人工智能领域最棘手的难题,是让计算机处理自然语言,换言之,自然语言处理也是人工智能中难度最高的问题。谈及自然语言处理的主要难题,语篇处理当属其中之一 —— 这一任务需要构建相关理论与模型,解释话语如何衔接形成连贯的语篇。实际上,语言的存在形式从来都是相互搭配、结构清晰且语义连贯的句群,而非像零散的影像片段那样,由孤立、无关联的句子组成。这类语义连贯的句群,就被称作语篇。

连贯性的概念

语篇的连贯性与语篇结构在诸多方面相互关联。连贯性作为优质文本的特质之一,常被用于评估自然语言生成系统的输出质量。这里便引出一个问题:文本的 “连贯” 究竟指什么?假设我们从报纸的每一页各摘取一句话,这些句子能构成语篇吗?答案显然是否定的,因为它们之间缺乏连贯性。一个连贯的语篇,必须具备以下特征:

话语间的连贯关系

若语篇中各话语之间存在有意义的关联,该语篇便具备连贯性,这一特征被称为连贯关系。例如,话语间的关联需要通过某种解释来佐证其合理性。

实体间的关联

语篇连贯的另一项特征,是语篇中的各类实体之间必须存在特定关联,这类连贯性被称作基于实体的连贯性

语篇结构

关于语篇,一个关键问题是:它需要具备何种结构?答案取决于我们对语篇所做的切分方式。语篇切分的定义是,为篇幅较长的语篇确定其结构类型。尽管语篇切分的落地实现难度较大,但对于信息检索、文本摘要、信息抽取这类应用而言,这一环节至关重要。

语篇切分算法

本节将介绍语篇切分的相关算法,具体如下:

无监督语篇切分

无监督语篇切分通常表现为线性切分,我们可以通过实例理解这一任务:将文本切分为多个段落单元,每个单元对应原文的一个语段。这类算法的设计依托于衔接性,衔接性指通过特定的语言手段,将不同的文本单元联结起来。其中,词汇衔接是衔接性的一种表现形式,指两个文本单元中,两个或多个词汇之间存在关联(如使用同义词)。

有监督语篇切分

上述无监督语篇切分算法,无需人工标注的切分边界;而有监督语篇切分则需要带有边界标注的训练数据,且这类数据的获取难度较低。在有监督语篇切分中,语篇标记词 / 提示词发挥着重要作用。语篇标记词(或提示词)是用于标示语篇结构的词或短语,这类标记词具有领域特异性。

文本连贯性

词汇复现是梳理语篇结构的一种方式,但仅凭这一点,无法实现语篇的连贯。要打造连贯的语篇,我们需要重点关注具体的连贯关系。正如前文所述,连贯关系定义了语篇中话语之间可能存在的关联形式。赫布提出了以下几种典型的连贯关系:

我们用S₀S₁两个符号,分别代表两个存在关联的句子的语义。

结果关系

S₀所表述的状态,可能引发S₁所表述的状态。例如:拉姆身陷火海,他的皮肤被烧伤了。这两个句子便体现了结果关系。

解释关系

S₁所表述的状态,是S₀所表述状态产生的原因。例如:拉姆和希亚姆的朋友起了争执,因为他喝醉了。这两个句子体现了解释关系。

并列关系

指从S₀的表述中可推导出 p (a1,a2,…),从S₁的表述中可推导出 p (b1,b2,…),且对于所有的 i,ai 与 bi 均具有相似性。例如:拉姆想要一辆车,希亚姆想要一笔钱。这两个句子体现了并列关系。

详述关系

指从S₀S₁的表述中,均可推导出同一个命题 P。例如:拉姆来自昌迪加尔,希亚姆来自喀拉拉邦。这两个句子体现了详述关系。

场景关系

指从S₀的表述中可推导出一种状态的变化,且这种变化的最终状态可从S₁中推导而出,反之亦然。例如:拉姆拿起了那本书,然后把书递给了希亚姆。这两个句子体现了场景关系。

构建层级化语篇结构

语篇的整体连贯性,也可通过连贯关系之间的层级结构来体现。例如,以下语段即可用层级结构表示:

  • S₁:拉姆去银行存钱。
  • S₂:随后,他乘火车前往希亚姆的服装店。
  • S₃:他想买些衣服。
  • S₄:他没有适合参加派对的新衣服。
  • S₅:他还想和希亚姆聊聊自己的健康状况。

指称消解

解读语篇中的句子,是语篇处理的另一项重要任务,而要完成这一任务,我们需要明确话语所指向的实体对象。在此过程中,指称解读是核心环节。指称的定义是:用于指代某个实体或个体的语言表达形式。例如,在语段 “拉姆是 ABC 银行的经理,他在一家商店看到了自己的朋友希亚姆,于是走上前去和他打招呼” 中,“拉姆”“他的”“他” 均属于指称表达。

同理,指称消解的定义是:确定不同的语言表达形式分别指代哪些实体的任务。

指称消解中的专业术语

指称消解涉及以下专业术语:

  • 指称表达:用于实现指称的自然语言表达形式,上述例句中的各类表述均属于指称表达。
  • 指称对象:指称所指向的实体,例如上述例句中,“拉姆” 就是指称对象。
  • 同指:当两个表达形式指代同一个实体时,这两个表达形式即为同指关系。例如,“拉姆” 和 “他” 是同指。
  • 先行语:为其他指称表达提供指代依据的语言成分,例如,“拉姆” 是指称表达 “他” 的先行语。
  • 回指与回指表达:回指指的是对前文已出现实体的指代,用于回指的表达形式则被称作回指表达。
  • 语篇模型:一种包含语篇中所有被指代实体的表征,以及实体之间关联关系的模型。

指称表达的类型

指称表达主要分为以下五类:

不定名词短语

这类指称表达,用于将受话者此前未知的实体引入语篇语境。例如:有一天,拉姆出门去给他带了些吃的。句中的 “些(吃的)” 即为不定指称。

定名词短语

与不定名词短语相反,这类指称表达指代的是受话者已知、或可识别的实体。例如:我过去常读《印度时报》。句中的《印度时报》即为定指称。

代词

代词是定指称的一种形式。例如:拉姆放声大笑。句中的 “他” 便是代词类指称表达。

指示词

指示词用于指示对象,其用法与普通的定指代词不同,例如 “这”“那” 均为指示代词。

名称

这是最简单的指称表达类型,可指代人、机构、地点等,例如上述例句中的 “拉姆”,就是名称类指称表达。

指称消解的任务类型

指称消解主要包含以下两类任务:

同指消解

指在文本中找出指代同一实体的所有指称表达,简言之,就是寻找同指表达的任务。一组同指表达被称作同指链。例如,前文例句中的 “他”“总经理”“他的”,便构成了一条同指链。

同指消解的约束条件

在英语中,同指消解的主要难点在于代词it,原因是该代词的用法十分多样。例如,它可像heshe一样指代具体对象,也可指代非具体的事物,如:下雨了(It's raining.)、这太棒了(It is really good.)。

代词回指消解

与同指消解不同,代词回指消解的任务是,为单个代词找到对应的先行语。例如,对于代词 “他的”,代词回指消解的任务就是找到其先行语 “拉姆”。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐