当前位置:首页 > 业内新闻

论文速递 | 通过提示和标签释义模拟对话情感识别中的思维过程

来源:情感计算Affective Computing发布时间:2023-07-17

题目: Mimicking the Thinking Process for Emotion Recognition in Conversation with Prompts and Paraphrasing 

会议:IJCAI 2023, AI and Social Good track

作者:张婷1,陈壮2,钟鸣1,钱铁云1,3

单位:1武汉大学计算机学院,2清华大学计算机学院交互式人工智能课题组,3武汉大学文化遗产智能计算实验室

论文链接:https://arxiv.org/abs/2306.06601

代码链接:https://github.com/NLPWM-WHU/MPLP

01

  工作背景  

对话情绪识别(Emotion Recognition in Conversations ERC)旨在对一段对话中所有的话语进行情绪分类。与传统的情绪识别任务不同,ERC任务中的目标话语的情绪不是自包含的,这意味着我们不能仅仅通过理解话语本身来预测情绪。相反,需要一些补充信息,如对话上下文、说话人背景等,来准确地识别话语所传达的情绪。此外,作为一个细粒度的情感分类任务,对话情绪识别任务中,悲伤(sadness沮丧(frustrated等情绪标签之间的区别往往是微妙的,需要对其更加深入的理解才能帮助区分。

02

  前人方法  

现有的研究主要集中于对话上下文的建模,忽略了对于说话人背景以及标签语义的理解。

早期的工作主要通过利用基于序列的模型和基于图的模型,来模拟上下文之间的交互。典型的工作如ICON,使用多个GRU来建模说话者内部和说话者之间的情绪影响;DialogueRNN使用多个GRU跟踪每个说话者的状态;DialogueCRN使用LSTM迭代地查询和整合上下文中的情感线索;DialogueGCN通过将图神经网络应用于邻居图来学习对话上下文;DAG-ERC则将对话视作有向无环图对其进行建模,等等。

近年来,越来越多的方法开始通过融入外部常识知识(如ATOMIC常识)来丰富话语的表示或促进对话图中情感信息的传播。COSMIC在序列建模的过程中引入了外部常识;TODKAT结合主题信息来对常识进行选择,以减少常识中的噪声信息;SKAIGCauAIN将常识按照类别进行划分,并利用常识促进话语间情绪信息的传播。由于简单地通过网络架构来融合话表示无法充分利用预训练语言模型的知识,最近的CISPER方法将prompt-learning范式引入到了ERC任务的建模当中。然而,CISPER方法对于同一对话中的所有话语使用相同的prompt,并未考虑prompt与目标话语、目标说话者之间的关联。

03

  所提方法  

本文认为,现有的研究仅侧重于对话上下文的建模,未能充分地模拟人类在进行对话情绪分析时的思维过程。为了理解目标话语所包含的情绪,人类通常思考以下几个问题:

1)What does the speaker say? 人们首先需要定位和阅读目标话语来对其进行理解。
2What is the influence of the conversational context on the speaker? 对话语境会对说话人产生很大的影响,同一句话在不同的语境中也可能表达截然不同的含义。
3What is the speaker' s background? 人们需要了解说话人的背景,依据经验,通过其在类似场景下的表现推测当前情绪。
4How does the speaker feel? 人们需要区分情感标签的语义,以做出准确的情感判断。

尽管 2)是现有研究的重点,但现有基于提示的方法并未很好地对其建模,而3)4)则在很大程度上被当前的研究所忽视。为了解决这些问题,实现上述思维过程,我们提出了一个多提示和标签释义(multi-prompt and label paraphrasing MPLP)模型用于ERC任务。我们的模型包括两个阶段,在第一阶段,训练模型理解问题1),对话语进行初步编码。在第二阶段,我们分别通过将说话者相关历史信息编码为以历史为导向的prompt,建模问题2);检索训练集中处于类似情景中的类似话语,并将其转换为以经验为导向的prompt,建模问题3);利用来自SentiWordNet对标签进行释义,结合释义生成的辅助任务,区分情感标签之间的微妙语义,建模问题4)

图片

Utterance Understanding

本文采用生成式预训练语言模型BART来进行话语理解。我们将对话历史、目标句子及其对应的说话人姓名一起打包成一个token序列,并将其送入给BART编码器并使用特殊标记 * 突出目标句子的起止位置。同时,我们将一个情感prompt图片送入解码器,以获得目标话语的表示(E表示投影层):

图片

在第一阶段,我们利用图片[mask]位的表示图片作为情感的表示,使用交叉熵损失训练模型。这样,我们可以对目标话语有一个初步的了解。以此为基础,我们分别利用history-oriented promptexperience-oriented promptlabel paraphrasing来进行第二阶段的进一步训练。

History-Oriented Prompt

许多研究表明,对话历史信息对于ERC任务非常重要。然而,目前可用的基于prompt的方法CISPER只是为一段对话中的所有话语构建了一个共享的prompt,这不利于模型理解与目标话语相关的上下文信息。为了解决这个问题,我们提出了一种以说话者为中心、以历史为导向的提示生成方法。

以第一阶段所得到的句子表示为基础,我们首先计算了话语之间的相似度,以专注于和目标话语高度相关的历史信息。然后再根据历史话语与当前话语是否是同一说话人,对历史表示进行变换。使用Bi-LSTM对历史话语序列进行融合,以使其更加上下文化。

图片

图片

图片

为了让预训练语言模型更好地利用上述信息,我们利用图片构建了以对话历史为导向的prompt图片。在第二阶段的训练中,图片会拼接到encoder的原始输入前面,以提示模型在和当前对话中相关的历史信息的影响下,说话者可能具有何种情绪。

图片
Experience-Oriented Prompt

说话者的背景也会决定其在对话中的态度。特别地,在对话上下文不太连贯的多人对话中,我们可以更多地联系对话人在类似情况下的表现,借助经验对话语中的情绪作出分析。因此,我们提出以经验为导向的提示生成方法。

我们将训练集视为说话者任务特定的背景,并在其中检索与目标话语相似的句子以构建经验为导向的提示。具体地说,我们首先利用BERTScoreBM25等检索器从训练集中检索与目标文本相似度较高的top-k个句子。

图片

同时,考虑到哪怕同种表述,在不同的上下文中可能也有着完全不同的情绪含义,为了更准确地建模相似的“情况”,我们计算受上下文影响的文本的相似度作为这top-k个检索样本的权重。由于在第一阶段中,部分上下文的表示被编码到了话语表示中,因此我们利用第一阶段所得到的表示,来计算受上下文影响的文本相似度度量。

图片

类似地,我们将经验的影响加到了原始的话语表示上,进而获得了受经验影响的话语情感表示图片,并以其为基础构建了以经验为导向的prompt图片

图片

图片

Label Paraphrasing

最后,为了更加深入地理解标签语义之间的细微差别,以及更好地捕捉文本和标签之间的关联,我们执行了一个标签释义生成的辅助任务。我们通过使用标签名称,以及其在SentiWordNet3.0中对应的释义作为标签释义任务的生成目标。具体地说,给定一个label,我们首先将其转化为对应的形容词,然后结合其最常用的释义作为第二阶段训练的辅助生成目标。

最终,第二阶段的输入可以表示为:

图片

输出则分为两部分,分别用于情绪分类主任务,和标签释义生成辅助任务:

图片

最终分类loss和生成loss通过超参数图片进行加权:

图片

本文模型在推断时不需要利用到标签语义。

04

  实验结果  

本文在MELDIEMOCAPDailyDialog等三个常用数据集上进行了实验。本文将基线方法分为不使用外部常识和使用外部常识两大类。如表1所示,在MELDDailyDialog数据集上,本文可在不借助外部常识的情况下超过所有基线模型,对比一般不使用外部常识的模型,本文所提出的MPLP模型效果优势明显。在IEMOCAP数据集上,本文模型的效果也具有竞争力。

图片

此外,我们在各个数据集上进行了消融实验,证明了本文所提出的各个模块的有效性。可以看出,面向对话历史的prompt对于每个数据集都非常重要,而面向经验的prompt在多人对话数据集MELD和表述变化较少的IEMOCAP数据集上效果则更为明显,标签释义任务对于具有很多相近标签(如sadnessangerfrustrated)的IEMOCAP数据集效果更好。

图片

本文还进行了参数实验。结果表明,超参数k和均不宜过小或过大,以免不起作用或引入噪声。

图片

本文同样探索了不使用prompt,而使用传统的特征融合方式对于实验效果的影响。结果表明,不论是拼接还是相加,传统的特征融合方法其效果均不如基于prompt的方法。本文还发现不同的释义生成目标设计对于实验结果也会有所影响,尽管在MELDIEMOCAP数据集上,来自SentiWordNet中最常见的标签释义效果优于直接使用形容词,但在DailyDialog数据集上,使用简单的形容词效果则更优。在未来,标签释义的设计还可以针对各个数据集做不同的优化。

图片

图片

最后,本文通过Case Study分别展示了面向对话历史的提示、面向经验的提示、以及标签释义生成任务的有效性。在Case1中,我们的模型更加精确地在上下文中捕获了“neutral”相关的信息;在Case2中,我们的模型在对话历史缺失的情况下借助相似的样例做出了正确的判断;在Case3中,尽管在对话历史和相似样例中均没有和disgust相关的线索,我们的模型仍然借助“trash”和“disgust”标签语义的联系做出了正确的情绪识别。

图片

05

  总结  

本文指出了ERC领域现有工作对于人类思维过程建模不足的问题,并且提出了一个新的MPLP模型,该模型通过更加全面地模仿人类的思维过程对ERC任务进行建模。具体而言,MPLP模型通过面向历史的提示、面向经验的提示和标签释义机制模拟了这一过程,并分别加深了模型对于对话上下文、说话者背景和标签语义的理解。在三个主流数据集上的实验结果说明了本方法的有效性,证明了人类思维过程建模的必要性。消融研究等深入分析进一步证实了在我们的框架中使用提示和释义的重要性和有效性。


Baidu
map