中国中文信息学会

当前位置：首页 > 业内新闻

论文速递 | SIGIR 2022 基于互解耦学习的联合细粒度情感分类和情感文本生成

来源：情感计算Affective Computing发布时间：2022-04-19

题目：Mutual Disentanglement Learning for Joint Fine-Grained Sentiment Classification and Controllable Text Generation

作者：费豪，李晨亮，姬东鸿，李霏

单位：武汉大学

会议：SIGIR 2022

工作概括：细粒度情感分类任务与情感生成任务互为对偶任务，两者的输入输出相互倒转，同时两者之间的情感特征可互相补充裨益。本研究基于对偶学习框架，将细粒度情感分类与情感生成任务进行了有机联合，并提出一个互解耦学习机制，以帮助对于情感特征的跨任务借鉴学习。

动机介绍 ✦

在情感计算社区中，细粒度情感分析课题一直以来受到了较多的研究热度。该课题的代表性任务主要包括：

细粒度情感分类任务(fine-grained sentiment classification, FGSC)，其旨在分析给定文本所含针对某项产品或服务等特定方面的情感态度。代表性应用主要包括：基于方面的情感分类（aspect-based sentiment classification, ABSC）和基于方面类别情感分类（aspect-category sentiment classification, ACSC）。
细粒度情感可控文本生成任务（fine-grained sentiment controllable text generation FGSG），其旨在根据给定的细粒度情感状态，生成带有指定的情感的本文。

尽管这两类任务当前已经取得了较大的研究进展，但大多数现有工作仅仅考虑如何分别对这两个任务进行处理。而实际上有广泛的应用场景需要联合执行这两个任务。例如，情感支持对话系统可以成为抑郁症的一种有用的辅助治疗手段，当聊天机器人识别出患者的细粒度情绪状态时，可以生成具有共情能力的对话内容。与此同时，从任务建模的角度来看，这两项任务亦有着密切的相关性。例如，它们以“对偶形式”出现，即FGSC的输入文本是 FGSG 应该生成的内容，而 FGSG 所输入的条件情感是 FGSC 应该预测的内容。此外，在特征学习方面这两项任务实际上起着相互补充的作用:

对于 FGSC，在给定文本输入的情况下，学习背景内容信息是相对更容易，但其往往很难精确地捕获到关键的情绪或观点线索。
对于 FGSG，在给定以情感状态作为输入下，模型可以较为容易地编码出与情感意见相关的特征表示，但其主要挑战在于如何生成丰富的内容，同时将情感特征融合到文本生成中。

总而言之，FGSC 和 FGSG 之间明显存在着一种自然的相互依赖关系：FGSC 可从 FGSG 中获得到细粒度情感或观点特征，而 FGSG 可以从FGSC中获得丰富的背景内容信息。

图1：本文研究目标：基于互解耦学习联合细粒度情感分类和情感文本生成建模

基于上述的观察，本文联合 FGSC 和 FGSG提出一个对偶学习系统，如图1所示。

首先，我们对这两个任务的对偶性进行显式建模，鼓励它们相互学习，促进整个联合学习的过程推向互利的方向。
接着，我们借助互解耦学习机制将FGSC任务和FGSG任务的特征表示分解为细粒度的面向方面的意见变量(aspect-oriented opinion variables)和内容变量(content variable)。
最后，我们观察到相比于情感分类任务，文本生成任务更加棘手，因为生成任务的输入是离散的特征（方面类别和情感极性），这使得所生成文本的流畅性、丰富性和正确性难以保证。因此，我们考虑构造代理输入文本（surrogate input text）来代替离散的方面和情感特征输入，将“数据到文本”的方式转换为“文本到文本”的生成方式。

对偶学习框架 ✦

我们介绍所提出的对偶学习框架，如图2所示。该框架包含一个主任务模型(primal task)，即FGSC，以及一个对偶任务模型(dual task)，即FGSG。

图2：对偶学习框架，左边部分为主任务FGSC，右边部分为对偶任务FGSG

2.1 主任务：FGSC

主任务模型负责将输入文本x映射到输出的细粒度情感类别y（fine-grained aspect categories& sentiment polarities）。本文主要考虑了基于方面类别情感分类（ACSC），即输出为y={y₁,y₂,…,y_k}, 其中，y_k表示第k个方面类别a_k所对应的情感极性。

我们直接利用了BERT作为FGSC的编码器学习文本表征H，并基于H通过自注意力机制创建一个显式的内容变量表征z^c_s。再生成k个面向方面的意见变量{z^c_k}。具体利用了重参技术，先采样得到k个独立的正态分布先验参数：

再基于此构建出k个隐变量：

在FGSC的解码端，我们采用多类别分类任务的结构进行情感极性预测：

2.2 对偶任务：FGSG

对偶任务模型负责将输入的细粒度情感类别y映射到输出文本x。我们考虑将“数据到文本”的方式转换为“文本到文本”的生成范式。具体如图2所示，我们创建一种自然语言来代替原始的情感类别输入。然后用一个“文本到文本”的框架来完成这个任务。与“数据到文本”的方案相比，“文本到文本”的方案要容易得多。因为，在“文本到文本”的生成方案中，我们可以充分利用端到端的大规模预训练语言模型（如BART）强大的文本生成能力。

此外，通过定义一些模板，例如“[方面]是[情感]”，“[方面]的意见是[情感]”，我们可以将输入的细粒度情感类别表示成自然语言。如表1所示，我们定义了一些模板用于创建代理自然语言，以重新表述方面类别和情感极性对。

表1：创建代理自然语言的模板

同时，我们还考虑将情感极性词表达丰富化，从而提升语言的多样性。我们主要使用一些同义词来扩大候选词集合。表2列出了本文所使用的若干候选情感词。

表2：候选情感词

当输入有不止一个方面-情感对时，我们将为每个方面-情感对创建一个代理文本。然后我们用连接词连接所有的代理文本。根据两个相邻子句之间是否存在情感转折现象，我们会添加不同的连接词。例如，对于不存在情感转折的情况，使用“and”或逗号，对于存在情感转折的情况，使用否定词“but”或“while”。最后用句点结束完整的文本。

我们采用 BART预训练语言模型作为FGSG的编码器-解码器主干。对于输入端，其总体过程与主任务模型中的学习编码过程类似，即生成k个显式的面向方面的意见变量{z^g_k}, 以及一个隐式的内容变量表征z^g_s。在解码端，基于自回归序列解码器一步步生成目标文本作为输出：

2.3 对偶性建模

首先，两个对偶任务有各自的学习目标：

与此同时，我们为联合这两个任务，设计联合对偶学习：

其目的是优化它们之间的概率对偶，即缩小它们的联合分布之间的差距：

互解耦学习机制 ✦

我们基于上述的对偶学习框架进一步对FGSC与FGSG进行互解耦学习。如图3所示，该框架主要包括三个模块：1) 显式特征重建，2) 内部任务变量分解，3) 跨任务表征交叉引用。

图3：互解耦学习机制示意图，包括1）显式特征重构（紫色）、内部任务变量分解（蓝色）、跨任务表征交叉引用（黄色）。左侧：FGSC；右侧：FGSG

3.1 显式特征重建

如前所述，我们为FGSC引入了一个显式内容变量表征z^c_s，该变量负责显式地建模丰富的背景上下文；为FGSG引入了k 个面向方面的显式观点变量{z^g_k}，这些变量用于捕捉细粒度的情感信息。为了使这些显式特征被充分挖掘，确保变量分解（decomposition）的最佳效果，从而间接增强对其余的隐变量的学习，我们提出基于这些显式变量对各任务模型的输入进行重构。具体而言：

对于FGSG中的显式意见变量z^g_k，我们将预测其对应的情感倾向：

对于FGSC中的显式内容变量表征z^c_s，我们则利用它去恢复整个输入文本序列:

3.2 内部任务变量分解

在该模块中，我们进一步分解FGSC中的变量z^C和FGSG中的变量z^G。我们主要采用变分推断来近似估计这些变量的后验分布(即𝑞(𝒁^𝑐 | 𝒙)和𝑞(𝒁^𝑔|𝒚))。这里，我们以FGSC过程举例。该过程可用如下数学公式表达：

上式中的KL项可以进一步分解为：

其中，第一项𝐼 (𝒙; 𝒁^𝑐)代表联合分布的互信息，第二项KL(𝑞(𝒁^𝑐)||𝑝(𝒁^𝑐))代表变量分解。FGSG过程采用相同的分解方式。

3.3 跨任务表征交叉引用

为了促进不同任务之间相应潜在特征变量的相互学习，我们提出了跨任务表征交叉引用机制，该机制也是互解耦学习框架的关键部分。该机制旨在强迫一个学生的隐式变量通过模仿其对应老师的显式变量，提高其自身的表征能力。为了实现这一目的，我们将最小化两个任务中所有变量对之间的不相似性。

这里以FGSC中面向方面的意见变量z^c_k模仿FGSG中的显式面向方面的意见变量z^g_k为例:

本文利用一个余弦距离函数来度量所有变量的不相似性：

3.4 整体训练策略

将上述所有学习目标放在一起，我们可以优化整体框架。但是用冷启动的方式同时训练所有部件可能会导致训练不稳定或次优收敛。因此，我们采取热启动训练策略，即首先用任务交叉熵损失分别预训练两个基本任务，一旦它们可以很好地收敛，我们将两个对偶任务联合起来同时训练。当模型的学习稳定下来后，我们将采用上述的对偶学习框架，并进行互解耦学习。下面的算法流程展示了训练策略：