当前位置:首页 > 业内新闻

论文速递丨CVPR 2023:基于双重不一致感知网络的讽刺检测

来源:情感计算Affective Computing发布时间:2023-07-04

 

题目:基于双重不一致感知网络的讽刺检测

会议:The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

作者:文长崧*,贾国力*,杨巨峰

单位:天津市媒体计算技术工程研究中心,南开大学计算机学院

代码链接:https://github.com/downdric/MSD

Demo链接https://exped1230.github.io/demo/sarcasm/sarcasm.html

论文链接

https://openaccess.thecvf.com/content/CVPR2023/html/Wen_DIP_Dual_Incongruity_Perceiving_Network_for_Sarcasm_Detection_CVPR_2023_paper.html

 

 

1引言

互联网隐式情感挖掘是当前研究的热点。其中,讽刺是一种典型的隐式情感,是用户表达与字面含义相反意见的方式。随着社交平台的发展,讽刺检测在产品评论分析、政治观点挖掘等领域的广泛应用吸引了越来越多的关注。基于深度学习的多模态讽刺检测虽然取得了一定进展,仍面临两个方面的挑战。首先,与关注于图文语义内容的多模态识别任务不同,讽刺检测旨在从多模态数据中发现用户隐含的潜在意图,增加了识别的难度。其次,在传统的多模态识别任务中,图像和文本表达互相匹配的一致信息,但具有讽刺意味的图文内容往往是矛盾的,这对模态间的融合和对齐带来了挑战。

对于隐式的讽刺表达,心理学家发现当图文表达的意义与观察到的事实相反时就会出现讽刺,并且用户的态度对于发现模糊的讽刺尤其有效。基于这些理论,本文利用图文的语义相似度和情感极性来验证讽刺数据集中的不一致性。具体的,本文计算了由CLIP输出的图文语义特征之间的相似度,并用1减去此相似度作为事实的不一致性值。在情感方面,我们使用在情感数据集FIIMDB上训练的网络对图文数据情感极性分别进行预测,计算其差值度量情感的不一致性。如图1所示,数据集中讽刺与非讽刺的数据在情感和事实层面的不一致性分布具有明显差异,是发现讽刺的重要线索。基于此,本文提出了一个双重感知网络,从事实和情感两方面建模讽刺数据中的不一致性来检测讽刺。针对第二个挑战,本文对编码器输出的特征进行隐式的对齐,避免显式的对齐方法破坏图文特征中关键的不一致性信息。

1:讽刺数据集的示例(左)及语义和情感层面不一致性的分布(右)

 

2相关工作

在已有的工作中,挖掘模态之间的关系以及设计更好的不同模态间的特征融合策略是多模态讽刺检测领域主要关注的问题。文献[1]分析了手工特征和深度表征的有效性,然后采用特征拼接的方式进行多模态讽刺检测。近年来,基于自注意力机制的模态融合成为了检测多模态讽刺时常用的方法。文献[2]注意到模态间不一致性的重要性,设计了基于Transformer的跨模态注意力的特征融合方法,让模型可以隐式地学习图像和文本之间的不一致性。文献[3]除了对图文模态进行隐式不一致性建模以外,还引入了形容词-名词对(Adjective-Noun Pairs, ANP)作为挖掘语义之间相关性的辅助手段。为了更加精细地利用每个实例中图像和文本之间的映射关系,近期的工作设计了基于图网络的特征交互模块。例如,文献[4]利用视觉问答工具提取图像中的多个目标框,获取细粒度的视觉特征,并分别构造模态内和跨模态的图网络来融合对应模态的信息。虽然图网络具有较强的特征交互融合能力,但隐式建模方法学到的不一致性相关知识是模糊的,在可解释性和可靠性方面仍有提升空间。

3本文方法

3.1 方法总览

本文提出了一个分别基于情感和语义不一致性的双重感知网络结构(Dual Incongruity Perceiving NetworkDIP),通过建模图文模态间的不一致性来进行多模态讽刺检测,其网络结构如图2所示:

2DIP网络结构图

输入一对由图像块p和单词w组成的图像和文本数据,首先使用ViTBERT作为图像和文本特征提取的骨干网络,获取图文特征。为了对齐图文相关的特征,本文使用基于相关矩阵的跨模态注意力模块实现模态之间的融合。首先在通道维度上通过矩阵乘法构造图文特征之间的关系矩阵,然后将矩阵通过卷积层,即

其中𝑇为转置,C𝑜𝑛𝑣由两个卷积层实现,𝑅值越大,表示图文之间的相关性强。对于视觉模态,本文对关系矩阵𝑅按文本单词的维度求和来生成视觉注意力向量,同理也生成文本注意力向量。将注意力向量通过sigmoid函数后与原特征相乘,得到融合对齐后的特征。以视觉模态为例,特征融合对齐可表示为:

显式的对齐方式通过损失函数使图像和文字的表征一致。然而,因为讽刺的检测基于模式之间的不一致性,较强的一致性约束损害了表征中潜在的不一致性。因此,本文采用上述跨模态注意力来隐式地发现图文对应区域。

3.2语义强化的高斯分布建模

将融合对齐后的图像和文本特征送入建模语义不一致性的模块。首先,本文引入了一个通道加权策略来增强与讽刺相关的表征。一些图像和文本区域虽然在语义上是相关的,但与讽刺对象无关,而事实的不一致性需要观察讽刺对象的相关特征。随着模型的训练,与讽刺有关的表征会逐渐被损失激活,这些特征在不同的实例中具有很大的差异,因此可以利用方差来表示特征与讽刺的相关程度。本文利用通道维度的加权来找到与讽刺最相关的特征,即:

其中,为增强后的图像块特征,为通道维度的方差,文本模态也使用相同的处理方法。

在获得增强的特征后,本文分别维护讽刺和非讽刺样本的相似性分布,并计算当前样本属于它们的概率。具体来说,本文在训练过程中计算并维护两个记忆队列,其中的分别表示图像和文本的[CLS]特征。对记忆队列内的图文特征计算余弦相似度,并采用高斯分布进行建模,两个高斯分布分别记为。最后,分别计算当前特征属于讽刺数据高斯分布与非讽刺数据高斯分布的概率差值作为语义不一致性因子的值。

3.3基于孪生网络的情感对比学习

在情感不一致性计算模块,由于数据集缺少准确的情感标注,本文藉由情感词典SenticNet引入情感信息。将隐式对齐后的文本特征输入到孪生网络层,预测每个单词的情感标签。该孪生网络层由一个用于提取情感特征的投影网络层和一个用于获取情感极性值的分类器组成,通过MSE计算文本情感损失:

其中的分别表示第i个单词预测的情感极性值和SenticNet提供的情感极性标签。由于图文特征已经在跨模态注意力模块中进行了隐式对齐,本文利用共享参数的投影网络层和分类器来处理图像特征。为了得到更好的情感表征,引入了连续对比学习的策略,构建连续的监督标签来获取情感极性的强度值。与语义不一致性模块相同,本文使用图像块和单词特征的平均值来获得视觉和文本的[CLS]。对于一个图文对,模态间较大的极性预测差异意味着特征也应该距离较远。因此,分别构建了对比学习预测值端的监督信号和图文表征端的特征关联图,对应表达式如下:

其中的为分类器预测的图像和文本的情感极性值,为通过分类器前的图文情感表征。最终的连续对比学习损失函数为:

本文利用视觉和文本之间的情感极性差异作为讽刺检测的情感不一致性因子在完成事实和情感的不一致性建模后,融合其特征以进行讽刺的预测。来自同一个方面的模态间特征通过点积进行融合,然后将语义和情感层面的表征拼接起来送入分类器得到。综合考虑事实和情感层面的不一致性值,获得最终的预测结果

在讽刺预测端,本文使用二分类交叉熵损失来进行学习:

 

4.实验结果

4.1与最新方法对比

本文在多模态讽刺检测数据集MSD上进行了验证,其实验结果如表1所示:

1:在MSD数据集上与先进方法进行对比

1)首先,DIP明显优于单模态的讽刺检测方法。利用多模态数据的互补信息,DIP与目前视觉模态和文本模态的先进方法相比,精度分别提高了21.76%5.74%。一方面,与仅使用图像数据相比,检测具有更丰富语义的文本相对更有效。另一方面,图像作为表达讽刺的重要内容,可以显著提高多模态讽刺检测的表现。与多模态的方法相比,DIP在三种骨干网络中的准确率分别提高了2.28%1.18%2.04%。(2)在二分精确率上,DIP方法比最优的CMGCN方法提高了4.13%。这一结果表明DIP特别擅长识别类别为讽刺的数据。此外,我们的宏平均指标也至少提高了1.44%,证明DIP对区分讽刺和非讽刺数据都是有效的。(3)此外,与之前隐式建模不一致性的方法HKE相比,DIP在准确度上提高了2%,并且在所有的指标上均取得提升。因此,本文提出的显式建模事实和情感不一致的方法对多模态讽刺的检测更加稳定有效。

4.2消融实验

 我们在使用VIT+BERT作为基线模型的基础上进行了消融实验,其结果如表2所示:

2DIP的消融实验

根据表2的实验结果,我们发现与基线模型相比,事实和情感不一致性模块均提高了讽刺检测的性能。其次,本文使用基于对讽刺和非讽刺数据进行高斯建模的事实不一致性因子取得了更高的准确度,我们提出的通道加权策略带来了提升。在连续对比学习损失的帮助下,二分F1值取得了明显的提升,证明了连续对比学习对于发现讽刺数据的有效性。最后,我们的模型结合了事实和语义的不一致性,取得了最好的结果,表明这两个部分是相互补充的。

 本文对不同的融合策略进行了对比,结果如表3所示。我们发现融合策略采用模态内点积、事实和语义层面特征拼接的方式优于其他策略。这是因为非线性表征的融合方法带来了更多的模态间交互,而特征的拼接保留了来自事实和情感特征各自的完整信息。

3:特征的不同融合方式

本文比较了显式对齐和隐式对齐时的讽刺检测性能,结果如表4所示。这里的显式对齐是通过使用和CLIP网络相同的对比损失来实现的。首先,使用显式对齐的方法让DIP的准确度下降了1.35%,并且在消融掉通道加权策略和事实不一致性因子的情况下都比隐式对齐效果更差,反映出直接让图文表征相似度一致对讽刺数据的内在不一致性具有负面的影响。另外,在没有通道加权的情况下,隐式对齐的准确率下降了1.52%,表明通道加权在模态融合后对讽刺特征具有明显的激活作用。同时,在预测结果中直接加上事实不一致性因子给DIP带来了1.31%的提升,表现出显式建模的有效性。

4:显式对齐与隐式对齐方法对比

为了评估DIP情感表征的有效性,本文分别在情感数据集FIIMDB上进行了实验来计算情感识别的准确率,结果如表5所示。为了尽量减少数据集偏差的影响,本文在两种情况下进行评估。一方面,我们在讽刺数据集上训练DIP,并在情感数据集上测试情感模块的性能。另一方面,我们在训练好的情感模型上预测讽刺数据的情感极性值作为标签,计算DIP的情感识别准确率。在两种设置下的实验结果均证明我们的方法学习到了情感相关的表征。

5DIP在情感数据集上的识别准确率

4.3可视化实验

3展示DIP模型的可视化结果。在图3a)中,跨模态注意力模块使网络聚焦于模式间的相关区域,例如图中的鸡蛋和吐司、队列和栅栏。如图3b)所示,在加入通道加权模块后,模型更加关注与讽刺最相关的鸡蛋和栅栏。图3c)中的前两个例子中存在明显的事实层面的不一致。例如温暖和干燥与图像中的雪是明显矛盾的,我们的网络也预测出了较大的不一致性值。类似的,后两个例子中绿色的情感词语与图像中传达的情感形成对比,我们的网络准确地发现了这样的情感不一致。图3d)展示了错误样例。有些讽刺的数据需要基于用户个人的背景知识,很难被网络正确识别,同时低质量图像和非英语的文本也可能导致错误的预测。因此,未来在网络中结合个人主观性的心理学知识以及训练多语言模型是MSD任务中进一步优化的方向。

3:可视化实验结果

5.工作总结

本文提出了从事实和情感层面对不一致性进行建模的双重感知模型DIP。在事实层面,设计了通道加权的策略,使模型关注讽刺相关区域,然后利用高斯分布对事实层面的不一致性进行建模。在情感分支中,利用孪生网络层来有效地引入情感信息,并进一步设计了连续对比学习来更好地获得情感极性的强度。在MSD数据集上的大量实验表明我们的方法与其他最先进的方法相比具有优越性。

6.参考文献:

[1]       Rossano Schifanella, Paloma De Juan, Joel Tetreault, and Liangliang Cao. Detecting sarcasm in multimodal social platforms. In ACM MM, 2016.

[2]       Hongliang Pan, Zheng Lin, Peng Fu, Yatao Qi, and Weiping Wang. Modeling intra and inter-modality incongruity for multi-modal sarcasm detection. In EMNLP, 2020.

[3]       Nan Xu, Zhixiong Zeng, and Wenji Mao. Reasoning with multimodal sarcastic tweets via modeling cross-modality contrast and semantic association. In ACL, 2020.

[4]       Bin Liang, Chenwei Lou, Xiang Li, Min Yang, Lin Gui, Yulan He, Wenjie Pei, and Ruifeng Xu. Multi-modal sarcasm detection via cross-modal graph convolutional network. In ACL, 2022.

7.作者简介

文长崧,南开大学计算机视觉实验室硕士研究生,研究方向为多模态学习和语义分割,第一作者发表1CVPRCCF A类)论文。

 

贾国力,南开大学计算机视觉实验室硕士研究生,研究方向为多模态情感计算。已发表高水平学术论文5篇,包括IEEE TPAMIIEEE Signal Processing MagazineCVPRECCVACM MM等,获得南开大学-韩国SK集团人工智能创新奖学金。研究成果应用于消费金融领域,并亮相2022年中国国际智能产业博览会。

 

杨巨峰,南开大学计算机学院教授、博士生导师,国家级青年人才、天津杰青、南开百青(A计划)。研究方向是计算机视觉、机器学习、多媒体计算,发表TPAMI/CVPR等高水平学术论文50余篇。任中国计算机学会计算机视觉专委会副秘书长,中国中文信息学会情感计算专委会常务委员、中国图象图形学学会情感计算与理解专委会常务委员、天津市媒体计算技术工程研究中心副主任,中国计算机视觉大会(CCCV 2017)组织委员会主席,视觉与学习青年学者研讨会(VALSE 2022Workshop主席。研究成果获第十届吴文俊人工智能自然科学二等奖。


Baidu
map