当前位置:首页 > 业内新闻

论文速递丨可解释性多模态情感推理

来源:情感计算Affective Computing发布时间:2023-07-13

1712125274051.jpg

Arxiv:可解释性多模态情感推理

论文链接:https://arxiv.org/abs/2306.15401

论文作者:连政1、孙立才1、徐名宇1、孙海洋1、徐珂1、温卓凡1、陈顺1、刘斌1、陶建华2

单位:1中国科学院自动化研究所,2清华大学


引 言

      多模态情感识别是人工智能领域的研究热点之一,其主要目标是整合多模态信息以识别人类的情感状态。当前工作通常假设基准数据集的情感标签是正确的,并关注于开发更有效的情感识别架构。然而,由于情感内在的主观性,不同的标注者可能会给同一个视频分配不同的标签。这种主观性很有可能导致现有数据集中存在标签模糊或者标注错误的问题,使得基于现有数据集开发的系统可靠性较低,难以满足实际应用需求。

针对上述问题,当前工作主要集中在增加标注者数量并使用多数投票来确定最相关或几个比较相关的情感标签。虽然这种方法提高了标注可靠性,但可能会忽略正确但非主导的情感标签,制约了现有模型描述微妙情感的能力。解决这个问题的关键在于提高标注结果的说服力,而不是简单的保留最相关或几个比较相关的情感标签。

在本文中,我们提出了一个名为“可解释性多模态情感推理(EMER)”的新任务。与以往主要关注情感预测的研究不同,EMER需要进一步解释这种预测行为背后的原因。推理过程的合理性将作为唯一的判别标准。只要推理过程合理,就认为预测的情感状态是正确的。本文介绍了我们在EMER上的初步工作,包括建立基准数据集、基准模型和评估指标。我们旨在解决长期存在的标签模糊性挑战,并建立更可靠的情感计算技术。此外,研究人员已经开始尝试将语言大模型扩展到多模态领域。然而,目前缺乏用于评估多模态大模型“音频-文本-视频”理解能力的基准数据集。EMER也可用于评估最近的多模态大模型。


数据集

     在该任务中,我们需要标注情感标签并提供标注依据。为了构建初始数据集,我们从大规模视频情感数据集MER2023中选择标注样本。由于标注成本较高,我们随机标注了100个带有非中性情感的样本,作为初始数据集。

我们招聘了六名标注人员。每个样本随机分配三名标注人员从以下四个方面标注情感以及情感依据:1)面部表情和身体动作;2)语气语调;3)文本内容;4)视频内容、环境等其他线索。然后,我们利用ChatGPT汇总多名标注人员的情感线索。最终,我们手动评估推理过程的合理性,并生成最终的情感描述。


评测

      由于多模态大模型能支持各种视频理解任务,我们利用多模态大模型对该任务进行评测,包括VideoChat、Video-ChatGPT、Video-LLaMA、PandaGPT和Valley。评测指标包括两种,一种是基于ChatGPT的自动评价结果,一种是人工评测结果。同时,我们对不同模型的预测结果进行了可视化(具体参见arxiv论文)。我们发现,现有模型的情感推理结果可靠度不足,相比于手工标注的情感推理结果还有很大差距。

1712125305099.jpg

未来,我们希望建立更有效的模型去解决这个任务。同时,我们将降低标注成本以扩大数据集规模。希望更多的研究人员可以参与到这个问题的研究中,提升情感识别系统的可靠度,促进情感计算的落地应用。


引用信息

Zheng Lian, Licai Sun, Mingyu Xu, Haiyang Sun, Ke Xu, Zhuofan Wen, Shun Chen, Bin Liu, Jianhua Tao. “Explainable Multimodal Emotion Reasoning”. arXiv preprint arXiv:2306.15401 (2023).


作者简介


1712125330591.jpg
连政,助理研究员,2021年于中科院自动化研究所模式识别与智能系统专业获得工学博士学位。2021年7月至今在中科院自动化所工作。研究方向为情感计算。


1712113975185.jpg
刘斌,副研究员,硕士生导师。2007年毕业于北京理工大学获得学士学位,2009年毕业于北京理工大学获得硕士学位,2015年于中科院自动化研究所模式识别与智能系统专业获得博士学位。2015年7月至今在中科院自动化所工作。研究方向为情感计算、音频处理等。


1712125400670.jpg

陶建华,清华大学长聘教授、博士生导师,国家杰出青年科学基金获得者,国家万人计划科技创新领军人才,享受国务院政府特殊津贴人员。完成多项国家和国际标准,论文和成果曾多次获国内外学术会议奖励。兼任中国计算机学会会士和常务理事、中国人工智能学会常务理事等职务。

Baidu
map