【Vision + X】多模态学习综述论文阅读

文章链接：Vision + X: A Survey on Multimodal Learning in the Light of Data

这篇综述文章综合分析了多模态机器学习的相关技术与不同模态数据的内在性质，并介绍了一些数据模态组合分类的方法。

Abstract

人类以多感官感知世界并与之交互，自然界不同模态的信息源由人脑的不同部分处理与解释，构成复杂而和谐统一的传感系统。
为了赋予机器真正的智能，结合来自不同来源数据的多模态学习成为日益流行的研究领域。

Introduction

我们通过多感官人类系统感知世界并进行交流，不同模态的信息用人脑的不同区域处理，形成具体的功能。
人类神经处理中的专业划分突出了不哦那个模态之间的独特和共享特征。

AI 研究进入以协作方式研究多个传感系统相互作用的时代多模态机器学习热潮。

调查内容：

研究技术发展。
阐释数据特征。
考察技术设计逻辑与数据性质关系。

本文以视觉模态为中心，对音频、文本等模态分别分析了数据特征。然后，本文讨论了多模态表示学习，具体考虑监督、无监督学习设置。
然后，本文研究深度学习的下游应用方面，分别讨论多模态机器学习的判别式应用和生成式应用。
最后，本文展望未来的挑战与可能的研究方向，并对全文内容进行总结。

Data

Vision

视觉数据：图像、视频。

人类感官系统和计算机视觉研究的主要信息源，原始数据。

挑战：连续空间和时间冗余。

Images.

特征：对变换的固有不变性，视觉特征可提取。

特征提取手段的发展：

机器学习手动特征提取 + 分析管道深度神经网络。

任务场景：图像分类，目标检测与分割，生成式任务。

Vidios.

特征，在时间维度上封装信息。

深度特征提取手段面临的限制：

神经网络可以对单个帧进行编码表示，但提取视频需要解决时间相关帧的链接问题。

ex. 2D 卷积 3D 卷积。

任务场景：视频分类（动作识别）和分割，直接合成视频。

Audio

音频数据：语音，音乐，环境声音。

每一种音频数据都在各种多模态任务应用中具有相关性和适用性，同时，音频数据具有多样性。

可以直接从环境捕获，原始数据。

音频信号在时间维度上具有固有连续性。

Music.

特点：强调情感和场景，而不是故事世界的一部分。

音乐音频波形的高纬度带来数据处理困难开发音乐数据表示形式。

分类：非基于学习（non learning-based）& 基于学习（learning-based）

划分标准：数据表示是否通过深度学习技术获得。

非基于学习

连续表示（原始数据）：波形图，频谱图。

离散表示：1D钢琴滚动（稀疏数据表示格式），2D MIDI钢琴滚曲（具有乐器类型的钢琴滚曲表示）。

离散表示可通过预定义的音乐合成器解编码回原始空间。

基于学习

基于学习的离散表示：矢量量化（VQ），将高维数据降维到离散 token 空间。

采用神经网络将原始音频信号编码为所需要维度的嵌入特征。

需要考虑的特征：序列数据的时间连贯性，频率特征，节奏。

Speech.

口语的音频信号，与自然语言有内在对应关系。

语音音频的离散表示与语言标记表示，离散语言标记驱动的语音表示格式统一化。

语音分离：复合音频混合中分离出单个语音轨道。

自动语音识别：口语转文本。

由于语音和语言的内在对应关系，应用多语言翻译 or 语音-语言跨模态翻译 or 多模态生成。

Ambient sound.

伴随事件的声音，一般与视频绑定出现，表征特定动作或事件。利用音频模态对视频分类任务提供额外的模态信息。

性质：嘈杂，难处理，模糊性。

Text.

有大量人类知识，不能算作原始数据。

特征：存在语言差异，但具有高度统一格式与精确语义，结构紧凑。

大多数 NLP 任务的问题表示在“下一词预测”的概念下统一。

Captions.

字幕提供句子描述，总结视觉和文本相关多模态作品的视觉内容。

表示方式：词袋。

深度特征提取：LSTM。

Dialogue.

具有固有交互性，涉及参与者间的逻辑连贯性对话，不是对视觉内容的单方面表述。

注意点：语义信息 + 句子间相关性 + 逻辑连贯性。

Question and Answer.

被用于视觉语言任务中，作为研究网络视觉推理能力或评估特定任务性能的一种方法。

使用问答推理视觉上下文，通常与对话密切相关。

ASR and OCR Text.

自动语音识别 + 光学字符识别。

Other Modalities

Graph. 通过节点和边对关系信息进行结构化表示，捕捉元素之间的连接和交互关系。

Optical Flow. 测量表征观察者和场景之间的相对运动引起的视觉场景中物体的运动。光流可以被认为是从视觉信息显式导出的特定运动表示。

Point Clouds and Meshes. 3D数据，提供空间和结构信息，丰富我们对物理环境的理解。

Multimodal Presentation learning

多模态表示学习发展：传统监督方法大规模预训练。

为了克服数据标注的昂贵瓶颈，多模态表示学习研究趋势转向“非监督”设置。

多模态环境下表示学习的主要研究目标是从多个模态中学习对应数据表示之间的有效和判别映射。

Network Architectures

Convolutional Neural Networks (CNNs). 通过由卷积层和激活函数组成的复函数从原始数据中提取高级数据表示。

利用多类交叉熵损失进行分类任务：

Recurrent Neural Networks (RNNs).

学习自然语言数据表示的一个具体要求是考虑其与单词顺序的时间相关性，利用 RNNs 和 LSTM 解决。

Transformers.

自注意力机制，序列数据长距离依赖建模。

允许并行计算，高效率，已经拓展到多个模态（文本、视觉、音频）的数据处理应用。

数据表示学习是研究管道的上游课题，多模态表示学习方法的具体评估通常依赖于具体的下游任务。

Supervised Learning

监督设置需要多模态源的注释来指导学习过程，这也是最经典的表示学习设置。

参与建模的各模态数据在从各自的特征空间中获得数据表示后建立映射。

个体模态域表征学习 + 模态间映射

方法：

在第一特征提取阶段使用固定的骨干模型。
以端到端的方式学习给定数据对的统一表示。

Non-supervised Learning

非监督学习分类：

无监督：没有人类监督的网络训练（无数据标注）
弱监督：监督信号可能嘈杂、有限、不精确。
自监督：模型训练自己从输入的另一部分学习输入的一部分。

基本思想：依赖于来自多种模态的成对数据之间存在同步性质的前提。

将大规模预训练视为特定类型的多模态表示学习，因为预训练的主要目标是学习一个联合和统一的跨模态表示，可以灵活地转移到其他领域或下游任务。

流行预训练方法：

基于对比学习的方法：CLIP。
基于掩码重建的方法：GPT。

这些预训练工作的一个共同点是，所提出的模型使用大量计算资源使用大量数据进行训练。

Trend in Representation Learning.

使用新兴的基础模型来扩展数据表示学习。

未来的研究需要关注具有更多边缘情况和复杂数据格式的真实场景，以实现安全和负责任的部署。

Discriminative Applications

判别任务应用程序的多模态学习工作: Vision + X.

不同模态的数据首先用各自的网络分支进行处理，然后在输出不同任务的最终结果之前，由额外的相互模块进一步执行模态间学习。

Vision + Audio

Audio-Visual Event Localization (AVEL).

def AVE（视听事件）: 在视频片段中既可听又可见的事件。

任务目标：使用环境音频数据进行动作识别，以及在监督或弱监督设置下进行时间定位的要求。

常见方法：通过不同的注意力模块实现跨模态交互。

评估：预测精度。

Audio-Visual Video Parsing (AVVP).

任务目标：将视频解析为时间段，并将其标记为可听、可视或两者兼有（识别）。

寻求学习一种有效的视听功能作为基础，然后结合进一步改进的技术设计来满足特定的任务要求。

Visual Sound Source Localization (VSSL).

任务目标：旨在在给定声音的情况下定位图像中对应的视觉位置，学习成对的音频和视觉数据之间的相关性。

常见方法：整个管道通常由用于视觉和音频输入的单独编码器组成，然后融合视听信息，以便在训练期间学习定位模块。

评估：cIoU（完整IOU）和AUC（ROC曲线下面积）评分。

Vision + Text

Visual Grounding.

任务目标：判别式视觉语言任务，在给定文本描述作为输入的图像中定位对象，也被称为为“引用表达理解”。

子目标：

措辞：定位给定文本中提到的所有对象。
落地：在图像中分别检测其对应的框。

常见方法：一阶段 or 两阶段框架。

对于两阶段框架：

提取图像中潜在对象的区域建议。
排名并将建议与语言短语匹配。
视觉对象和文本短语在学习过程中对齐和连接，以避免冗余区域建议。

Temporal Activity Localization (TAL).

任务目标：在给定某个活动的语言描述作为查询的情况下定位视频片段的时间段。

要求：沿时间方向进行额外的推理和匹配。

Visual Entailment (VE).

任务目标：预测一段文本与图像的逻辑关系。

任务重点：网络的多模态推理能力。

常见方法：早期采用单独的网络分支来处理视觉和文本数据，并利用注意力进行交互。改进框架进一步将文本假设分解为其组成部分，通过分解的文本成分引入抽象意义表示（AMR）图来增强推理。

评估：预测精度。

Spatio-Temporal Video Grounding (STVG).

任务目标：给定一个未修剪的视频和一个对象的文本描述，该任务试图为所描述的目标对象定位一个时空管（即一系列边界框）。

常见方法：采用两阶段设计，利用预先提取的对象建议，然后通过注意力机制整合时间定位。

评估：比较 Ground Truth 和预测时间戳之间的帧重叠来评估 IoU 度量。

Vision + Audio + Text

Multimodal Retrieval.

任务目标：多模态检索，从不同数据模态中检索与输入匹配的内容。

常见方法：通过测量不同模态的学习表示之间的相似性来对表示空间进行操作。

Audio-Visual Question Answering.

任务目标：基于集成音频模态的视觉问答的扩展，涉及有关视频中不同视觉对象、声音及其关联的问题。

常见方法：从 VQA 框架扩展而来，具有额外的交互。

ex. 将双分支编码器设计扩展为三个分支，并在通过注意力机制引入交互之前分别处理视频、音频和文本数据。

评估：答案预测准确性。

Generative Applications

跨模态生成任务：涉及从特定模态或多种模式生成数据作为输入。

跨模态生成任务中，合成数据的两种高级方法：

从给定的数据库中检索一个项目（基于检索的生成任务技术上归纳为表征学习，不做讨论）。
通过神经网络直接合成和解码数据。

Gererative Networks

介绍三种生成骨干网络的模型。由于我读这篇文章的目的是了解多模态领域大致的动态和任务，故只作简要介绍，而不仔细展开。

VAE-Based Models.

变分自动编码器是无监督学习设置下基于深度神经自动编码器提出的经典生成模型。

核心思想：经过有效训练的编码器应该以一种可以解码编码表示以重建解码器输入的原始数据。

GAN-Based Models

生成对抗网络，两个 agent（生成器 G 和鉴别器 D）进行对抗性游戏。

生成器旨在合成和真实数据相似的数据，鉴别器的目标是将 G 合成的数据和真实数据区分开。

用于无监督 / 弱监督环境。

DPM-Based Models

概率扩散模型（DPM）包括两个相反方向的有限步骤的马尔可夫链。

前向，也称为“扩散”过程，旨在在每个扩散步骤中逐渐向给定数据添加噪声，而逆去噪过程旨在去除前向步骤中添加的噪声并从非信息噪声分布中恢复实际数据。

生成任务的评价

在多模态设置中对合成数据的评估考虑了单峰和多模态标准。单峰度量不仅用于多模态场景，还用于一般的生成任务，如图像生成中的保真度。除了一般质量外，多模态生成还考虑了跨模态对应，例如视频和音乐之间的节拍对应。

Vision + Audio

Music Generation from Vision.

任务目标：从视觉数据（视频）中生成音乐。

方法：符号音乐表示，通过预定义的合成器解码回原始音频波形，该合成器没有引入额外的噪声，从而持久化生成的音乐的高质量。

基于符号表示的作品的计算成本通常低于纯基于学习的方法，但在在音乐多样性和灵活性方面受到限制。

大多数基于交叉熵损失形式的地面实况 MIDI 注释进行训练的。

Speech Generation from Videos.

任务目标：从人类说话的视频中合成音频。

说话很大程度上依赖于说话时嘴唇的运动专注于从视频输入中读取和解释视觉嘴唇运动，然后将其转换为音频波形。

尽管以视频音频生成为主题，但这一领域大部分作品都更关注视频中的动作，而非原始视频。

Ambient Sound Generation from Videos.

任务目标：寻求从自然视频中生成声音。

任务需求：数据对齐 – 生成的声音与视觉背景之间的对齐，这包括语义和时间对齐。

Visual Generation from Sound.

任务目标：仅从音频模态直接生成像素级的自然图像或视频。

ex. 从语音音频合成说话人面孔。

与 Speech Generation 相同，强调视频片段中嘴唇的运动。

Vision + Text

Dialog Generation from Vision.

任务目标：旨在生成给定视觉数据的语言文本描述。

常用方法：编码器-解码器框架流水线 + 注意力机制。

Dialog Generation from Vision.

任务目标：侧重于对话文本，而不是简单的描述。分为视觉问答和视觉对话。

视觉问答：回答与视觉输入相关的单个问题。
视觉对话：希望通过内部逻辑保持多轮问答交互。

Image Synthesis from Text.

任务目标：寻求从给定的文本条件生成图像数据的反向。

难点：觉数据通常在上下文中更丰富，对像素级合成的要求很高。

Text-Guided Image Editing.

任务目标：基于文本提示对给定的原始图像进行编辑。实现目标编辑效果，并保留给定图像的剩余特征。

Video Synthesis from Text.

任务目标：根据文本信息生成视频。

难点：视频通常由多个在时间和空间上相关的连续帧组成，此外还有单个视觉帧的像素级计算扩展合成。

Further Discussion

Insights from Data and Methodology Design

本文从数据的角度理解多模态学学习。

从两个方面审视数据性质和方法设计的相关性。

数据模态的语义
数据模态的格式

NLP

文本数据的高度处理性质及其一致的问题表述为大规模基础模型的开发铺平了道路。

面临着不同的挑战。视觉数据作为原始信息源，需要广泛的表示学习和特定的下游应用阶段来获得有效和经过处理的视觉表示。视觉数据的复杂性和视觉任务的多样性使得开发一个可以全面应用的统一基础模型变得更加具有挑战性。

方案：探索新的表征学习技术和特定任务的方法，以解决视觉数据的复杂性，并在复杂的视觉任务中实现最先进的性能。

Audio

研究人员正在根据特定的音频类型和特定的任务要求跟踪 NLP & CV 的发展。

Future Directions and Challenge

现有的工作大多数遵循通用的流水线，该流水线包含单独的数据编码器、跨模态注意力特征融合，以及为各种任务目标设计的解码器模块。难以推陈出新。

需求：

研究界正在寻求建立一个统一而通用的模型，可以有效地学习所有感兴趣的模式的表示。
随着对我们日常生活中更细粒度的详细应用的需求不断增加，我们还希望开发和实现更具体和更精心设计的任务更好的性能。

可能的未来方向：

人工干预最终的多模态感知人工智能系统。多模态学习的最终目标是将人类智能带给机器，因此人类干预可能是指导这一快速发展领域总体研究方向的关键部分。让人类对跨模态生成和几个下游任务提供更多的控制。

Conclusions

本文从数据特征的独特角度对多模态学习领域进行了调查。主要分析视觉、音频和文本的不同数据模式的内在性质。

接着，本文介绍多模态表示学习，主要通过其学习设置进行分类。

之后，本文从判别和生成性质中引入了具体的任务应用，每个应用都以“Vision + X”的形式构造成具有特定数据组合的子类。

对于判别任务，在呈现特定任务工作后，提供分析来弥合现有技术设计及其与不同模式的数据性质的联系。

对于生成任务，本文在深入研究详细的任务解释之前引入了流行的生成主干模型。

最后，本文根据多模态学习领域的挑战和未来方向提供讨论。

我的总结

我对多模态学习的兴趣源自主题为 AGI 的一场专家讲座，我深受人工智能大一统理论的吸引，并立志在探索这个大一统理论的过程中作出自己的贡献。

人工智能的大一统理论旨在建立一个统一的智能算法框架，使其能够通用的解决所有人类任务。既然人类以多感官感知世界并与之交互，如果这样的算法存在，那么它一定是多模态的。我相信：发展多模态学习是通向 AGI 的必经之路。

以上只是我个人的一些琐碎小事，乘着读这篇多模态综述的机会记录一下。

回归正题，这篇文章介绍了常见模态信息的内在性质和存在形式，并以不同的模态融合作为分类标准介绍了当前多模态机器学习领域的常见方向及应用，是一篇很好的多模态学习入门文章，通过这篇文章，我大概了解了目前多模态学习的发展情况和应用情况，为日后开展对具体应用领域的论文阅读奠定了良好基础。