CVPR 2023 | 谷歌、MIT提出统一框架MAGE：表征学习 ...

顾庆元 · 发表于 2023-3-14 06:30:40

关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群

在一篇CVPR 2023论文中，来自 MIT 和谷歌的研究人员提出了一种全新的框架MAGE，同时在图像识别和生成两大任务上实现了 SOTA。

识别和生成是人工智能领域中的两大核心任务，如果能将二者合并到一个统一的系统中，这两个任务应该能实现互补。事实上，在自然语言处理中，像 BERT [1] 这样的模型不仅能够生成高质量的文本，还能够提取文本中的特征。

然而，在计算机视觉领域，目前的图像生成模型和识别模型大多是分开进行训练，没有充分利用这两个任务的协同作用。这主要是由于图像生成和图像识别的模型通常具有本质上的结构差异：图像生成的输入是低维度的特征或噪声，而输出是高维度的原始图像；与之相反，图像识别的输入是高维度的原始图像，而输出是低维度的特征。

最近，来自 MIT 和 Google Research 的研究人员提出了一种基于图像语义符掩码的表征学习方法，首次在一个统一的框架中实现了图像生成和表征学习，并在多个数据集上取得了 SOTA 表现。研究论文已被 CVPR 2023 接收，相关代码与预训练模型已开源。

论文地址：https://arxiv.org/abs/2211.09117
代码地址：https://github.com/LTH14/mage

在 CVPR 2022 上，MAE [2] 提出了一种基于图像掩码（MIM）的表征学习方法，并在多个子任务上取得了非常好的效果。在高达 75% 的掩码率下，MAE 可以重构出与原图语义十分贴合的图像，并借此让网络能够自监督地学习图像中的特征。然而，如图 1 所示， MAE 重建的图像虽然具有与原始图像相似的语义信息，但会出现严重的模糊与失真问题。类似的问题也出现在所有基于 MIM 的表征学习方法中。同时，目前的生成模型，不管是扩散模型还是 GAN，都缺乏提取高质量图像特征的能力。

图 1：MAE 与 MAGE 重构对比

方法概述

针对上述问题，本文作者提出了 MAGE（Masked Generative Encoder），首次实现了统一的图像生成和特征提取模型。与MIM直接作用于图像的掩码方法不同，MAGE 提出了基于图像语义符的 masked image token modeling 方法。如图所示，MAGE 首先使用 VQGAN [3] 编码器将原始图像转换为离散的语义符。之后，MAGE 对其进行随机掩码，并使用基于 transformer 的 encoder-decoder 结构对掩码进行重构，重构后的语义符可以通过 VQGAN 解码器生成原始图像。通过在训练中使用不同的掩码率，MAGE 可以同时进行生成模型（接近 100% 掩码率）和表征学习（50%-80% 掩码率）的训练。如图 1 所示，MAGE 重建出的图像不仅具有与原始图像一致的语义信息，还能够同时保证生成图像的多样性与真实性。

图 2：MAGE 结构图

实验结果

MAGE 在多个图像生成与图像识别任务上都达到或超过了 SOTA。

在 ImageNet 的无监督图像生成任务中，MAGE 的 FID 从之前的 > 20 降至 7.04，甚至达到了有监督图像生成的水准（有监督 Latent Diffusion 在 ImageNet 上的 FID 为 3.60）：

图3：MAGE 无监督图像生成样例

MAGE 还能够进行各类图像编辑工作，包括 image inpainting、outpainting、uncropping：

图 4：MAGE 图像编辑样例

在表征学习方面，MAGE 在 ImageNet linear probing、少样本学习、迁移学习等任务中，相较于目前的 MIM 方法有了大幅提升，并且可以达到或超过目前最优的自监督学习方法的水平。

结语

本文旨在将图像生成与表征学习统一起来。为此，本文作者提出了 MAGE，一种基于图像语义符掩码的自监督学习框架。该框架简洁、高效，并首次在图像生成和表征学习上都达到或超越了 SOTA 的表现。感兴趣的读者可以查看论文原文，以了解更多研究细节。

参考文献：
[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
[2] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar, and Ross Girshick. Masked autoencoders are scalable ´ vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16000– 16009, 2022.
[3] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 12873–12883, 2021.
往期回顾

基础知识
【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

最新论文解析
NeurIPS2022 Spotlight | TANGO：一种基于光照分解实现逼真稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！
CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！
ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！
ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！
MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

简迷离 · 发表于 2025-6-11 08:36:13

小白一个顶一下

天策大將軍 · 发表于 2025-8-19 19:35:13

鄙视楼下的顶帖没我快，哈哈

虎虎男孩 · 发表于 2025-12-26 08:22:30

学习下

静上月明泪 · 发表于 2025-12-26 21:39:21

前排顶，很好！

玲珑耳朵 · 发表于 2026-1-18 10:08:15

楼猪V5啊

壹矗垉芐厾 · 发表于 8 小时前

这么强,支持楼主，佩服

		自动登录	找回密码
密码			立即注册