微软亚研院：Language Is Not All You Need

德兴爱老婆 · 发表于 2023-3-4 05:58:30

关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群

还记得这张把谷歌AI搞得团团转的经典梗图吗？

现在，微软亚研院的新AI可算是把它研究明白了。
拿着这张图问它图里有啥，它会回答：我看着像鸭子。
但如果你试图跟它battle，它就会改口：看上去更像兔子。并且还解释得条条是道：

图里有兔子耳朵。

是不是有点能看得懂图的ChatGPT内味儿了？
这个新AI名叫Kosmos-1，谐音Cosmos（宇宙）。AI如其名，本事确实不小：图文理解、文本生成、OCR、对话QA都不在话下。
甚至连瑞文智商测试题都hold住了。

而具备如此能力的关键，就写在论文的标题里：Language is not all you need。
多模态大语言模型

简单来说，Kosmos-1是一种把视觉和大语言模型结合起来的多模态大语言模型。
在感知图片、文字等不同模态输入的同时，Kosmos-1还能够根据人类给出的指令，以自回归的方式，学习上下文并生成回答。
研究人员表示，在多模态语料库上从头训练，不经过微调，这个AI就能在语言理解、生成、图像理解、OCR、多模态对话等多种任务上有出色表现。
比如甩出一张猫猫图，问它这照片好玩在哪里，Kosmos-1就能给你分析：猫猫戴上了一个微笑面具，看上去就像在笑。

又比如让它看一眼MSRA用来高效训练大模型的TorchScale工具包的主页，Kosmos-1也能快速get这个库是用来干啥的。

Kosmos-1还能理解图像上下文。发一张食物的照片给它，这个AI不仅能回答你这是什么，还能在你追问如何烹饪时，给出食谱和烹调小建议。

Kosmos-1的骨干网络，是一个基于Transformer的因果语言模型。Transformer解码器作为通用接口，用于多模态输入。
用于训练的数据来自多模态语料库，包括单模态数据（如文本）、跨模态配对数据（图像-文本对）和交错的多模态数据。
值得一提的是，虽说“Language is not all you need”，但为了让Kosmos-1更能读懂人类的指示，在训练时，研究人员还是专门对其进行了仅使用语言数据的指令调整。
具体而言，就是用（指令，输入，输出）格式的指令数据继续训练模型。
实验结果

研究人员在5大类共10个任务中，测试了Kosmos-1的效果，包括：

语言任务：语言理解、语言生成、无OCR文本分类
跨模态迁移：常识推理
非语言推理：IQ测试（瑞文递进矩阵）
感知-语言任务：图像说明、视觉QA、网页QA
视觉任务：零样本图像分类、带描述的零样本图像分类

从实验结果上来看，Kosmos-1基本都hold住了。
零样本图像说明：

零样本视觉QA：

无OCR文本理解：

研究人员还提到，Kosmos-1是第一个能完成零样本瑞文智商测试的AI。

不过，跟成年人类的平均水平相比，AI的“智商”还差得有点远。随机选择的正确率为17%，而Kosmos-1经过指令调教之后，准确率为26%。

研究人员认为：

但Kosmos-1证明了多模态大模型有潜力将感知和语言结合起来，进行零样本的非语言推理。

另外，研究人员还展示了Kosmos-1处理复杂问答和推理任务的过程。关键在于多模态思维链提示。
研究人员将感知-语言任务分解为两个步骤。第一步，给定一个图像，引导模型对图像进行分析。
第二步，把模型子集分析出来的结果再喂给它，并给出任务提示，以生成最后的答案。

这项新研究来自MSRA的韦福如团队。韦福如是微软亚洲研究院自然语言计算研究组主管研究员。
三位一作分别是Shaohan Huang、董力和Wenhui Wang。
论文地址：
https://arxiv.org/abs/2302.14045
往期回顾

基础知识
【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

最新论文解析
NeurIPS2022 Spotlight | TANGO：一种基于光照分解实现逼真稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务
NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！
CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！
ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络
如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！
ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！
MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

钉子 · 发表于 2025-6-6 22:32:00

我也是坐沙发的

姜呈全 · 发表于 2025-9-4 10:42:23

报告！别开枪，我就是路过来看看的。。。

		自动登录	找回密码
密码			立即注册

微软亚研院：Language Is Not All You Need

浏览过的版块