Scaling Language-Free Visual Representation Learning
1、核心问题与研究目标
在视觉-语言多模态任务(如视觉问答VQA)中,纯视觉自监督学习(SSL)的性能为何一直落后于语言监督的CLIP模型?这一差距究竟源于语言监督带来的语义优势,还是两者训练数据的差异?如果我们控制训练数据变量,让视觉SSL和CLIP在完全相同的MetaCLIP数据上训练,并扩大模型规模,纯视觉方法能否弥合这一差距,甚至超越CLIP的表现?
2、前置知识
CLIP 对比学习
CLIP: Connecting text and images | OpenAI CLIP 是由 OpenAI 提出的多模态预训练模型,通过对比学习(Contrastive Learning)对齐图像和文本的表示。其核心假设是:匹配的图像-文本对应在特征空间中应彼此接近,不匹配的则远离
SSL 自监督
MAE(Masked Autoencoder) 和 SimCLR(Simple Contrastive Learning of Representations) 是两种流行的自监督学习框架,分别基于生成式和对比式方法,用于学习数据的通用表示。
--- [[2111.06377] Masked Autoencoders Are Scalable Vision Learners](https://arxiv.org/abs/2111.06377) arxiv.org/pdf/2002.05709
1. MAE(Masked Autoencoder)
- 核心思想:通过随机遮盖(mask)输入数据(如图像的部分像素或文本的token),训练模型重建被遮盖的部分,从而学习数据的潜在表示。
- 特点:
- 非对称结构:编码器(如ViT)处理带掩码的输入,轻量级解码器重建原始数据。
- 高效性:高掩码比例(如75%)迫使模型学习高级语义而非局部细节。
- 生成式方法:通过像素级重建任务(如MSE损失)驱动表征学习。
- 应用:计算机视觉(ViT架构)、自然语言处理(类似BERT的预训练)。
- 优势:适合数据稀缺场景,对遮挡鲁棒;但重建任务可能引入冗余细节。
- SimCLR(Simple Contrastive Learning)
- 核心思想:通过对比学习拉近同一样本的不同增强视图(如裁剪、颜色变换),推开不同样本的视图,从而学习不变特征。
- 特点:
- 对称结构:双分支网络(编码器+投影头),通过InfoNCE损失最大化正样本对的相似性。
- 数据增强:依赖强增强(如裁剪、颜色抖动)生成正样本对。
- 对比式方法:关注样本间的相对关系,而非像素级重建。
- 应用:图像分类、下游任务(如检测、分割)的预训练。
优势:对视角和外观变化鲁棒;但依赖大批量和负样本对,计算成本较高。
对比总结
特性 MAE SimCLR 学习范式 生成式(重建) 对比式(相似性) 目标函数 像素级重建损失(如MSE) 对比损失(如InfoNCE) 数据需求 可处理高掩码率,适合小批量 依赖大批量负样本 计算效率 解码器轻量,适合大规模预训练 需存储负样本,内存消耗较高 适用领域 图像、文本 图像、语音等模态
共同点:均无需人工标注,通过自监督学习通用表征,可迁移到下游任务。选择取决于具体场景:MAE适合生成式任务,SimCLR更适合区分性任务。
3、本论文解决的问题
这篇论文解决了视觉自监督学习(SSL)与多模态对比学习(如CLIP)在性能差距上的核心争议,并通过实验验证了一个关键结论:在相同数据规模和模型容量下,纯视觉SSL可以匹配语言监督的CLIP性能,从而挑战了“语言监督是CLIP优势的唯一原因”的传统假设。
这项工作研究了一个基本问题:预训练用于多模态建模的视觉表征是否需要语言监督?旨在理解大规模视觉自监督在多模态应用中的内在能力和局限性。
4、方法论
论文详细对图像自监督的Scaling做了分析,围绕五个问题证明了图像自监督也可以在在数据量增大的同时提升模型表示性能。
首先,论文分别在提升数据量和模型大小两个方便进行scaling,在对模型大小进行scaling的时候发现,随着模型大小的增大,SSL方法得到的模型准确率可以媲美CLIP模型

Note使用来自MC-2B的20亿张224×224分辨率的未标记图像,预训练了参数量从10亿到70亿不等的DINOv2 ViT模型。和使用文本对的CLIP模型。
同时在scaling data size的时候发现,随着数据量的增大,一般任务和视觉中心任务在超过20亿张图像后收益递减,而OCR和图表任务则持续改进,从而导致平均性能稳步提升。此外,Web-DINO在不同训练样本规模下始终优于同等规模(ViT-7B)的CLIP模型

同时论文回答了提出了五个问题进行了回答:
1、 Does the observed scaling behavior generalize to other visual SSL methods?
作者使用相同的数据集训练了MAE模型,发现有相同的scaling行为,这些结果表明,在VQA任务中观察到的“缩放行为”可以推广到不同的视觉SSL方法。
2、Does visual SSL exhibit similar scaling behavior on smaller scale conventional data, such as ImageNet?
在 ImageNet-1k 上预训练的模型在所有指标上的性能都始终较差。此外,与在 MC-2B 上训练的模型不同,在 ImageNet-1k 上训练的模型并没有随着模型规模的增大而改进。这突出了在更多样化和更大的数据集上进行视觉自监督学习的重要性。这与最近的发现相呼应,即增加数据集的大小和多样性可以推动大型语言模型的扩展
3、How do scaled models perform on classic vision tasks?
论文观察到,与视觉问答 (VQA) 相比,经典视觉任务中的尺度行为不太明显,说明需要多样化挑战性的数据集在视觉SSL才可以观察到比较好的scaling behavior。
4、Why does web-scale data improve OCR & Chart performance?
作者发现,随着数据集的size set 增大,视觉SSL模型对OCR和Chart的表现也有比较大的提升 甚至超越超越了有language 监督的Clip模型,作者详细对这种现象进行了实验,
Notetwo curated datasets: (i) Light filter: retains 50.3% of Web-DINO and contains images with any textual content. (ii) Heavy filter: retains 1.3% of MC-2B and contains images with charts, tables, or documents.

这些结果表明,在包含更多文本的图像上训练的自监督视觉模型,无需语言监督即可发展出高质量的文本理解能力。这表明数据构成——而非单纯的规模或语言监督——对于发展强大的OCR和图表理解能力至关重要。
虽然OCR和图表数据倾斜有利于提升OCR和图表功能并不令人意外,但简单的过滤数据就能胜过对完整数据进行语言监督,这倒是令人吃惊。
5、Why can SSL learn strong visual representations for multimodal modeling, without language supervision?
论文假设,随着模型规模和所见示例的增加,SSL 模型学习到的特征会越来越与语言对齐。 通过计算视觉编码器和语言模型之间的匹配度量来评估内在表征对齐,使用来自维基百科字幕数据集的图像-文本对。我们使用现成的 DINOv2 和 Web-DINO 作为视觉编码器,以及现成的 Llama-3.1 8B 和 70B (Touvron 等人,2023) 作为语言模型,无需任何视觉指令微调或对齐过程。

这些发现表明,随着模型规模,特别是训练样本规模的扩大,视觉模型会自然地发展出对文本敏感的特征,并在无需显式语言监督的情况下,与大型语言模型和多模态任务实现高度一致。
5、结论
使用无监督、无需语言标注的大规模视觉编码器能够为多模态模型产生高质量的视觉特征。并表明减少监督——包括语言监督——仍然是推动计算机视觉领域发展的一个有前景的方向。我们希望我们的工作能够激发对纯视觉方法的进一步探索,这将有助于构建下一代视觉模型,使其在传统的视觉任务和现代多模态能力方面都表现出色。