SPARC是一种用于图文对预训练的简单方法,旨在从图像-文本对中预训练更细粒度的多模态表示。它利用稀疏相似度度量和对图像块和语言标记进行分组,通过对比细粒度的序列损失和全局图像与文本嵌入之间的对比损失,学习同时编码全局和局部信息的表示。SPARC在粗粒度信息的图像级任务和细粒度信息的区域级任务上均表现出改进,包括分类、检索、目标检测和分割。此外,SPARC提高了模型的可信度和图像描述能力。