SPRIGHT是一个专注于空间关系的大规模视觉语言数据集和模型。它通过重新描述600万张图像构建了SPRIGHT数据集,显著增加了描述中的空间短语。该模型在444张包含大量物体的图像上进行微调训练,从而优化生成具有空间关系的图像。SPRIGHT在多个基准测试中实现了空间一致性的最新水平,同时提高了图像质量评分。