MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集。它包含1500个精心挑选的视觉语言样本,涵盖6个核心能力和18个细分维度。每个样本都经过了人工审查,确保具有视觉依赖性,最小化数据泄露,并需要高级多模态能力来解决。除了传统的准确性指标外,MMStar还提出了两个新的指标来衡量数据泄露和多模态训练的实际性能增益。研究人员可以使用MMStar评估视觉语言模型在多个任务上的多模态能力,并借助新的指标发现模型中存在的潜在问题。
数据统计
相关导航
暂无评论...