ImageBind - PROMPT

ImageBind是一种新的AI模型，能够同时绑定六种感官模态的数据，无需显式监督。通过识别这些模态之间的关系（图像和视频、音频、文本、深度、热成像和惯性测量单元（IMUs）），这一突破有助于推动AI发展，使机器能够更好地分析多种不同形式的信息。探索演示以了解ImageBind在图像、音频和文本模态上的能力。

数据统计

相关导航

UniVG

UniVG是一款统一多模态视频生成系统，能够处理多种视频生成任务，包括文本和图像模态。通过引入多条件交叉注意力和偏置高斯噪声，实现了高自由度和低自由度视频生成。在公共学术基准MSR-VTT上实现了最低的Fr'echet视频距离（FVD），超越了当前开源方法在人类评估上的表现，并与当前闭源方法Gen2不相上下。

LEO

LEO是一个基于大型语言模型的多模态、多任务全能代理人，能够在3D世界中感知、定位、推理、规划和执行任务。LEO通过两个阶段的训练实现：（i）3D视觉语言对齐和（ii）3D视觉语言动作指令调整。我们精心策划和生成了一个包含物体级和场景级多模态任务的大规模数据集，需要对3D世界进行深入的理解和交互。通过严格的实验，我们展示了LEO在3D字幕、问答、推理、导航和机器人操作等广泛任务中的出色表现。

MMStar

MMStar是一个旨在评估大型视觉语言模型多模态能力的基准测试集。它包含1500个精心挑选的视觉语言样本,涵盖6个核心能力和18个细分维度。每个样本都经过了人工审查,确保具有视觉依赖性,最小化数据泄露,并需要高级多模态能力来解决。除了传统的准确性指标外,MMStar还提出了两个新的指标来衡量数据泄露和多模态训练的实际性能增益。研究人员可以使用MMStar评估视觉语言模型在多个任务上的多模态能力,并借助新的指标发现模型中存在的潜在问题。