CoTracker - PROMPT

CoTracker是一个基于Transformer的模型,可以在视频序列中联合跟踪稠密点。它与大多数现有的状态最先进的方法不同,后者独立跟踪点,而忽略了它们之间的相关性。我们展示了联合跟踪可以显著提高跟踪精度和鲁棒性。我们还提供了若干技术创新,包括虚拟轨迹的概念,这使CoTracker可以联合跟踪7万个点。此外,CoTracker因果地操作在短时间窗口上(因此适合在线任务),但通过在更长的视频序列上展开窗口进行训练,这使并显著改进了长期跟踪。我们展示了定性印象深刻的跟踪结果,其中点甚至在遮挡或离开视野时也可以跟踪很长时间。从定量上看,CoTracker在标准基准测试上优于所有最近的跟踪器,通常优势显著。

数据统计

相关导航

StarCoder2

StarCoder2是一个1500亿参数的Transformer模型,在包括GitHub在内的600多种编程语言数据集上进行了预训练,使用了Grouped Query Attention等技术。该模型可用于代码生成任务,支持多种编程语言。

FiT

FiT是一个基于transformer的无限制分辨率和纵横比的图像生成模型。它能够生成任意分辨率和纵横比的图片。FiT的优势在于能够进行无限制分辨率的外推生成,展现了卓越的分辨率拓展生成能力。FiT使用了transformer作为主要架构,并在ImageNet数据集上进行预训练。

InternLM2

「书生·浦语2.0」InternLM2是一个面向中文和英文的大型多语言预训练语言模型。它具有语言理解、自然语言生成、多模式推理、代码理解等强大的能力。模型采用Transformer架构并进行海量数据的预训练,在长文本理解、对话、数学运算等多个方向上都达到了业界领先水平。该系列模型包含多种规模,用户可以选择合适的模型进行下游任务微调或构建聊天机器人等应用。

Gemma-2b

Gemma-2b是谷歌推出的开源预训练语言模型系列,提供了多个不同规模的变体。它可以生成高质量的文本,广泛应用于问答、摘要、推理等领域。相比其他同类模型,它模型规模较小,可以部署在不同的硬件环境中。Gemma系列追求安全、高效的人工智能技术,使更多研究者和开发者可以接触前沿的语言模型技术。

Understanding Video Transformers

这篇论文研究了视频Transformer表示的概念解释问题。具体而言，我们试图解释基于高级时空概念的视频Transformer的决策过程，这些概念是自动发现的。以往关于基于概念的可解释性的研究仅集中在图像级任务上。相比之下，视频模型处理了额外的时间维度，增加了复杂性，并在识别随时间变化的动态概念方面提出了挑战。在这项工作中，我们通过引入第一个视频Transformer概念发现（VTCD）算法系统地解决了这些挑战。为此，我们提出了一种有效的无监督视频Transformer表示单元（概念）识别方法，并对它们在模型输出中的重要性进行排名。所得的概念具有很高的可解释性，揭示了非结构化视频模型中的时空推理机制和以对象为中心的表示。通过在多样的监督和自监督表示上联合进行这种分析，我们发现其中一些机制在视频Transformer中是普遍的。最后，我们证明VTCD可以用于改善精细任务的模型性能。

VideoPrism

VideoPrism是一个通用的视频编码模型,能够在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含3600万高质量的视频-文本对,以及5.82亿带有嘈杂文本的视频剪辑。预训练采用两阶段策略,先利用对比学习匹配视频和文本,然后预测遮蔽的视频块,充分利用不同的监督信号。一个固定的VideoPrism模型可以直接适配到下游任务,并在30个视频理解基准上刷新状态最优成绩。

暂无评论

暂无评论...

CoTracker翻译站点

数据统计

相关导航

暂无评论

热门网址

热门标签