InstructVideo 是一种通过人类反馈用奖励微调来指导文本到视频的扩散模型的方法。它通过编辑的方式进行奖励微调,减少了微调成本,同时提高了微调效率。它使用已建立的图像奖励模型,通过分段稀疏采样和时间衰减奖励的方式提供奖励信号,显著提高了生成视频的视觉质量。InstructVideo 不仅能够提高生成视频的视觉质量,还能保持较强的泛化能力。欲了解更多信息,请访问官方网站。
GLEE 是一个针对图片和视频的通用对象基础模型,通过统一的框架实现了定位和识别图像和视频中的对象,并能应用于各种对象感知任务。GLEE 通过联合训练来自不同监督水平的各种数据源,形成通用的对象表示,在保持最先进性能的同时,能够有效地进行零样本迁移和泛化。它还具备良好的可扩展性和鲁棒性。