VLOGGER - PROMPT

VLOGGER是一种从单张人物输入图像生成文本和音频驱动的讲话人类视频的方法，它建立在最近生成扩散模型的成功基础上。我们的方法包括1)一个随机的人类到3D运动扩散模型，以及2)一个新颖的基于扩散的架构，通过时间和空间控制增强文本到图像模型。这种方法能够生成长度可变的高质量视频，并且通过对人类面部和身体的高级表达方式轻松可控。与以前的工作不同，我们的方法不需要为每个人训练，也不依赖于人脸检测和裁剪，生成完整的图像（而不仅仅是面部或嘴唇），并考虑到正确合成交流人类所需的广泛场景（例如可见的躯干或多样性主体身份）。

数据统计

相关导航

Image/Manga Translator

该项目可以将漫画/图片中的文字进行翻译,主要功能包括文本检测、光学字符识别(OCR)、机器翻译和图像修补。它支持多种语言如日语、中文、英语和韩语等,可实现近乎完美的翻译效果。该项目主要面向漫画爱好者和图像处理工作者,可以方便地阅读外语漫画或进行图像的多语言处理。此外,它还提供Web服务、在线演示和命令行工具等多种使用方式,具有良好的可用性。该项目代码开源,欢迎大家一起完善和贡献。

ObjectDrop

ObjectDrop是一种监督方法,旨在实现照片级真实的物体删除和插入。它利用了一个计数事实数据集和自助监督技术。主要功能是可以从图像中移除物体及其对场景产生的影响(如遮挡、阴影和反射),也能够将物体以极其逼真的方式插入图像。它通过在一个小型的专门捕获的数据集上微调扩散模型来实现物体删除,而对于物体插入,它采用自助监督方式利用删除模型合成大规模的计数事实数据集,在此数据集上训练后再微调到真实数据集,从而获得高质量的插入模型。相比之前的方法,ObjectDrop在物体删除和插入的真实性上有了显著提升。

Runway gen2

Gen-2是一款多模态人工智能系统，可以根据文字、图片或视频剪辑生成新颖的视频。它可以通过将图像或文字提示的构图和风格应用于源视频的结构（Video to Video），或者仅使用文字（Text to Video）来实现。就像拍摄了全新的内容，而实际上并没有拍摄任何东西。Gen-2提供了多种模式，可以将任何图像、视频剪辑或文字提示转化为引人注目的影片作品。

Listnr AI

Listnr AI是一款由AI驱动的语音和视频生成工具。它提供900多种语音和142种语言选择，可以生成逼真的语音和视频内容。用户可以免费开始使用，并在需要时选择付费计划。Listnr AI适用于各种场景，包括生成视频、创建语音广告、制作音频文章、播客制作等。它提供透明的定价，用户可以根据自己的需求选择合适的付费计划。