腾讯 ARC 官网是腾讯 PCG 旗下的应用研究中心,致力于探索和挑战智能媒体前沿技术。团队汇聚了国内外一流高端人才,主要研究领域涵盖视觉、音频、自然语言处理等,通过 AutoML、多...
Video2Game是一项技术,可以将单一视频转换成具有实时、互动、真实感和浏览器兼容性的高质量虚拟环境。它通过构建大规模的NeRF模型来实现高质量的表面几何形状,然后将该模型转换为带有对应刚体动力学的网格表示,以支持交互。使用UV映射的神经纹理,既能表达丰富,又与游戏引擎兼容。最终得到的是一个虚拟环境,虚拟角色可以与之互动,响应用户控制,并能从新的相机视角实时提供高分辨率渲染。
Rope是一个以图形用户界面为重点的AI换脸工具。它实现了insightface inswapper_128模型,并提供了一个有用的图形界面。该工具特点包括闪电般的面部交换速度、图像升级器、相似度调整器、方向管理等。此外,Rope支持图像和视频的面部交换,并具有自动保存文件名生成、视频播放器的停靠/解除停靠、实时播放、特定帧的图像设置标记等功能。
DataDepot 是一个AI助力的研究平台,提供个性化的洞察和数据访问,帮助用户更轻松地发现并利用最重要的信息。
Evaluating Text-to-Visual Generation with Image-to-Text Generation提出了一种新的评估指标VQAScore,能够更好地评估复杂的文本到视觉生成效果,并引入了GenAI-Bench基准测试集。VQAScore基于CLIP-FlanT5模型,能够在文本到图像/视频/3D生成评估中取得最佳性能,是一种强大的替代CLIPScore的方案。GenAI-Bench则提供了包含丰富组合语义的实际场景测试文本,可用于全面评估生成模型的性能。
VLOGGER是一种从单张人物输入图像生成文本和音频驱动的讲话人类视频的方法,它建立在最近生成扩散模型的成功基础上。我们的方法包括1)一个随机的人类到3D运动扩散模型,以及2)一个新颖的基于扩散的架构,通过时间和空间控制增强文本到图像模型。这种方法能够生成长度可变的高质量视频,并且通过对人类面部和身体的高级表达方式轻松可控。与以前的工作不同,我们的方法不需要为每个人训练,也不依赖于人脸检测和裁剪,生成完整的图像(而不仅仅是面部或嘴唇),并考虑到正确合成交流人类所需的广泛场景(例如可见的躯干或多样性主体身份)。
Lobe是一个免费、易于使用的工具,帮助您训练自定义的机器学习模型,并在您的应用程序中使用。Lobe具备一切您需要将机器学习想法实现的功能。只需展示给它您想让它学习的示例,它就会自动训练一个定制的机器学习模型,可在您的应用程序中使用。