NVAS3d是一个用于估计包含多个未知声源的场景中任何位置的声音的项目,通过使用多个麦克风的音频录音和场景的3D几何和材料,实现了新视角声学合成。
ToneShift是一个使用AI技术的音调转换、音乐分离和声音克隆工具。它可以将录音转换为多种声音,用于配音、播客和视频游戏等多种用途。ToneShift还可以分离歌曲中的人声和乐器,以创建新的混音和串烧作品。用户可以加入一个声音社区,探索新的声音,分享自己的创作并与他人合作。
ViewDiff 是一种利用预训练的文本到图像模型作为先验知识,从真实世界数据中学习生成多视角一致的图像的方法。它在U-Net网络中加入了3D体积渲染和跨帧注意力层,能够在单个去噪过程中生成3D一致的图像。与现有方法相比,ViewDiff生成的结果具有更好的视觉质量和3D一致性。
Artificial Studio是一个通过人工智能技术轻松创建、扩展和改进图像、视频、音频和文本的平台。它提供+20种人工智能功能,能够快速生成音乐、视频、字幕,修改声音风格,扩展图片边框等。用户可以在平台上实现创作灵感,从而提升内容质量。Artificial Studio的定位是为用户提供简单易用的AI创作工具。
DUSt3R是一种新颖的密集和无约束立体3D重建方法,适用于任意图像集合。它不需要事先了解相机校准或视点姿态信息,通过将成对重建问题视为点图的回归,放宽了传统投影相机模型的严格约束。DUSt3R提供了一种统一的单目和双目重建方法,并在多图像情况下提出了一种简单有效的全局对齐策略。基于标准的Transformer编码器和解码器构建网络架构,利用强大的预训练模型。DUSt3R直接提供场景的3D模型和深度信息,并且可以从中恢复像素匹配、相对和绝对相机信息。
Chatty Cat是一款集聊天、提问、传送声音信息和请求图片功能于一体的智能聊天产品。它可以通过WhatsApp与AI进行聊天互动,用户可以随意提问,还可以发送声音信息和请求AI传送图片。无论你有什么问题,Chatty Cat都会在你身边,为你提供便捷的虚拟小猫陪伴!定价:免费。
TripoSR是由Stability AI与Tripo AI合作开发的3D对象重建模型,能够从单张图片在不到一秒钟的时间内生成高质量的3D模型。该模型在低推理预算下运行,无需GPU,适用于广泛的用户和应用场景。模型权重和源代码已在MIT许可下发布,允许商业化、个人和研究使用。