Lummi提供由AI生成的高质量库存照片和免版税图像,旨在为用户提供独特且多样化的图片资源。这些图片覆盖了多种类别,如动物、艺术、残疾、花卉、风景、街头摄影、旅行和健康等。
UltrAvatar是一款逼真可动的3D头像生成模型,旨在缩小虚拟与现实世界体验之间的差距。它采用Score Distillation Sampling (SDS) loss和可微分渲染器以及文本条件来引导扩散模型生成3D头像。与现有作品相比,UltrAvatar通过增强几何保真度和优越的物理渲染纹理质量,提出了一种新颖的3D头像生成方法。它通过扩散色彩提取模型和真实性引导纹理扩散模型,去除不需要的光照效果,呈现真实的扩散颜色,使生成的头像能够在各种光照条件下呈现。我们在实验证明了该方法的有效性和鲁棒性,在实验中大幅优于现有最先进的方法。
Voicify AI是一款AI音乐创作工具,能够使用AI翻唱创作高质量的AI翻唱歌曲。平台提供了上百个社区上传的AI声音模型供用户创作使用。Voicify AI支持克隆用户自己的声音,用户可以在平台上创建定制模型。通过Voicify AI,用户能够在几秒钟内制作出高质量的AI翻唱作品。
Mickey-1928是一个针对Stable-Diffusion-xl模型微调后的版本,训练数据集包含96张迪士尼1928年前公有领域动画片《小飞象》、《汽船威利号》和《疯狂的高卢》中的静态画面。该模型可以生成米奇、米妮和皮特等经典迪士尼卡通形象,使生成的图像保持1928年的经典设计风格。
NUWA-Infinity是微软推出的一个艺术作品生成平台,它能够创作西方油画、自然风景、抽象艺术等多种风格的艺术作品。该平台支持文本到图像、图像到视频、图像外扩等多种创作方法。
UNIMO-G是一个简单的多模态条件扩散框架,用于处理交错的文本和视觉输入。它包括两个核心组件:用于编码多模态提示的多模态大语言模型(MLLM)和用于基于编码的多模态输入生成图像的条件去噪扩散网络。我们利用两阶段训练策略来有效地训练该框架:首先在大规模文本-图像对上进行预训练,以开发条件图像生成能力,然后使用多模态提示进行指导调整,以实现统一图像生成能力。我们采用了精心设计的数据处理流程,包括语言接地和图像分割,用于构建多模态提示。UNIMO-G在文本到图像生成和零样本主题驱动合成方面表现出色,并且在生成涉及多个图像实体的复杂多模态提示的高保真图像方面非常有效。
Mini-Gemini是由香港中文大学终身教授贾佳亚团队开发的多模态模型,具备精准的图像理解能力和高质量的训练数据。该模型结合图像推理和生成,提供不同规模的版本,性能与GPT-4和DALLE3相媲美。Mini-Gemini采用Gemini的视觉双分支信息挖掘方法和SDXL技术,通过卷积网络编码图像并利用Attention机制挖掘信息,同时结合LLM生成文本链接两个模型。