PIXART-α - PROMPT

PIXART-α是一种基于Transformer的文本到图像生成模型，其图像生成质量与最先进的图像生成器相当，支持高分辨率图像合成，训练速度明显优于现有的大规模T2I模型，训练成本低，可节省近30万美元，并减少90%的CO2排放。PIXART-α在图像质量、艺术性和语义控制方面表现出色，可为AIGC社区和初创企业提供新的见解，加速从头开始构建高质量、低成本的生成模型。

数据统计

相关导航

Glyph-ByT5

Glyph-ByT5是一种定制的文本编码器，旨在提高文本到图像生成模型中的视觉文本渲染准确性。它通过微调字符感知的ByT5编码器并使用精心策划的成对字形文本数据集来实现。将Glyph-ByT5与SDXL集成后，形成了Glyph-SDXL模型，使设计图像生成中的文本渲染准确性从低于20%提高到接近90%。该模型还能够实现段落文本的自动多行布局渲染，字符数量从几十到几百字符都能保持较高的拼写准确性。此外，通过使用少量高质量的包含视觉文本的真实图像进行微调，Glyph-SDXL在开放域真实图像中的场景文本渲染能力也有了大幅提升。这些令人鼓舞的成果旨在鼓励进一步探索为不同具有挑战性的任务设计定制的文本编码器。

FouriScale

FouriScale从频域分析的角度探讨从预先训练的扩散模型生成高分辨率图像，通过创新的、无需训练的方法，通过将预先训练的扩散模型中的原始卷积层替换为结合膨胀技术和低通操作的方法，通过填充然后裁剪策略进一步增强，实现了灵活处理各种宽高比文本到图像生成。使用FouriScale作为指导，该方法成功平衡了生成图像的结构完整性和保真度，实现了任意尺寸、高分辨率和高质量生成的惊人能力。通过其简单性和兼容性，该方法可以为未来对超高分辨率图像合成的探索提供有价值的见解。

LaVi-Bridge

LaVi-Bridge是一种针对文本到图像扩散模型设计的桥接模型,能够连接各种预训练的语言模型和生成视觉模型。它通过利用LoRA和适配器,提供了一种灵活的插拔式方法,无需修改原始语言和视觉模型的权重。该模型与各种语言模型和生成视觉模型兼容,可容纳不同的结构。在这一框架内,我们证明了通过整合更高级的模块(如更先进的语言模型或生成视觉模型)可以明显提高文本对齐或图像质量等能力。该模型经过大量评估,证实了其有效性。

Shakker

Shakker是一个基于人工智能的图像生成平台,它可以通过文字描述生成高质量的图像。该平台采用了最先进的深度学习技术,用户只需输入几句文字描述,就可以生成逼真的图片。Shakker的核心优势在于生成图像质量高,支持中文描述,操作简单易用。它覆盖了从艺术创作、商业设计到娱乐等多个领域,有效地提高了用户的工作效率。

Comfy Textures

Comfy Textures是一个Unreal Engine插件,它将编辑器与ComfyUI集成,允许您使用生成式扩散模型快速创建和调整场景的纹理。支持单视点和多视点纹理投影,可以用于透视和正交摄像机。还支持纹理编辑和图像到图像工作流。可以无缝工作于Unreal Engine 5.x和4.x。

Stable Diffusion – AI Art (Global)

Stable Diffusion - AI艺术（全球）使用AI艺术技术帮助您创建精美图像。支持MidJourney和SDXL 1.0模型，使您的创作简单易用。我们的产品旨在为用户提供丰富多彩的AI图像生成功能，包括图像素材、头像、壁纸、封面图片和动漫插图。无论您需要什么样的图片，从可爱的头像到情侣头像，甚至各种尺寸的图片，我们都可以满足您的需求。

暂无评论

暂无评论...

PIXART-α翻译站点

数据统计

相关导航

暂无评论

热门网址

热门标签