Show-1是一种高效的文本到视频生成模型,它结合了像素级和潜变量级的扩散模型,既能生成与文本高度相关的视频,也能以较低的计算资源要求生成高质量的视频。它首先用像素级模型生成低分辨率的初步视频,然后使用潜变量模型将其上采样到高分辨率,从而结合两种模型的优势。相比纯潜变量模型,Show-1生成的视频文本关联更准确;相比纯像素模型,它的运算成本也更低。
MusicLM是一个模型,可以根据文本描述生成高保真音乐。它可以生成24kHz的音频,音乐风格和文本描述一致,并支持根据旋律进行条件生成。通过使用MusicCaps数据集,模型在音频质量和与文本描述的一致性方面优于之前的系统。MusicLM可以应用于不同的场景,如生成音乐片段、根据画作描述生成音乐等。