StemGen是一款端到端音乐生成模型,训练成能够聆听音乐背景并做出适当回应的模型。它建立在非自回归语言模型类型的架构上,类似于SoundStorm和VampNet。更多细节请参阅论文。该页面展示了该架构模型的多个示例输出。
数据统计
相关导航
Generative Powers of Ten
Generative Powers of Ten是一种利用文本到图像模型生成多尺度一致内容的方法,能够实现对场景的极端语义缩放,例如从森林的广角景观视图到树枝上昆虫的微距拍摄。这种表示方式使我们能够渲染连续缩放视频,或者交互式地探索场景的不同尺度。我们通过一种联合多尺度扩散采样方法实现这一点,该方法鼓励在不同尺度之间保持一致性,同时保留每个单独采样过程的完整性。由于每个生成的尺度都由不同的文本提示指导,我们的方法能够实现比传统的超分辨率方法更深层次的缩放,后者可能难以在完全不同的尺度上创建新的上下文结构。我们在图像超分辨率和外部绘制的替代技术上对我们的方法进行了定性比较,并表明我们的方法在生成一致的多尺度内容方面最为有效。
暂无评论...