Stability AI 高保真文本转语音模型旨在提供对大规模数据集进行训练的语音合成模型的自然语言引导。它通过标注不同的说话者身份、风格和录音条件来进行自然语言引导。然后将此方法应用于45000小时的数据集,用于训练语音语言模型。此外,该模型提出了提高音频保真度的简单方法,尽管完全依赖于发现的数据,但在很大程度上表现出色。