NaturalSpeech 3旨在通过分解语音的不同属性(如内容、韵律、音色和声学细节)并分别生成它们来提高语音合成的质量、相似性和韵律。该系统设计了一个神经编解码器,使用分解的向量量化(FVQ)来解耦语音波形,并提出了一个分解的扩散模型来根据相应的提示生成每个子空间的属性。