上下文感知

StreamVoice

StreamVoice是一种基于语言模型的零唇语音转换模型，可实现实时转换，无需完整的源语音。它采用全因果上下文感知语言模型，结合时间独立的声学预测器，能够在每个时间步骤交替处理语义和声学特征，从而消除对完整源语音的依赖。为了增强在流式处理中可能出现的上下文不完整而导致的性能下降，StreamVoice通过两种策略增强了语言模型的上下文感知性：1）教师引导的上下文预见，在训练过程中利用教师模型总结当前和未来的语义上下文，引导模型对缺失上下文进行预测；2）语义屏蔽策略，促进从先前受损的语义和声学输入进行声学预测，增强上下文学习能力。值得注意的是，StreamVoice是第一个基于语言模型的流式零唇语音转换模型，无需任何未来预测。实验结果表明，StreamVoice具有流式转换能力，同时保持与非流式语音转换系统相媲美的零唇性能。