MoMask 是一个用于基于文本驱动的 3D 人体运动生成的模型。它采用了分层量化方案,以高保真度的细节将人体运动表示为多层离散运动令牌。MoMask 通过两个不同的双向 Transformer 网络进行生成,以从文本输入预测运动令牌。该模型在文本到运动生成任务上优于现有方法,并可以无缝应用于相关任务,如文本引导的时间修复。