传统生成对抗网络的语音增强算法(SEGAN)将时域语音波形作为映射目标,在低信噪比条件下,语音时域波形会淹没在噪声中,导致SEGAN的增强性能会急剧下降,语音失真现象较为严重.针对该问题,提出了一种多阶段的时频域生成对抗网络的语音增强算法(multi-stage-time-frequency SEGAN, MS-TFSEGAN). MS-TFSEGAN采用了多阶段生成器与时频域双鉴别器的模型结构,不断对映射结果进行完善,同时捕获时域与频域信息.另外,为了进一步提升模型对频域细节信息的学习能力, MS-TFSEGAN在生成器损失函数中引入了频域L1损失.实验证明,在低信噪比条件下, MS-TFSEGAN的语音质量和可懂度与SEGAN相比分别提升了约13.32...