版权说明 操作指南
首页 > 成果 > 详情

多阶段生成器与时频鉴别器的GAN语音增强算法

认领
导出
Link by 中国知网学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
论文标题(英文):
GAN Speech Enhancement Algorithm with Multi-stage Generator and Time-frequency Discriminator
作者:
陈宇;尹文兵;高戈;王霄;曾邦;...
作者机构:
[陈宇] 公安部第一研究所
[尹文兵; 高戈; 曾邦; 王霄] 武汉大学国家多媒体软件工程技术研究中心
[陈怡] 华中师范大学计算机学院
语种:
中文
关键词:
语音增强;生成对抗网络;低信噪比;语音质量;语音可懂度;语音识别;多阶段模型;深度学习
关键词(英文):
speech enhancement;generative adversarial network;low signal-to-noise ratio;speech quality;speech intelligibility;speech recognition;multi-stage model;deep learning
期刊:
计算机系统应用
ISSN:
1003-3254
年:
2022
卷:
31
期:
7
页码:
179-185
机构署名:
本校为其他机构
院系归属:
计算机学院
摘要:
传统生成对抗网络的语音增强算法(SEGAN)将时域语音波形作为映射目标,在低信噪比条件下,语音时域波形会淹没在噪声中,导致SEGAN的增强性能会急剧下降,语音失真现象较为严重.针对该问题,提出了一种多阶段的时频域生成对抗网络的语音增强算法(multi-stage-time-frequency SEGAN, MS-TFSEGAN). MS-TFSEGAN采用了多阶段生成器与时频域双鉴别器的模型结构,不断对映射结果进行完善,同时捕获时域与频域信息.另外,为了进一步提升模型对频域细节信息的学习能力, MS-TFSEGAN在生成器损失函数中引入了频域L1损失.实验证明,在低信噪比条件下, MS-TFSEGAN的语音质量和可懂度与SEGAN相比分别提升了约13.32...
摘要(英文):
The traditional speech enhancement generative adversarial network(SEGAN)takes the waveform of timedomain speech as the mapping target.When it comes to a low signal-to-noise ratio,the waveform of time-domain speech is drowned in the noise,resulting in a dramatic degradation of the enhancement performance of SEGAN and more serious speech distortion.In response,a multi-stage-time-frequency SEGAN(MS-TFSEGAN)is proposed for speech enhancement.MS-TFSEGAN employs multi-stage generators with dual time-frequency discriminators to continuously refine the mapping results.It captures both time-and frequen...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com