语音情感识别中,情感特征的选取是决定最终识别结果的关键因素。传统的谱特征来源于语谱图特征的再加工,存在因分帧处理引起相邻谱特征相关性被忽略以及谱特征与目标标签不相关的问题,导致语谱图部分特征信息丢失。为此,提出卷积特征与谱特征融合的语音情感识别方法。选用合适的卷积神经网络(CNN),从语谱图中自动提取隐含的、有效的情感特征,再融合语音情感统计学谱特征,构造多分类支持向量机(SVM)来识别不同的语音情感。在包含7种基础情感的柏林情感数据集上进行实验,获得86.4%的识别率,比传统谱特征方法高6.2%,提出的卷积特征提取与融合的方法能有效识别语音情感。