基于深度网络与支持向量机提升中文语音情感识别率

2026-06-03

519

语音情感识别是让人工智能理解人类情绪、提供智能化服务的关键技术，在智能医疗、智能家居以及客户服务（如呼叫中心情绪监测）等领域具有实际的应用价值。由于中文独特的声调和韵律特征，不同情感间的音调差异非常微弱，让计算机准确分辨中文语音中的细微情绪变化一直是一项技术挑战。

这篇研究提出了一种将深度信念网络与支持向量机相结合的方法，有效提升了中文语音情感的识别水平。

计算机在分析人类说话的声音时，首先需要将连续的音频信号转化为能够进行数理量化的特征数据。研究团队指出，目前的语音识别体系中，通常有五种声学特征被广泛用于情绪分析，包括梅尔频率倒谱系数（MFCC）、基音频率、共振峰、短时过零率和短时能量。

如论文中的图1所示，原始输入的语音信号不能直接用于识别，必须先经历预处理步骤（包括预加重、分帧和端点检测），以消除环境噪点和无关成分。完成清洗后的语音帧才正式进入特征提取阶段，被分别计算出MFCC、基音（Pitch）等五大核心特征。在这些特征中，以模拟人类听觉系统为基础的MFCC（梅尔频率倒谱系数）特征的提取过程最为精细。

图2详细展示了MFCC的计算过程。语音信号经过分帧加窗后，通过快速傅里叶变换（FFT）计算出能量分布，接着利用梅尔滤波器组消除谐波影响，最终经离散余弦变换（DCT）输出固定维度的特征向量。

传统的识别方法在提取出上述声学特征后，直接利用这些浅层特征进行统计分类，容易忽略声音序列整体的深层空间关联信息，且容易受到环境噪声的干扰。为了在有限的样本数据下挖掘出更本质的情感表达，研究团队设计了一套复合架构，将深度信念网络（DBN）与支持向量机（SVM）进行了端到端的结合。

图4展示的优化架构中，系统不再采用传统的网络顶层分类器（Softmax）。低维的初始语音特征首先被输入到预训练好的DBN网络中，通过多层受限玻尔兹曼机（RBM）的非线性映射，由最后一个隐藏层输出高维的“深层特征”向量；随后，包含丰富情绪信息的深层特征向量被送入作为多分类器的支持向量机（SVM）中，输出最终的判定情绪。设计融合了DBN自动提取深层抽象特征的能力，以及SVM在小样本、高维向量分类上的稳健性能，避免复杂的深层网络后期调参工作。

为检验该系统的实际表现，利用中国科学院自动化研究所的中文情感语音数据库（CASIA）进行了多轮实证测试。该数据库由专业播音员录制，涵盖愤怒、恐惧、高兴、中性、悲伤和惊讶这6种典型情绪。由于男性和女性在声音的共振峰等生理学特征上存在天然的较大差异，研究团队采用了“性别相关”的分组策略，将数据集划分为男性组和女性组进行独立评估：

传统支持向量机（SVM）：直接利用浅层统计特征训练时，男性和女性组的平均识别率分别为85%和84.6%。

标准深度信念网络（DBN）：由于模型能自主学习隐含的深层情绪特征，两组的平均识别率平稳提升到了94.6%。

本研究的复合模型（DBN + SVM）：系统的综合平均识别准确率达到了95.8%（其中男性组96%，女性组95.6%），表现出了更好的识别性能。

由于深度学习通常面临训练耗时的问题，团队在网络的训练反向传播过程中引入了共轭梯度法。该方法成功将3000次迭代的系统训练时间从180秒缩短至150秒，计算效率提升了约 16.6%，有效节省了调参成本。

作者简介：张卫山，中国石油大学（华东）计算机科学与技术学院教授、博士生导师，人工智能系系主任。长期从事联邦学习、区块链、可信人工智能与大数据智能处理研究。

ORCID：0000-0001-9800-1068

DOI：10.3390/s17071694