一、情感语音信息中共振峰参数的提取方法(论文文献综述)
徐华南[1](2021)在《基于深度学习的语音情感识别研究》文中研究表明随着人工智能和深度学习的发展,人机交互领域越来越注重情感表达,而语音作为表达情感最直接的方式,是实现自然人机交互的重要前提。如何让计算机自动识别人类情感和如何利用深度学习自动提取有效表征语音情感的关键特征是如今研究的热点。本文结合目前流行的深度学习网络构建语音信号特征提取和情感识别的模型,重点寻找有效表征说话者情绪的高级情感特征和模拟人类注意力机制去识别情感。主要工作如下:(1)针对语音情感识别任务中特征提取单一、分类准确率低等问题,给出一种基于时频特征融合的情感识别算法。本文计算语音信号的Log-Mel特征和一阶差分、二阶差分特征,合并成3-D Log-Mel特征集。将3-D Log-Mel特征集输入到BCNN-LSTM-attention网络中提取频域特征,将语音划分等长度片段输入到CNN-LSTM网络中得到时域特征,融合频域特征和时域特征。在IEMOCAP和EMO-DB数据库上实验证明,特征融合算法与提取单一频域特征或时域特征算法相比识别率提高。(2)保留(1)中提取的3-D Log-Mel特征集,给出一种基于自身注意力时空特征的语音情感识别算法,对关键的时空依赖关系进行建模。利用双线性卷积神经网络、长短期记忆网络去自动学习语音信号的最佳时空表征。引入多组注意力机制,探索语音中的关键帧信息。在IEMOCAP和EMO-DB数据库上实验证明,时空特征融合算法与单一的空间特征或时间特征算法相比识别率提高,同时多组注意力机制提高了整个系统的性能。(3)给出一种在线语音情感识别系统设计,将基于自注意力时空特征模型应用到语音情感识别系统中,所有功能模块通过EXE可执行文件的调用实现,实验结果证明了本文提出算法的优越性和语音情感识别系统的有效性。
胡德生[2](2021)在《基于主辅网络特征融合的语音情感识别》文中研究表明语言是人类交流最方便、最快捷的方式,语言中包含的情感信息在交流时发挥着重要作用。让机器像人一样具备说话、思维和情感能力,是人工智能领域一直追求的目标。语音情感识别的研究,将推动这一目标的逐步实现。近年来,深度学习被应用于各个领域,且取得了非常好的效果。深度学习也被成功的应用于语音情感识别领域,主要被用来提取显着的、更为泛化性的情感特征和建立情感分类模型。语音情感识别除了建立合适的数据库外,主要包括特征提取和分类模型两部分,本文主要针对不同类型的特征,用深度学习算法改进分类模型,并提出了一种特征融合算法,主要内容如下:(1)对语音信号分帧提取情感声学特征,分段处理生成段特征,其考虑了语音情感随时间变化的特性。首先使用基于双向长短时记忆单元(Bidirectional Long Short Term Memory,BLSTM)对段特征进行建模,该模型取得了一定的效果。但经研究发现,该模型主要存在以下两个问题:BLSTM只能在时间步上进行局部特征学习,难以学习语音情感信号的全局信息,而语音情感信号是上下文相关的;仅使用BLSTM最后一个时刻的输出编码语音情感信息,会造成一定的信息损失。基于上述问题,本文提出了一种基于SA-BLSTM-ASP(Self Attention-Bidirectional Long Short Term Memory-Attentive Statistics Pooling)网络的语音情感识别模型,通过在BLSTM网络之前加入自注意力机制模块以计算段特征输入序列不同位置之间的相互关系,增强网络学习全局特征的能力;在BLSTM网络输出,使用一种本文提出的结合注意力机制和统计池化的注意力统计池化方法,注意力机制可以关注输入的情感语音信号中更显着的情感片段,统计池化可以关注语音情感信号的长时变化特性,两者结合起来可以增强BLSTM网络提取显着深度段特征的能力,提高语音情感识别系统的性能。(2)对语音信号提取Mel语谱图,其横轴代表时间,纵轴代表频率,针对这一特点,设计一种卷积神经网络结构(Convolutional Neural Network-Global Average Pooling,CNN-GAP)。通过分别在时间轴和频率轴设计较大的卷积核,可以提取Mel语谱图的频率和时间特性,进而提取显着的情感特征,并在最后一层卷积层之后使用全局平均池化代替全连接层,其可以减轻过拟合,提升语音情感识别性能。(3)将SA-BLSTM-ASP网络提取的深度段特征和CNN-GAP网络提取的深度Mel语谱图特征通过主辅网络方式进行特征融合。目前在深度学习中,对不同网络学习出来的特征多以直接拼接的方式进行特征融合,虽然这些方法取得了一定的效果,但将不同类型的特征简单拼接起来作为识别网络的输入,没有考虑不同特征的量纲和维度的差异,以及各类型特征实际物理意义的不同,会对识别结果带来不利影响。针对上述问题,本文提出了通过主辅网络方式将不同类别特征进行融合的方法。首先将段特征输入SA-BLSTM-ASP网络作为主网络,提取深度段特征;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,提取深度Mel语谱图特征;最后,用深度Mel语谱图特征辅助深度段特征,将两者以主辅网络方式进行特征融合。本文在IEMOCAP和e NTERFACE’05数据集上做了充分的实验,验证了提出的基于SA-BLSTM-ASP网络的语音情感识别和基于主辅网络特征融合的语音情感识别两个模型的有效性,和基准模型相比识别结果有了很大的提升。
吴虹蕾[3](2021)在《基于深度学习的语音情感识别算法的设计与实现》文中指出随着科技的进步人工智能得到了快速发展,用户对人机交互式需求日益增长,情感信息作为沟通交流的基础,人类希望机器能够感知到情绪,从而为消费者提供更加优质的服务。语音情感识别作为人机交互的关键技术,其在医疗、教育等很多领域都存在实际意义,故本文从语音特征优化和构建良好的情感识别模型这两个角度出发对语音情感识别这一课题展开研究,主要工作如下:在特征提取方面,采用Mel倒谱特征参数,针对其中、高频分辨率差的特点,引入了I-MFCC、Mid-MFCC特征参数,并通过降维算法Fisher比准则计算三种Mel倒谱系数对语音情感识别贡献度的高低,选取贡献度最高的12阶参数进行融合后得出F-MFCC特征参数,再与语音信号的短时能量、基因频率、共振峰等特征参数融合后,得到包含信息全面的特征参数用于情感识别实验。在改进特征参数基础上,提出了一种基于深度学习的语音情感识别算法,搭建了基于卷积神经网络(CNN)、双向长短时记忆网络(Bi-LSTM)、多头注意力机制(multi-attention)的语音情感识别模型。通过CNN提取每帧语音信号的高级特征向量参数输入到BiLSTM+multi-attention中,Bi-LSTM双向分析特征参数的时序信息,multi-attention划分出多维不同子空间学习并对语音特征参数赋予不同的权重,输入到全连接层及Softmax层对语音情感进行识别。为了验证优化后的Mel倒谱系数和深度学习神经网络在语音情感识别应用中的实际效果,使用IEMOCAP和CASIA情感数据集进行测试。实验结果表明,改进的Mel倒谱特征参数及深度学习模型可以有效提升语音情感识别能力。
张子扬[4](2021)在《司法话者识别下的平静语音与生气语音的共振峰研究》文中指出本篇论文所研究的内容,是当前司法话者识别研究中比较关注且热点的问题,实际应用性和价值性均比较强。现下,时代经济的发展与科学技术手段的进步日新月异,电话、手机、网络对讲系统等一系列的通讯工具得到了极大范围的普及。一方面,这些通讯工具便捷迅速,很大程度上方便了我们的生活。另一方面,因为通话的载体主要为语音,而语音又具有转瞬即逝的特点,通讯工具两端的通话人无法见到彼此,更不可能感知对方生理上所发生的变化。所以,通讯工具常常被各类犯罪分子作为作案的首要工具,特别是在以匿名电话为手段的绑架案、勒索案、诈骗案、诽谤案等各类案件中,这些与人民的生活息息相关。在警方对案件侦破的过程中,语音材料则成为了案件中仅有的线索与证据,甚至成为疑难案件侦查的突破点,所以其重要性是不言而喻的。传统的司法话者识别中,主要是针对语音材料本身,从语音数字信号处理的角度,通过不同的算法,得出相关的声学信息,从中解析出讲话人的身份信息。而本文不仅仅从语音信号中得出声学参数,还将司法话者识别与情绪语音相结合,更加贴合实际情况,也扩大了应用范围。通过研究,排除在实际的司法话者识别过程中人的情绪对于识别过程的干扰,增强了应用性,进行实践上与理论上的创新。全文共有六章,第一章为绪论,主要介绍研究背景、研究理论、研究方法、研究现状、研究价值以及研究的重要意义。第一部分介绍司法话者识别当前的研究现状,自动识别法与专家识别法所取得的重要研究成果与研究进展;第二部分主要介绍本文所使用的研究理论;第三部分则主要介绍了本文研究的创新点。第二章主要介绍了实验设备、参数设置、实验过程、实验方法等。首先对本文实验所用到的设备进行了相关介绍,对相关仪器的工作原理进行了阐释;在语音信号采集方面,对发音语料的选取和发音人的选择进行了说明;并对实验过程中实验参数的设置、实验过程、数据的处理等均做了详细的说明。第三章主要对生气时的情绪状态与平静时的情绪状态下单元音的共振峰静态模式进行了研究。主要考察的是基本声学参数,例如声强、元音时长、基频以及第一、第二、第三、第四共振峰的差异情况。第四章主要对两种不同情绪状态下三合元音的共振峰动态模式进行了研究。现阶段国外大多数的研究中所采用的是共振峰之间的比值法,以此来反映说话人不同共振峰之间的相对关系,但笔者认为采取传统的差值法能够更形象地反映出不同共振峰之间的关系,于是采用做差的方法对共振峰进行了研究。第五章则利用Voicesauce这一软件对三种不同情绪状态下的语音进行了三十二种声学参数的提取,试图探索出更加能够代表个人特定性的特征参量。还讨论了基于当前司法鉴定中的话者识别所遇到的实际问题,情绪语音的研究在司法话者识别下的意义与价值。第六章主要是对本文进行概括与总结,并得出探索结论。本文的创新点在于,传统的司法话者识别上加入了人的情绪状态。虽然现阶段话者识别中已经运用了自动识别模式,但自动识别模式只严格要求一种状态,按照标准的固有模式录音,才能进行准确识别。本文的研究价值是在自动化模式匹配的基础上,将情绪状态这一影响因素排除,因为往往发音人情绪状态的不同会影响模式匹配的结果,把情绪因素排除掉之后,识别的结果的正确率得以提高,从而提高识别系统的鲁棒性。
张龙[5](2021)在《基于表情和语音的多模态情感识别及其在机器人服务任务推理中的应用》文中研究说明随着服务机器人在家庭情景中担任重要的角色,自然的人机交互成为影响用户满意度和人机共存舒适度的关键因素之一。如何在人机交互的过程中注重用户情感的识别、并在理解用户情感状态的基础上,让机器人在复杂多变的家庭环境中提供与情感相匹配的舒适度良好的服务,受到研究学者的广泛关注。由于人类情感的表达是一个复杂连续的过程,目前针对人类情感的识别重点逐渐从离散情感识别过渡到连续情感识别,同时单一模态的连续情感识别存在识别精度低、鲁棒性差的缺点,为了进一步提升情感识别的准确性,增强识别系统的鲁棒性,需要探索各模态之间的互补性,从而提升最终的情感识别质量。本文主要基于表情和语音在决策层融合的基础上对多模态情感识别展开研究,并针对复杂家庭场景下服务机器人的不确定性服务推理进行了探索和实验。本文主要研究工作由以下几部分构成:(1)针对连续面部表情情感数据集稀少和异常视频帧的问题,提出了一种基于Gabor变换的面部表情识别方法。首先对原始表情视频进行分帧,然后利用所设计的卷积神经网络对表情视频帧进行人脸检测并使数据归一化。接着利用Gabor变换对处理后的视频帧进行情感特征的提取。最后借助深度学习算法实现面部表情的情感识别。(2)为了提升语音连续情感识别的准确度,本文研究了基于迁移学习的语音情感识别方法,实现用户情感状态的识别。首先利用梅尔频率倒谱系数将一维语音信号转换为二维信号并完成情感特征的提取。然后对所提取的特征进行适当的裁剪。最后本文参考残差网络设计了适用于连续语音情感识别的迁移学习网络,实现连续语音情感识别。(3)研究多模态融合情感识别。由于单模态的连续情感识别准确率提升有限,本文考虑到各模态之间的互补性,以表情和语音这两种信号作为多模态融合的研究对象,并分析比较多元线性回归和卡尔曼滤波两种决策层融合算法。最后在开放数据库上验证多模态融合的情感识别算法,实验结果体现出使用本文所提出的多模态融合方法优于单模态情感识别准确率。(4)研究基于情感反馈的机器人服务任务不确定性推理方法。针对服务机器人的推理结果受到家庭情景中各种不确定性因素影响的问题,本文通过分析家庭情境中各因素对服务推理结果的影响,将多实体贝叶斯网络用于机器人任务推理,利用其概率图的特点,构建了包含不确定性信息的家庭情景模型,同时为了使所提供的服务更加人性化,将用户的情感状态加入到模型中,并结合联结树推理算法在复杂多变的家庭环境中实现服务机器人的不确定性服务任务推理。
陈雅淑[6](2021)在《基于语音识别的多维课堂交互分析》文中研究说明目前我国的主要教育方式为以线下课堂教学为核心的应试教育,如何使用智能的方式辅助教学成为了当下的研究重点。课堂交互行为数据包含大量教师课件、板书、学生信息等显性数据和教学过程中由师生互动行为所产生的话语、性别、情感等隐性数据,这些数据是教学活动最基本的典型特征,在一定程度上反映了教学的本质,因此对课堂交互行为的多维度数据分析至关重要。然而目前绝大多数学者采用的智能分析方法仍然是改进S-T分析法和FIAS法,或者将行为分析的前提局限于特定的智慧教室环境和线上教学论坛中,无法做到普遍适用于最主要的线下课堂教学环境。同时在线下课堂教学环境中,环境噪音来源广泛、无法避免且对语音识别的准确度带来一定的影响,因此需要对课堂语音文件进行降噪处理。本文利用语音识别技术从课堂情绪水平、课堂模式、课堂互动结构等多个维度对课堂交互行为进行分析,主要工作和创新点如下:首先,文章介绍了课堂分析的研究背景并说明了基于语音识别的多维课堂交互分析的重要性,概述并分析国内外关于语音识别、性别识别、情绪识别和课堂分析的研究情况。同时也对本文中所用到的语音降噪、说话人识别、语音情绪识别、语音性别识别、课堂交互分析以及社会网络分析的理论进行了阐述。其次,本文的创新点在于:构建了课堂评价的新模型,利用语音识别技术从课堂情绪水平、课堂模式、性别行为差异、课堂互动结构等多个维度对课堂交互行为进行分析;创新性的将社会网络的方法用于线下课堂,使用上述得到的说话人身份、性别、情绪数据、通过社会网络分析的方法实现线下课堂交互行为数据的可视化;基于所得课堂交互结构、课堂情绪转化率及兴奋度实现多维度的课堂量化分析。具体课堂评价维度包括:通过交互密度和网络直径判定课堂交互结构(平衡结构、散乱结构、集中结构);通过课堂情绪转化率、课堂兴奋度判定课堂情绪水平(激昂、平稳、低落);通过分析教师与不同性别、不同身份学生之间的个体互动差异、课堂互动结构和课堂模式,帮助教师及时掌握课堂教学现状并进行针对性改进。最后,使用具体案例对上述提出的基于语音识别的多维课堂交互行为分析方法进行验证。通过对单个案例和多个案例的分别比较,证明了基于语音识别的多维课堂交互分析的合理性,总结了本文的研究内容、创新性和问题点。
王咿卜[7](2021)在《基于基频控制的语音合成的研究》文中研究表明语音合成是通过计算机对文本信息进行处理,将文字转换为语音的一项技术。随着智能时代的到来,语音合成已经成为信号处理与人工智能的重要研究内容,是实现人机交互的重要途径。目前大部分语音合成技术基于复杂的神经网络模型,存在数据收集困难、无法调整声调的缺点,导致语音合成过程不够灵活,情感表达不足,隐藏了人们发音过程中的数学本质。因此,如何使语音在具有高保真度的同时实现声调的灵活切换仍然是一个需要深入研究的问题。针对该问题,论文做了以下主要研究工作:(1)传统的语音合成技术基于语音波形的拼接,无法调整合成语音的声调,并且在波形拼接处存在语音波形不连续的现象,容易造成听觉上的不流畅。针对该问题,提出了一种基于基频控制实现语音声调切换的方法。该方法从语谱图中了解到语音的重要参数是基音频率与共振峰,采用自相关函数法提取语音的基音频率曲线,采用倒谱法提取共振峰参数,并对参数进行分析。通过高次多项式拟合法分别对汉语四种声调的基音频率曲线进行拟合,在此基础上结合分段函数插值法对含音阶变化的语音进行基音频率曲线拟合。通过调整拟合函数的系数实现汉语不同声调之间的切换,以及语音演唱中不同音阶的变化。通过构造函数得到连续的基音频率曲线,有效地解决了语音合成中声调变换不灵活与语音不流畅的问题。(2)深度学习领域的语音合成技术,有效地提高了语音合成的准确度,但这种技术对数据集的内容要求较高,且合成语音受数据种类的影响较大。针对该问题,从数学角度研究了一种基于三角函数叠加法实现语音合成的方法。该方法结合现有的汉语音素语料库,通过改变基音频率曲线的相关参数,实现了不同语音音素的合成,建立了不同汉语单韵母及声调的数学函数库,极大程度的降低了对语音数据的收集难度。搭建了能够进行语音参数分析、实现声调变换的语音合成平台,展现了语音形成过程中的数学原理。本文从语音合成的现有问题出发,以构造数学函数的方式实现基音频率曲线的控制,在此基础上进一步实现语音合成,并且建立了语音合成系统。研究结果表明:对于汉语音素,平均识别率为85.3%;对于汉语四种声调,平均识别率为95.5%;对于含音阶变化的语音,认为相似程度较好的占比率为66.7%。通过测试结果,验证本文研究的方法具有有效性和可行性。
闫振兴[8](2020)在《基于卷积循环神经网络的语音情感识别方法研究》文中认为近年来,随着语音识别技术的不断发展,人与机器的语音交互变得越来越自然。然而基于语音技术的人机交互,只是让机器简单的理解语义信息,无法实现让机器理解人类语音背后存在的情感信息。特别是人工智能与大数据技术在各行业的落地应用,将促使机器人越来越多的参与到我们的生活与工作中,如何让机器人与人的交流更加自然、更加和谐将变得尤为重要。语音情感识别作为人机交互的重要一环,将成为人工智能领域研究的一个新热点,让机器人能像人类一样理解和处理情感信息,将成为未来发展的必然趋势。本课题研究了基于卷积循环神经网络的语音情感识别方法,具体研究内容如下:基于卷积双向长短时记忆神经网络CNN-BiLSTM的语音情感识别方法。首先介绍了卷积神经网络和双向长短时记忆网络的基本理论,搭建了面向语音情感识别的CNN-BiLSTM深度学习模型,输入网络模型的语音情感特征是最常用的低维声学特征,围绕影响网络识别性能的因素包括局部特征学习模块个数、初始化学习率以及迭代次数进行相关的实验。针对CNN-BiLSTM网络模型训练收敛速度慢与识别准确率低的问题,提出了改进的语音情感识别方法。介绍了门控循环单元基本理论,门控循环单元神经网络(Gate Recurrent Unit,GRU)是递归神经网络的又一种变体,相比于LSTM网络,门控循环单元神经网络参数相对较少,训练过程更容易收敛,学习效率更高。对注意力机制进行了简单介绍,一段情感语音中存在情感语音帧和非情感语音帧,在语音情感识别中加入注意力机制,能让模型更多的关注语音帧而忽略非情感语音帧。实现了基于注意力机制和CNN-BiGRU网络的语音情感识别。最后,在德国柏林情感数据库Emo-DB上进行与说话者相关的语音情感实验,在七种情绪的平均识别率达到97.8%。相比改进之前的模型,改进后的模型识别准确率明显提高。本课题的研究成果可以应用到人机交互领域,比如智能辅导系统、测谎、车载驾驶系统、机器人等,从而提高人机交互效率,使机器人在与人类交流时变得更加亲近和自然,促进机器人与人类的和谐共处。
彭智朝[9](2020)在《融入生理学和行为学特征的言语情感识别研究》文中提出即将到来的万物互联时代为人机交互领域提供了巨大的发展机遇,言语交互是人机交互中最自然,最便捷的交互方式。言语情感识别是言语交互中非常重要的一环,只有准确地识别说话人的言语情感信息,才能理解说话人的言外之意,实现有效言语交互。互联网环境中,言语情感信息可以在文本(如微博等)和语音两个言语通道上进行传递。文本情感通常是指说话人有意识的情感表达。从情感言语生成角度看,说话人的心理和生理状态都会反映在言语内容和行为信息等特征上,从这些特征信息中可以挖掘用户的情感状态。比如,微博用户的心理和生理状态会导致其言语内容和交互行为特征上的不同,通过这些特征信息可以挖掘用户是否有抑郁倾向情绪。语音情感更多的是一种无意识的、不由自主的情感表达。从情感言语感知的角度来看,声音进入听话人的听觉生理系统进行一系列的转换到达听觉皮层,通过语音音调、强度和持续时间等特征识别用户情感状态。本文根据文本产生和语音感知的特点,从不同的角度将生理学和行为学特征融入到言语情感识别研究中。在文本情感识别中,我们主要通过微博的文本内容和交互行为学特征挖掘微博用户的生理和心理状态,在语音情感识别中则主要利用听话人的听觉机理抽取语音中和情感相关的有效特征表示来提高情感的识别率。基于这个研究思路,本文在文本情感挖掘和语音情感识别中,在以下四个方面进行了创新性研究:(1)本文提出了一种结合用户行为特征的口语化文本情感识别方法,具体是指在文本言语通道上的抑郁倾向人群识别。首先根据口语化文本的新特点构建了抑郁情感词典并基于该词典提取文本特征表示,然后结合用户言语交互行为特征采用多核学习方法找到异构特征与情感的最优映射来实现抑郁倾向人群识别。实验结果表明,结合文本特征表示和交互行为特征是一种有效的情感挖掘方法。(2)本文首先提出了基于耳蜗滤波的情感识别方法,虽然该方法取得了比基于MFCC的方法更好的结果,但它存在明显的缺点,因此本文进一步提出了基于听觉调制的情感识别方法。基于听觉调制的方法引入了调制滤波来产生多维时间调制线索,然后采用3D CNN(convolutional neural network)模型直接对调制线索进行联合谱时特征学习。实验结果表明,3D CNN可以从时间调制线索中有效提取情感区分性的听觉表征。(3)受人耳听觉注意机制的启发,本文提出了一种基于注意力模型的滑动循环网络(Attention-based sliding recurrent neural network,ASRNN)模型来识别语音情感。其中,通过滑动窗来实现持续关注并提取连续的段级内部表征,然后通过时域注意力模型来实现选择性注意机制。最后通过注意力听辨实验对注意力模型和人耳听觉注意机制的相关性进行了比较分析。实验结果表明,该模型能从听觉表征中有效地捕获显着的情绪区域。(4)受人耳听觉系统多尺度调制的启发,本文提出了基于多分辨率调制耳蜗图(multi-resolution modulation-filtered cochleagram,MMCG)特征的维度情感识别方法。其中MMCG把时间调制线索编码成不同分辨率的调制耳蜗图来捕获时间和上下文调制线索。考虑到MMCG中的每种调制耳蜗图包含不同尺度的调制线索,本文设计了一种并行LSTM网络结构从不同分辨率特征中建立多个时间依赖关系并跟踪情感在时间序列上的动态性。实验结果表明,MMCG特征能够获得多尺度情感信息,而并行LSTM能够有效地跟踪情感的时间动态。
仝洁[10](2020)在《基于蚁群优化的SVM语音情感识别算法研究》文中指出实现真正意义上的人工智能需要实现计算机的“情感智能”,语音作为人类交流中传递信息的常用载体,蕴含着丰富多样的情感资源,因此,语音情感识别在人工智能的研究热潮中占据重要地位。在语音情感识别的基本框架下,对能够有效表征情感的特征参数的提取及对情感分类识别网络的建立,是决定语音情感识别模型性能的关键,也是语音情感识别核心研究内容。本文利用遗传算法对SVM分类模型进行参数优化,根据多级分类思想构建SVM模型在柏林数据库中的情感进行实验,对语料库中部分情感类别混淆度较大的问题,提出利用改进后具有全局多次优解搜索能力的蚁群算法筛选贡献度更大的特征向量实现特征降维。具体工作如下:(1)介绍语音情感识别中常用的情感模型及语料库,选择基于离散模型的纯净无噪的柏林数据库作为语料库。通过对语音数据库中的语音信号进行预处理后,主要分析、提取包括短时能量、基音频率、共振峰、MFCC及其衍生参数等重要情感特征,经过统计变量计算,构建出167维情感特征向量,完成语音信号的前端处理工作。(2)采用在高维小样本上性能优异的支持向量机作为分类器,通过研究,采用遗传算法优化的惩罚因子C和核参数σ,并以此来构造SVM分类器,同时,针对情感间的混淆度会降低情感识别的准确率,采用多级SVM结构解决较为复杂的多类情感的分类问题。(3)鉴于不同特征向量表征情感的能力不同且存在冗余和无用向量的情况,通过蚁群算法进行特征选择。采用情感识别率和情感特征向量维数的加权函数作为适应度函数,针对传统蚁群算法易陷于局部最优解和搜索停滞的现象,在参数设置进行优化处理,同时采用贪心和局部细化搜索两大策略,实现对特征向量空间模型的优雅降维,与多级SVM结合构建基于蚁群优化的多级SVM分类模型在柏林语音库上进行情感识别实验。
二、情感语音信息中共振峰参数的提取方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、情感语音信息中共振峰参数的提取方法(论文提纲范文)
(1)基于深度学习的语音情感识别研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 目前面临的问题 |
1.4 研究内容和主要工作安排 |
1.5 本章小结 |
第二章 语音情感识别概述 |
2.1 情感的基本理论 |
2.2 语音情感识别的流程 |
2.3 语音情感数据库 |
2.3.1 常见的语音情感数据库 |
2.3.2 实验研究的IEMOCAP和 EMODB数据库 |
2.4 语音信号预处理 |
2.4.1 预加重 |
2.4.2 分帧与加窗 |
2.5 语音情感特征参数的提取 |
2.5.1 Mel频率倒谱系数 |
2.5.2 3-D Log-Mel系数 |
2.6 语音情感识别所用的分类模型 |
2.7 评价指标 |
2.8 本章小结 |
第三章 基于时频特征融合的语音情感识别研究 |
3.1 引言 |
3.2 深度学习模型 |
3.2.1 卷积神经网络 |
3.2.2 双线性卷积神经网络 |
3.2.3 长短期记忆模型 |
3.2.4 注意力机制 |
3.3 基于时频特征融合的语音情感识别 |
3.3.1 频域特征 |
3.3.2 时域特征 |
3.3.3 时频特征融合 |
3.4 实验结果与分析 |
3.4.1 实验设置 |
3.4.2 实验结果分析 |
3.4.3 与不同方案比较 |
3.5 本章小结 |
第四章 基于自身注意力时空特征的语音情感识别研究 |
4.1 引言 |
4.2 BCNN模型提取空间特征 |
4.3 LSTM模型提取时间特征 |
4.4 基于多组注意力判别性时空特征提取 |
4.4.1 自身注意力机制 |
4.4.2 多组注意力机制 |
4.4.3 多组注意力提取判别性时空特征 |
4.5 实验结果与分析 |
4.5.1 head数目的影响 |
4.5.2 实验结果分析 |
4.5.3 与不同方案比较 |
4.6 本章小结 |
第五章 在线语音情感识别系统的设计 |
5.1 实验软硬件平台介绍 |
5.2 系统设计 |
5.3 界面功能介绍 |
5.4 系统测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
作者简介 |
(2)基于主辅网络特征融合的语音情感识别(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 主要研究内容和本文组织架构 |
第二章 语音情感识别的基本理论 |
2.1 语音情感数据集 |
2.2 语音信号预处理 |
2.3 语音情感特征 |
2.3.1 韵律学特征 |
2.3.2 音质特征 |
2.3.3 谱特征和Mel语谱图 |
2.4 分类识别模型 |
2.4.1 人工神经网络 |
2.4.2 卷积神经网络 |
2.4.3 循环神经网络 |
2.5 评价指标 |
2.6 本章小结 |
第三章 基于SA-BLSTM-ASP网络的语音情感识别 |
3.1 引言 |
3.2 SA-BLSTM-ASP网络结构 |
3.2.1 一维卷积块 |
3.2.2 自注意力机制 |
3.2.3 双向长短时记忆单元和注意力统计池化 |
3.3 实验过程与结果分析 |
3.3.1 数据集和段特征提取 |
3.3.2 网络参数与实验设置 |
3.3.3 实验结果与分析 |
3.4 本章小结 |
第四章 基于主辅网络特征融合的语音情感识别 |
4.1 引言 |
4.2 基于Mel语谱图和卷积神经网络的语音情感识别 |
4.2.1 Mel语谱图分析 |
4.2.2 CNN-GAP网络结构 |
4.2.3 实验及分析 |
4.3 基于主辅网络特征融合的语音情感识别 |
4.3.1 主辅网络特征融合的网络结构 |
4.3.2 主辅网络特征融合参数传递及更新 |
4.3.3 实验及分析 |
4.4本章小结 |
第五章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
攻读学位期间取得的科研成果 |
一、学术论文及专利 |
二、参与项目 |
致谢 |
(3)基于深度学习的语音情感识别算法的设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
1.4 本文组织结构 |
第2章 语音情感识别的基础知识 |
2.1 语音情感描述模型 |
2.1.1 离散情感描述模型 |
2.1.2 连续情感描述模型 |
2.2 语音信号的预处理 |
2.2.1 预加重处理 |
2.2.2 分帧和加窗 |
2.2.3 端点检测 |
2.3 常用的情感特征参数提取 |
2.3.1 短时能量及衍生参数 |
2.3.2 基因频率及衍生参数 |
2.3.3 共振峰及衍生参数 |
2.4 传统的语音情感识别算法 |
2.4.1 支持向量机 |
2.4.2 隐马尔科夫模型 |
2.5 本章小结 |
第3章 F-MFCC融合特征的语音情感识别算法 |
3.1 改进的梅尔频率倒谱系数 |
3.1.1 Mel频率倒谱系数 |
3.1.2 I-Mel频率倒谱系数 |
3.1.3 Mid-Mel频率倒谱系数 |
3.2 混合倒谱系数的提取 |
3.2.1 Fisher比准则 |
3.2.2 混合MFCC模型 |
3.2.3 F-MFCC模型 |
3.3 混合特征参数的组成 |
3.4 本章小结 |
第4章 基于深度学习的语音情感识别算法 |
4.1 卷积神经网络 |
4.2 长短时记忆网络及改进模型 |
4.2.1 长短时记忆网络 |
4.2.2 双向长短时记忆网络 |
4.3 注意力机制及改进模型 |
4.3.1 注意力机制 |
4.3.2 多头注意力机制 |
4.4 深度学习网络模型的构建 |
4.4.1 系统架构设计 |
4.4.2 网络模型优化策略 |
4.5 本章小结 |
第5章 实验结果及性能分析 |
5.1 语音情感识别系统实验流程 |
5.2 实验数据与环境 |
5.2.1 实验数据集 |
5.2.2 实验环境 |
5.3 实验评价指标 |
5.4 实验过程及结果分析 |
5.4.1 F-MFCC融合特征对比实验 |
5.4.2 情感识别模型对比实验 |
5.5 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间取得学术成果 |
(4)司法话者识别下的平静语音与生气语音的共振峰研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及综述 |
1.1.1 研究背景 |
1.1.2 研究进程 |
1.2 研究价值和意义 |
1.2.1 研究价值 |
1.2.2 研究意义 |
1.3 司法话者识别 |
1.3.1 司法语音的定义 |
1.3.2 司法话者识别概述 |
1.4 本文创新点 |
第二章 研究方法 |
2.1 实验设备与声道采样 |
2.1.1 实验设备 |
2.1.2 发音人及语料内容 |
2.2 参数设置 |
2.3 实验过程 |
2.3.1 实验目的 |
2.3.2 实验方法 |
2.4 数据处理 |
第三章 情绪语音共振峰静态模式研究 |
3.1 引言 |
3.2 实验条件与声样采集 |
3.2.1 实验目的 |
3.2.2 实验流程 |
3.3 实验内容与结果 |
3.3.1 声强 |
3.3.2 元音时长 |
3.3.3 基频(F0) |
3.3.4 第一共振峰(F1) |
3.3.5 第二共振峰(F2) |
3.3.6 第三共振峰(F3) |
3.3.7 第四共振峰(F4) |
3.4 实验分析 |
3.4.1 声强与时长变化 |
3.4.2 基频(F0)的变化 |
3.4.3 共振峰的变化 |
3.5 小结 |
第四章 情绪语音共振峰动态模式研究 |
4.1 引言 |
4.2 实验条件与声样采集 |
4.2.1 实验目的 |
4.2.2 实验流程 |
4.3 实验内容与结果 |
4.3.1 共振峰走向特征差异 |
4.3.2 共振峰频率特征差异 |
第五章 情绪语音音质特性研究 |
5.1 引言 |
5.2 实验目的、方法、过程 |
5.2.1 语料来源 |
5.2.2 实验目的 |
5.2.3 实验方法 |
5.2.4 数据处理 |
5.3 实验内容与结果 |
5.4 小结 |
第六章 结语 |
参考文献 |
附录A 脚本 |
附录B 生气与平静情绪状态下的共振峰差值表 |
附录C 发音人信息 |
致谢 |
(5)基于表情和语音的多模态情感识别及其在机器人服务任务推理中的应用(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 离散情感识别研究现状 |
1.2.2 连续情感识别研究现状 |
1.2.3 机器人服务任务推理研究现状 |
1.3 本文主要研究内容 |
1.4 论文章节安排 |
第2章 相关理论基础 |
2.1 卷积神经网络理论基础 |
2.1.1 卷积层 |
2.1.2 池化层 |
2.1.3 全连接层 |
2.1.4 激活函数 |
2.2 迁移学习相关理论 |
2.3 情感特征的提取 |
2.3.1 表情情感特征提取 |
2.3.2 语音情感特征提取 |
2.4 贝叶斯网络 |
2.4.1 贝叶斯网络介绍 |
2.4.2 贝叶斯网络推理算法 |
2.5 本章总结 |
第3章 基于表情和语音的多模态情感识别研究 |
3.1 人脸表情的情感识别研究 |
3.1.1 基于卷积神经网络的人脸检测 |
3.1.2 数据归一化 |
3.1.3 基于Gabor变换的特征提取 |
3.1.4 基于深度学习的表情情感识别 |
3.2 语音信号的情感识别研究 |
3.2.1 语音信号的预处理 |
3.2.2 基于梅尔频率倒谱系数的特征提取 |
3.2.3 基于迁移学习的语音情感识别 |
3.3 基于表情和语音的多模态情感识别研究 |
3.3.1 基于多元线性回归的多模态融合情感识别 |
3.3.2 基于卡尔曼滤波的多模态融合情感识别 |
3.4 本章小结 |
第4章 基于用户情感反馈的机器人服务任务不确定性推理 |
4.1 多实体贝叶斯网络 |
4.2 不确定性推理算法 |
4.2.1 消息传递推理算法 |
4.2.2 联结树推理算法 |
4.3 机器人服务任务的不确定性推理 |
4.3.1 基于MEBN的用户家庭情景建模 |
4.3.2 机器人服务任务的不确定性推理过程 |
4.4 本章小结 |
第5章 实验结果及分析 |
5.1 实验平台及评价指标 |
5.2 情感识别 |
5.2.1 面部表情情感识别 |
5.2.2 语音情感识别 |
5.2.3 表情和语音融合的多模态连续情感识别 |
5.3 服务机器人服务任务的不确定性推理 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 本文主要研究结果 |
6.2 下一步研究方向 |
参考文献 |
致谢 |
硕士期间发表的论文和科研成果 |
硕士期间参加的科研工作 |
学位论文评阅及答辩情况表 |
(6)基于语音识别的多维课堂交互分析(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究路线和研究方法 |
1.2.1 研究路线 |
1.2.2 研究方法 |
1.3 国内外研究现状 |
1.3.1 说话人识别 |
1.3.2 语音性别识别 |
1.3.3 语音情绪识别 |
1.3.4 课堂交互行为分析 |
1.4 研究路线及论文组织结构 |
1.4.1 研究路线 |
1.4.2 论文组织结构 |
第二章 相关理论基础 |
2.1 语音降噪 |
2.1.1 课堂环境噪声特性 |
2.1.2 语音降噪算法 |
2.2 语音识别 |
2.2.1 说话人识别 |
2.2.2 语音性别识别 |
2.2.3 语音情绪识别 |
2.3 社会网络分析 |
第三章 课堂语音识别 |
3.1 语音降噪算法 |
3.2 数据预处理 |
3.2.1 预加重 |
3.2.2 分帧及加窗 |
3.2.3 端点检测 |
3.3 语音特征提取 |
3.3.1 提取基音频率 |
3.3.2 提取共振峰频率 |
3.3.3 提取Mel频率倒谱系数 |
3.4 说话人身份识别算法 |
3.5 语音性别识别算法 |
3.5.1 性别识别特征参数 |
3.5.2 建立性别识别训练模型 |
3.5.3 性别识别结果 |
3.6 语音情绪识别算法 |
3.6.1 情绪识别特征参数 |
3.6.2 基于SVM的情绪识别算法 |
3.6.3 情绪识别结果 |
3.7 小结 |
第四章 课堂交互分析 |
4.1 课堂情绪分析 |
4.2 社会网络分析 |
4.3 结果分析 |
4.3.1 课堂情绪水平 |
4.3.2 课堂交互结构分析 |
第五章 案例分析 |
5.1 单案例分析 |
5.1.1 课堂语音降噪 |
5.1.2 课堂语音识别 |
5.1.3 课堂情绪分析 |
5.1.4 课堂交互分析 |
5.1.5 分析结果 |
5.2 多案例对比分析 |
5.2.1 课堂语音降噪与识别 |
5.2.2 课堂情绪与交互分析 |
5.2.3 结果分析 |
第六章 研究总结与展望 |
6.1 论文总结 |
6.2 工作展望 |
参考文献 |
致谢 |
(7)基于基频控制的语音合成的研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状分析 |
1.2.1 语音合成的发展 |
1.2.2 语音合成的国内外形势 |
1.2.3 语音合成的局限性 |
1.3 论文研究内容及章节结构 |
1.3.1 研究内容概述 |
1.3.2 章节结构 |
2 语音形成过程 |
2.1 语音形成的数学建模 |
2.2 语音的物理属性 |
2.3 语谱图 |
2.4 本章小结 |
3 语音特征参数的提取 |
3.1 语音信号的预处理 |
3.1.1 语音信号的分帧处理 |
3.1.2 语音信号的端点检测 |
3.2 基音频率提取 |
3.3 共振峰提取 |
3.4 基音频率曲线 |
3.4.1 汉语声调的基音频率曲线 |
3.4.2 语音演唱中的基音频率曲线 |
3.5 语音音质与基音频率 |
3.5.1 音质概念 |
3.5.2 基音频率及共振峰对音质的影响 |
3.6 本章小结 |
4 基频曲线拟合与语音合成 |
4.1 曲线拟合函数 |
4.2 拟合函数次数 |
4.2.1 汉语声调的基频曲线拟合函数次数 |
4.2.2 语音演唱的基频曲线拟合函数次数 |
4.3 拟合函数系数 |
4.4 基音频率曲线拟合过程 |
4.4.1 汉语声调的基音频率曲线拟合 |
4.4.2 语音演唱的基频曲线拟合 |
4.5 基频控制的语音合成 |
4.6 本章小结 |
5 语音合成平台 |
5.1 基音频率函数库 |
5.1.1 四种声调的基频函数库 |
5.1.2 汉语单韵母的基频函数库 |
5.2 语音拟合结果分析 |
5.2.1 汉语单韵母的语音合成结果 |
5.2.2 汉语声调的语音合成结果 |
5.2.3 语音演唱的语音合成结果 |
5.3 建立语音合成平台 |
5.4 本章小结 |
6 总结与展望 |
6.1 全文工作总结 |
6.2 未来工作展望 |
参考文献 |
攻读硕士学位期间取得的成果 |
(8)基于卷积循环神经网络的语音情感识别方法研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景和意义 |
1.2 国内外研究现状 |
1.3 论文主要工作与组织结构 |
第2章 语音情感识别基本理论 |
2.1 语音情感识别框架 |
2.2 语音情感数据库 |
2.3 语音情感特征 |
2.3.1 低维声学特征描述 |
2.3.2 持续性停顿相关的特征 |
2.3.3 齐夫(Zipf)特征 |
2.3.4 语言特征 |
2.4 语音情感分类器 |
2.5 数据集及评价指标 |
2.5.1 数据集 |
2.5.2 评价指标 |
2.6 本章小结 |
第3章 基于CNN-BiLSTM网络的语音情感识别方法 |
3.1 卷积神经网络 |
3.2 双向长短时记忆网络 |
3.3 CNN-BiLSTM深度学习网络 |
3.3.1 特征输入 |
3.3.2 网络参数 |
3.3.3 网络优化策略 |
3.4 基于CNN-BiLSTM网络的语音情感识别实验 |
3.4.1 局部特征学习模块个数对网络识别性能的影响 |
3.4.2 初始学习率对网络识别性能的影响 |
3.4.3 迭代次数对网络识别性能的影响 |
3.4.4 实验分析 |
3.5 本章小结 |
第4章 基于注意力机制的CNN-BiGRU网络语音情感识别方法 |
4.1 门控循环单元 |
4.1.1 门控循环单元前向传播 |
4.1.2 门控循环单元训练过程 |
4.2 注意力机制 |
4.3 基于注意力机制的CNN-BiGRU学习模型 |
4.3.1 CNN-BiGRU深度学习模型 |
4.3.2 Attention机制层 |
4.3.3 网络模型优化策略 |
4.4 基于注意力机制的CNN-BiGRU网络的语音情感识别实验 |
4.4.1 实验设置 |
4.4.2 实验结果与分析 |
4.5 本章小结 |
第5章 结论与展望 |
参考文献 |
致谢 |
学位论文评阅及答辩情况表 |
(9)融入生理学和行为学特征的言语情感识别研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景 |
1.2 课题研究意义 |
1.3 国内外研究现状 |
1.3.1 国内外研究历史回顾 |
1.3.2 口语化文本情感研究现状 |
1.3.3 口语语音情感研究现状 |
1.4 言语情感识别面临的问题与挑战 |
1.5 课题研究内容 |
1.6 本文章节结构 |
第2章 言语情感识别概述 |
2.1 情感描述方法 |
2.2 常用情感数据库 |
2.2.1 离散情感数据库 |
2.2.2 维度情感数据库 |
2.3 言语情感识别特征 |
2.3.1 口语化文本特征 |
2.3.2 言语行为特征 |
2.3.3 声学特征 |
2.3.4 听觉生理特征 |
2.4 言语情感识别模型 |
2.4.1 支持向量机SVM |
2.4.2 卷积神经网络CNN |
2.4.3 循环神经网络RNN |
2.5 评价指标 |
2.5.1 分类模型评价 |
2.5.2 回归模型评价 |
2.6 本章小结 |
第3章 结合言语行为特征的口语化文本情感识别 |
3.1 引言 |
3.2 数据处理与用户行为分析 |
3.2.1 数据处理 |
3.2.2 用户行为分析 |
3.3 抑郁情感词典构建 |
3.3.1 言语特征分析 |
3.3.2 情感词典本体 |
3.3.3 情感词典的建立过程 |
3.4 基于多核SVM的识别模型 |
3.5 实验结果与分析 |
3.6 本章小结 |
第4章 基于听觉生理特征的语音情感识别 |
4.1 引言 |
4.2 基于耳蜗滤波的情感识别 |
4.2.1 情感识别框架 |
4.2.2 段级特征提取 |
4.2.3 语句级特征提取 |
4.2.4 实验结果与分析 |
4.3 基于听觉调制的情感识别 |
4.3.1 听觉调制感知模型 |
4.3.2 三维卷积循环神经网络 |
4.3.3 实验设置 |
4.3.4 实验结果与分析 |
4.4 基于听觉生理情感识别方法比较 |
4.5 本章小结 |
第5章 基于听觉注意机制的语音情感识别 |
5.1 引言 |
5.2 联合谱时特征提取 |
5.2.1 听觉前端信号处理 |
5.2.2 谱时表示 |
5.2.3 3D卷积 |
5.3 基于注意力模型的滑动循环网络 |
5.4 实验结果与分析 |
5.5 注意力行为听辨实验 |
5.6 讨论 |
5.7 本章小结 |
第6章 基于调制耳蜗图特征的维度语音情感识别 |
6.1 引言 |
6.2 基线特征 |
6.2.1 声学基线特征 |
6.2.2 听觉基线特征 |
6.3 多分辨率调制耳蜗图特征 |
6.3.1 MMCG特征 |
6.3.2 MMCG分析 |
6.4 时间序列建模 |
6.4.1 Plain LSTM网络架构 |
6.4.2 Parallel LSTM网络结构 |
6.4.3 损失函数与多任务学习 |
6.5 实验结果与分析 |
6.5.1 实验设置 |
6.5.2 基线特征实验结果 |
6.5.3 MRCG和 MMCG的实验结果与分析 |
6.5.4 SEWA数据库上实验结果与分析 |
6.6 讨论 |
6.7 本章小结 |
第7章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(10)基于蚁群优化的SVM语音情感识别算法研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状及分析 |
1.2.1 语音情感特征提取研究现状 |
1.2.2 语音情感识别网络研究现状 |
1.3 论文主要研究内容 |
1.4 论文组织结构 |
第2章 语音信号预处理及情感特征提取 |
2.1 情感描述模型 |
2.1.1 离散情感模型 |
2.1.2 维度情感模型 |
2.2 情感语音数据库 |
2.2.1 离散情感数据库 |
2.2.2 维度情感数据库 |
2.3 语音信号预处理技术 |
2.3.1 预加重 |
2.3.2 加窗分帧 |
2.3.3 端点检测 |
2.4 语音情感特征提取 |
2.4.1 短时能量及其衍生参数 |
2.4.2 基音频率及其衍生参数 |
2.4.3 共振峰及其衍生参数 |
2.4.4 美尔倒谱系数MFCC |
2.4.5 语音情感特征表 |
2.5 本章小结 |
第3章 基于改进型SVM语音情感识别 |
3.1 支持向量机 |
3.2 SVM参数寻优算法 |
3.2.1 SVM待优化参数 |
3.2.2 遗传算法 |
3.3 基于多类问题的SVM分类模型 |
3.3.1 传统SVM分类策略 |
3.3.2 多级SVM分类算法 |
3.4 基于优化的多级SVM语音情感识别实验 |
3.5 本章小结 |
第4章 基于蚁群优化的多级SVM语音情感识别 |
4.1 蚁群算法 |
4.1.1 蚁群算法的原理 |
4.1.2 蚁群算法数学模型 |
4.2 用于特征选择的蚁群系统建模 |
4.2.1 环境建模 |
4.2.2 相关数学参数定义 |
4.3 蚁群降维算法的优化改进 |
4.3.1 蚁群算法的参数选择及优化 |
4.3.2 蚁群算法的策略优化 |
4.3.3 改进算法流程 |
4.4 基于蚁群优化的多级SVM语音情感识别 |
4.5 实验结果及分析 |
4.6 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
致谢 |
参考文献 |
四、情感语音信息中共振峰参数的提取方法(论文参考文献)
- [1]基于深度学习的语音情感识别研究[D]. 徐华南. 南京信息工程大学, 2021(01)
- [2]基于主辅网络特征融合的语音情感识别[D]. 胡德生. 太原理工大学, 2021(01)
- [3]基于深度学习的语音情感识别算法的设计与实现[D]. 吴虹蕾. 黑龙江大学, 2021(09)
- [4]司法话者识别下的平静语音与生气语音的共振峰研究[D]. 张子扬. 上海师范大学, 2021(07)
- [5]基于表情和语音的多模态情感识别及其在机器人服务任务推理中的应用[D]. 张龙. 山东大学, 2021(12)
- [6]基于语音识别的多维课堂交互分析[D]. 陈雅淑. 华中师范大学, 2021(02)
- [7]基于基频控制的语音合成的研究[D]. 王咿卜. 陕西科技大学, 2021(09)
- [8]基于卷积循环神经网络的语音情感识别方法研究[D]. 闫振兴. 山东大学, 2020(02)
- [9]融入生理学和行为学特征的言语情感识别研究[D]. 彭智朝. 天津大学, 2020(01)
- [10]基于蚁群优化的SVM语音情感识别算法研究[D]. 仝洁. 南昌大学, 2020(01)