零基础语音识别task3
这次我们学习了除了baseline的梅尔频谱另外的一些语音特征,
过零率 (Zero Crossing Rate)
频谱质心 (Spectral Centroid
声谱衰减 (Spectral Roll-off)
梅尔频率倒谱系数 (Mel-frequency cepstral coefficients ,MFCC)
色度频率 (Chroma Frequencies)
1.过零率,过零率是一个信号符号变化的比率,即,在每帧中,语音信号从正变为负或从负变为正的次数。


2.频谱质心
频谱质心(Spectral Centroid)是描述音色属性的重要物理参数之一,是频率成分的重心,是在一定频率范围内通过能量加权平均的频率,其单位是Hz。如果音乐是轻松 快活的,则它的频谱质心主要集中在高频,它的是阴暗、低沉,频谱心主要就是集中在高频。
这里代码的librosa.feature.spectral_centroid 计算信号中每帧的光谱质心

这个是质谱频率的计算公式
3.声谱衰减 (Spectral Roll-off)
它是对声音信号形状(波形图)的一种衡量,表示低于总频谱能量的指定百分比的频率.
类似的这里的librosa.feature.spectral_rolloff 计算信号中每帧的滚降系数
4.色度频率 (Chroma Frequencies)

6.MFCC特征提取
在语音识别领域中MFCC(Mel Frequency Cepstral Coefficents)特征提取是最常用的方法,也是本次音频分类任务中涉及到的特征提取方法。
对语音信号进行分帧处理
用周期图(periodogram)法来进行功率谱(power spectrum)估计
对功率谱用Mel滤波器组进行滤波,
计算每个滤波器里的能量
对每个滤波器的能量取log
进行离散余弦变换(DCT)变换
保留DCT的第2-13个系数,去掉其它
个人觉得mfcc特征提取就是把语音信息通过一系列方法转换成多组特征向量

6.1短时傅里叶分析
声音信号本是一维时域信号(声音信号随时间变化),我们可以通过傅里叶变换将其转换到频域上,但这样又失去了时域信息,无法看出频率分布随时间的变化。短时傅里叶(STFT)就是为了解决这个问题而发明的常用手段。
所谓的短时傅里叶变换,即把一段长信号分帧、加窗,再对每一帧做快速傅里叶变换(FFT),最后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式,也就是我们task2中得到的声谱图。

6.1.1 分帧
语音信号是不稳定的信号,我们要对其一帧一帧的分割来看
6.1.2对每帧信号进行DFT
我们可以使用离散傅里叶变换(DFT)把每一帧信号变换到时域

最后得到像task2的图,颜色越深频率(能量)越高
7.1
声谱图往往是很大的一张图,且依旧包含了大量无用的信息,所以我们需要通过梅尔标度滤波器组(mel-scale filter banks)将其变为梅尔频谱。
这里涉及了mel尺度,人耳对声音不是线性感觉的,而mel美化将其转换为频谱图,建立人类的听觉感知的频率到声音实际频率直接的映射。
转换公式


mel滤波器用来模拟人耳的听觉感受,梅尔滤波器组。一组大约20-40(通常26)个三角滤波器组,它会对上一步得到的周期图的功率谱估计进行滤波。而且区间的频率越高,滤波器就越宽(但是如果把它变换到美尔尺度则是一样宽的)。为了计算方便,我们通常把26个滤波器用一个矩阵来表示,这个矩阵有26行,列数就是傅里叶变换的点数。
个人理解就是mel滤波按照mel美化得到的频谱图中的频率滤波,得到的波符合人耳的听觉感知的。
8.1
mel倒谱分析
在梅尔频谱上做倒谱分析(取对数log,做离散余弦变换(DCT)变换)就得到了梅尔倒谱。
对上面得到的26个点的信号进行DCT,得到26个倒谱系数(Cepstral Coefficents),最后我们保留2-13这12个数字,这12个数字就叫MFCC特征。
灵魂的拷问:为什么要进行对数运算?它在干嘛?
对数运算包括取绝对值和log运算。取绝对值是仅使用幅度值,忽略相位的影响,因为相位信息在语音识别中作用不大。log运算是为了分别包络和细节,包络代表音色,细节带包音高,显然语音识别就是为了识别音色。另外,人的感知与频率的对数成正比,正好使用log模拟。FFT变换后,卷积变成了乘法,取对数后,乘法变成了加法,把卷积信号转换成加性信号。
。对功率谱再做DCT的目的就是为了提取信号的包络。
这里还可以学习到,这里以后能作为优化方向


作者认为这一部分还是比较难的,这次任务主要学到其他几种的语音特征,主要的是mfcc的学习,傅里叶变换,mel滤波,mel倒谱
1。参考文章
链接:https://zhuanlan.zhihu.com/p/181718235
来源:知乎
2.datawhile组织零基础语音识别task3
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
