数据增广论文调研

  • 《Data Augmentation using Healthy Speech for Dysarthric Speech Recognition》摘要:

构音障碍是指由与运动方面有关的大脑区域创伤引起的言语障碍,导致努力,缓慢,含糊或异常的异常言语。传统的自动语音识别器(ASR)在语音识别语音识别任务上表现不佳,主要原因是语音障碍语音数据不足。讲话者相关的挑战使得语音障碍语音的数据收集过程变得复杂。在本文中,我们探讨了使用时间和速度修改对健康语音进行数据增强以模拟语音障碍语音。基于DNN-HMM的自动语音识别(ASR)和基于随机森林的分类用于评估所提出的方法。合成生成的Dysarthric语音使用随机森林分类器对严重程度进行分类,该分类器训练实际的语音障碍语音。 ASR训练健康的语音,增加模拟的dysarthric语音被评估为dysarthric语音识别。所有评估均使用Universal Access dysarthric speech cor-pus进行。与仅使用健康语音进行训练的ASR性能相比,分别使用基于速度和基于速度的数据增强实现了4.24%和2%WAS的绝对改善。

  • 《Automatic Miscue Detection using RNN Based Models With Data Augmentation》摘要:

本研究提出了一种使用数据增广来解决发音错误检测任务中数据短缺问题的方法。采取了三个主要步骤。首先,开发了一个音素分类器来获取强制对齐数据,这些数据将用于错误分类和数据增广。为了创建音素分类器,通过使用字形到音素(G2P)来训练基于CNN的模型来提取“首尔阅读语音”(SRS)语料库的语音特征。其次,为了获得错误标记的语料库(corpus),使用音素分类器输出执行数据增广,该输出是人为生成的SRS(modified-SRS)的错误语料库。根据三个错误类别随机删除或修改声音部分,创建了这个错误的语料库;扩展(EXT),暂停(PAU)和预校正(PRE)。第三,在使用modified-SRS语料库训练三种基于RNN的模型(LSTM,BiLSTM,BiGRU)之后,测试了错误分类器的性能。结果表明,BiGRU模型在增广数据的F1得分中表现最佳,为0.819,而BiLSTM模型在实际数据上表现最佳,为0.512。

  • 《Multi-Modal Data Augmentation for End-to-End ASR》摘要:

我们提出了一种新的端到端自动语音识别(ASR)架构,除了传统的声学输入之外,还可以使用符号输入进行训练。 该架构使用两个独立的编码器:一个用于声学输入,另一个用于符号输入,两者共用注意力和解码器参数。 我们将这种架构称为多模态数据增强网络(MMDA),因为它可以支持多模态(声学和符号)输入,并且能够在训练期间将大型文本数据集与显着较小的转录语音语料库无缝混合。 我们研究了将大型文本语料库转换为适合训练我们的MMDA网络的符号形式的不同方法。 我们最好的MMDA设置在字符错误率(CER)方面获得了很小的改进,并且在有和没有外部语言模型的情况下,相对于baseline的相对词错率(WER)提高了7-10%。

  • 《Data Augmentation Improves Recognition of Foreign Accented Speech》摘要:

为什么要进行数据增广(也称作数据增强):

先谈一谈在cv和nlp领域数据增广的意义,再说语言识别方面,语音识别任务中除了模型以外的可以提升性能的技巧,

数据增强对于小数据集而言简直就是雪中送炭,当然,如果你拥有大体量的数万小时的语音数据库,而且又能囊括全国各地不同口音风格,那么数据增强理论上也能起到锦上添花的作用。

在此之前,Hinton曾经提出使用Vocal Tract Length Perturbation (VTLP)的方法来提升语音识别的性能,具体的做法就是在训练阶段对每一个音频的频谱特征施加一个随机的扭曲因子,通过这种做法Hinton实现了在TIMIT小数据集上的测试集表现提升了0.65%,VTLP是基于特征层面所做的数据增强技巧,不过后来也有人发现通过改变原始音频的速度所带来的性能提升要比VTLP好。但是音频速度的快慢实际上会影响到音调(pitch),所以提高了音频的速度必然也就增大了音频的音调。反过来也是,降低了音频的速度就会使得音频的音调变小。所以,仅仅通过调节速度的方法就不能产生速度快同时音调低的音频,这就使得音频的多样性有所降低,对语音识别系统的性能提升有限。作者在本文中希望能够通过数据增强来丰富音频的变化,提升数据的数量和多样化,于是作者采取将音频的速度通过两个单独的变量来控制,它们分别是tempo(节奏)和pitch(音调),对音频的节奏和音调的调节可以通过语音的瑞士军刀——SOX软件来完成。

对于中文普通话语音识别而言,不论是不同人说话的语速、语调,还是不同地方的人说普通话的口音,这些导致语音识别的难度非常大,如果想去采集各个地方不同人所说的普通话语料,对于小公司或者小团队而言,是非常不现实的一件事情。所以,如何基于有限的普通话语料去使用数据增强算法来人工构建一个可以模拟全国各个地方不同口音分布的强大语料是一个不得不面对的实际难题,而解决了这个难题实际上也就能极大程度地提升语音识别的鲁棒性。

外语口音(非本地或L2)语音的语音识别仍然是对最新技术的挑战。解决这种情况的最常见方法涉及外语口音语音的收集和转录,并将其纳入训练数据。然而,外语口音语音数据的数量与来自本地(L1)扬声器的材料量相比相形见绌,限制了附加材料的影响。在这项工作中,我们通过数据扩充来解决这个问题。我们创建两个口音的修改副本,拉丁美洲和亚洲口音的英语语音,包括语音转换(模拟声门声源和声道参数),噪声添加和速度修改。我们调查了监督(其中有重音数据的转录可用)和无监督的方法来使用重音数据和相关的增强。我们发现所有增强都提供了改进,最大的收益来自速度修改,然后语音转换和噪声添加提供最少的改进。训练重点特定模型与增强数据的改进是很大的。使用增强数据进行监督和无监督调整(或使用软标签进行培训)的改进相对较小。总的来说,我们发现速度修改是一种非常可靠的数据增强技术,可以提高对外来重音语音的识别。与仅使用重音数据训练的基线相比,我们的策略及相关增强功能可使词错误率(WER)相对减少高达30%。

引言:

1. 对于像英语这样的全球语言,估计表明非母语人士的人数可能超过母语使用者多达3比1

2. 不出所料,我们发现在有监督和无监督的情境中,语音转换和基于速度修改的数据增强有助于识别外国口音语音。 更令人惊讶的是,尽管是最简单的转换方法,我们发现速度修改是一种非常强大的数据增强方法,在处理重音语音识别时产生比语音转换或噪声添加更大的收益。

相关工作:

在这项工作中,研究了几种数据增强技术在音频信号级别用于识别重音语音的有用性。 引入了一种新颖的声源和声道转换作为数据增强技术的基础。 这项技术最初是为韵律标记任务提出的[7]。它用于增强语音识别的声学建模和专注于外国口语语音的速度修改是本文的一个新颖贡献。

数据增强策略:

1. Voice Transformation(语音转换):

该技术能操纵声源和声道特征来改变说话者的语音质量和/或赋予新颖的说话者身份。 由于修改保留了话语的语音内容,因此它们可以与原始的文本标签匹配,以在监督学习方法中创建额外的训练数据。

具体方法属于voice conversion,主要技术涉及到特征提取(LSF,线谱频率,表征不同人,不同性别的参数之一),特征转换和语音合成,

2.Noise Addition(噪声添加):

为了增加ASR模型的噪声鲁棒性,原始声学模型训练数据经常添加附加性噪声和卷积噪声以创建多条件训练集。 Aurora 4语料库数据集证明了这种多条件训练的有用性。 在该数据集中,除了通过各种麦克风失真捕获卷积噪声效应之外,还从街道交通,火车站,汽车,潺潺声,餐馆和机场收集的六个附加性噪声条件被添加到语音数据中。 为了获取噪声添加作为外语口音语音数据增强策略的效果,我们使用FaNT((Filtering and Noise-adding Tool))工具,通过在期望的SNR(信噪比)以及其他所需的频率特性下向语音记录添加噪声来创建增强数据。

3. Speed Modification(速度修改):

执行速度扰动以生成源音频的修改副本。 这种方法通过在0.9和1.1之间均匀随机抽取的乘法因子来修改每个文件的速度。 使用SOX实用程序执行的重新采样会影响文件的持续时间,以及所包含音频的音调和频谱频率。

模型:

CNN:

输入特征:40维log Mel-frequency spectra,应用说话人无关的全局均值和方差归一化,每个语音帧附加11帧的上下文信息,

结构:

卷积层:128 hidden nodes,9x9 filters,2D conv,max pooling,ReLU,

卷积层:256 hidden nodes,3x4 filters,ReLU

4个全连接层:2048 nodes,

注:人们在图像领域的研究中发现多层卷积之后再接 pooling 层,减小卷积核的尺寸可以使得我们能够训练更深的、效果更好的 CNN 模型。

基于权重衰减的监督自适应:

This scheme resembles MAP adaptation, with the adapted weight updates arrived at from using a weighted combination of the updates from adaptation data and the baseline model. 本文所使用的自适应方法类似于MAP自适应,使用来自于baseline模型和自适应数据的加权组合来更新自适应权重。

其中alpha是学习率,beta是正则化参数,E(w)是误差函数,W0是初始模型的模型参数,使用交叉熵来调整网络。

 

基于teacher-student training的无监督自适应:

定义损失函数:

其中qi是teacher model的软标签,作为伪标签使用,pi是student model的类的输出概率。在qi中,竞争类对于每个训练样本将具有小但非零的后验概率。一旦我们训练出了类似于VGG网络的强大的teacher model,就可以训练具有较低计算复杂度的student network,来近似估计teacher的表现。 在teacher-student框架中,由于teacher网络生成的软标签被用作训练student网络的目标,因此并不总是需要相应的转录,意味着teacher-student training可以作为无监督的声学模型训练/自适应[15]方法,本文使用这种方案来训练以及以无监督的方式自适应CNN学生网络。

实验过程和结果:

1. 数据:

原始数据(accented data (AD))是由拉丁美洲口音(20.7 hours from 94 speakers)亚洲口音(22.1 hours from 96 speakers)组成的英语语料库,38h作为训练数据,5h作为held-out。测试数据5h,包括2.1h LA口音,2.4h Asian口音。语料内容包括口语系统中的混合有字母和数字的简短对话,命令短语。

基于语音变换的(VT):实现了7种不同的AD变换,基于经验挑选可以提供丰富说话人身份和表现力的数据,在未使用AD训练过的ASR模型上进行解码,挑选WER低于50%的三种语音变换方式来进行数据增广,获得38x3=114h的数据

基于速度修改的(Speed):通过随机产生的在0.9到1.1之间的乘法因子均匀地改变了AD语料库中每个语料的速度,每个语料产生了3个副本,获得114h数据。

基于噪声添加的(Noise):使用来自DEMAND database的12种噪声,包括餐馆,家庭环境,开放空间,会议室以及公共汽车,汽车和火车等运输模式中的噪音,添加在10h的安静环境下的语料上,获得120h的数据。

解码器:包含250k的词汇

语言模型:4-gram

自适应实验baseline模型训练数据:3600h(来自广播新闻数据等公共语料库),未使用AD数据训练。

监督性实验结果:

AD baseline 模型:CNN模型,仅使用AD数据训练得到。

无监督实验结果:

teacher network:

使用3600h数据训练,不包含AD数据,VGG model,10个卷积层,每三个卷积层插入一个max pooling层,后接4个全连接层,使用批归一化技术,激活函数为ReLU,使用teacher network 每个预测的前50个可能标签的后代来调整CNN baseline。使用KL-散度标准训练student network,等同于最小化软标签的交叉熵。 baseline model也使用来自两种数据增广方案的数据以相同的无监督方式进行自适应训练,由于基于噪声添加的监督训练没有获得增益,因此在无监督实验中不采用添加噪声训练。实验结果如下:

使用多种自适应方法(探索VT和Speed方法是否互补):

使用57h VT data + 57h Speed data:WER on LA 18.24 %,  WER on Asian 19.69%

使用75% VT data + 25% Speed data:WER on LA 17.34% , WER on Asian 17.57%

速度修改仍然是最有效的数据增广方法

结论:

速度修改是非常可靠的数据增广技术,语音转换技术也有帮助,但是效果较差,噪声添加效果最差,甚至会降低性能,

 

 

 

 

 

 

 

 

 

 

 

 

 

 


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部