自监督预训练（二）语音部分

2023-11-24 20:10:42

一、Predictive Coding系列

CPC[4][8]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jO8l1Mpl-1618622100070)(./1609662150808.png)]

Contrastive Predictive Coding包含三部分：

编码网络
多层CNN，将输入wave进行降采样，映射为隐层表示 $z_t=g_{enc}(x_t)$
自回归网络
多层GRU，从隐层表示提取context信息， $c_t=g_{ar}(z_{\le t})$
打分函数
$f_k(x_{t+k},c_t)=exp(z_{t+k}^TW_kc_t)$

训练使用Noise-Contrastive Estimation（NCE）的损失函数，给定 $N$ 个随机样本 $X={x_1,...x_N}$ ，里面包含一个正样本 $p(x_{t+k}|c_t)$ 和 $N - 1$ 个负样本，优化的目标函数是：
$L=log\frac{f_k(x_{t+k},c_t)}{\sum_{x_j\in X}f_k(x_j,c_t)}$

APC[5][7]

Autoregressive Predictive Coding主要用于无监督的语音表示学习，基本的思路是先进行无监督预训练，然后使用预训练的网络抽取特征用于下游任务。

APC的输入为语音特征，网络部分使用RNN和regression layer，训练的loss是通过历史 $t_1,t_2,...,t_{k-1})$ 来预测未来 $t_{k+n}$ （这里预测第n帧特征的设计，是为了让模型可以学到更全局的结构信息）:
$\sum_{i=1}^{T-n}|{x_{i+n}-y_i}|$
文章在音素识别和说话人识别两个下游任务对比了APC和CPC的效果：

两个任务上面，APC优于CPC
最优n跟不同的任务以及RNN的层数有关，一般3-5
说话人任务使用底层RNN的输出作为特征更好，音素识别使用高层RNN的输出作为特征更好

MPC[6]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2xpNiMBU-1618622100072)(./1609664736395.png)]

Masked Predictive Coding的loss借鉴的BERT的Masked LM，网络使用transformer。

总结

前面CPC和APC类似于NLP领域的GPT模型，网络使用单向RNN，即使用截止到当前的所有输入来预测未来，MPC类似于NLP领域的BERT模型，网络使用transformer，使用全部的输入来预测某一段mask。

二、wav2vec系列

wav2vec系列的预训练方法是facebook AI Research团队的工作

wav2vec[9]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6kEVJSUb-1618622100074)(./1609667636945.png)]

wav2vec基本思路类似于CPC，使用预训练网络提取特征，用于下游的语音识别任务。
框架中的两个encoder和context两个网络都是使用的多层CNN，训练loss采用contrastive loss。

vq-wav2vec[10]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kDBbRr8h-1618622100075)(./1609670059991.png)]

vq-wav2vec在wav2vec的基础上做了进一步的改进，增加quantization模块，包括gumbel-softmax和K-means clustering两种量化方法。这样可以将输入进行离散化，这一步的目的是方便利用transformer的mask loss。整体训练流程包括三步：

训练vq-wav2vec
基于vq-wav2vec离散化的输出进一步进行BERT的预训练
BERT预训练模型当做特征提取器，提取的特征当做AM的输入

所以本质上还是feature-based的预训练方法。

[11]进一步验证使用量化模块会带来明显的提升，说明了BERT的预训练非常依赖量化的步骤。fbank<量化的fbank

wav2vec2.0[12]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sKJRwF49-1618622100076)(./1609671851730.png)]

将vq-wav2vec的训练流程进一步改进和优化，整体训练流程如下：

训练wav2vec2.0，其中context部分直接使用transformer替换原来的cnn，相当于将vq-wav2vec的前两步合并为一步
训练好的wav2vec2.0网络，直接finetune应用到下游任务

所以本质上是finetune-based的预训练方法

wav2vec2.0的应用

多语种任务[1]

在西班牙语的测试集上面，100小时以上西班牙语语料预训练的模型要好于1350小时的英文预训练的模型，同时好于混合数据预训练（包含100小时西班牙语料）的模型
对于中文数据集合上面，50小时中文预训练的模型要差于1350小时的英文预训练模型，1350小时的英文预训练模型差于1350小时混合数据预训练模型

对于小数据量（小于100小时）的任务，1350混合数据>1350英文预训练>>对应语种的预训练

对于大数据量（几百小时）的任务，对应语种的预训练>>1350混合数据>1350英语数据

对于小数据量（小于100小时）的unseen语种任务，混合数据（不包含该语种）>对应语种的预训练

与self-training的融合[2]

结合思路：

unlabel数据训练wav2vec
使用少量的label数据finetune第一步的模型
使用第二步的模型对unlabel数据进行标注得到
使用少量的label数据和第三步的数据，一起来finetune第一步的模型或者从头开始训练一个seq2seq的模型

从结果来看：

标注数据量小的时候（小于100小时），第四步的模型优于第一步的模型，说明pretraining进一步结合self-training，可以取得进一步的收益
标书数据量大的时候（大于100小时），第四步的模型跟第一步的模型基本相当；但是当使用更大数据的wav2vec模型，第四步的模型还是优于第一步的模型

所以这种算法思路想要work，需要满足一个条件，即unlabel数据远远大于label的数据。

与noise student training的融合[3]

结合思路是：

unlabel数据训练wav2vec，M0
使用label数据对M0进行finetune得到M
使用M结合语言模型对unlabel数据进行标注
将第二步的数据和label进行混合，对M0进行finetune，得到新的模型
重复上面的过程

文章有几个结论：

输入使用fbank替换原来的wave，fbank后面跟两层2维CNN来降采样，步长为(2,2)，当输入的句子长度越长时，降采样越大效果越好
使用conformer的网络结构要优于wav2vec的原始transformer网络
如果没有pretrain，增大网络效果反而变差；有了pretrain，网络越大效果越好
pretrain基础上结合NST训练，会有进一步的提升

参考文献

[1].Unsupervised Cross-lingual Representation Learning for Speech Recognition

[2].Self-training and Pre-training are Complementary for Speech Recognition

[3].Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition

[4].Representation Learning with Contrastive Predictive Coding

[5].An Unsupervised Autoregressive Model for Speech Representation Learning

[6].IMPROVING TRANSFORMER-BASED SPEECH RECOGNITION USING UNSUPERVISED PRE-TRAINING

[7].https://github.com/iamyuanchung/Autoregressive-Predictive-Coding

[8].https://github.com/jefflai108/Contrastive-Predictive-Coding-PyTorch.git

[9].WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION

[10].VQ-WAV2VEC: SELF-SUPERVISED LEARNING OF DISCRETE SPEECH REPRESENTATIONS

[11].EFFECTIVENESS OF SELF-SUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION

[12].wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

微信公众号有最新技术分享，【欢迎扫码关注交流】

在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

自监督预训练（二） 语音部分