Audio-预训练模型（一）：概述

╰+哭是因爲堅強的太久メ 2023-09-25 12:28 68阅读 0赞

基于判别学习的语音预训练模型的发展历程大致从**Deepmind**的**CPC**开始，**FAIR**的**wav2vec系列工作（Wav2vec, Vq-wav2vec, Discret BERT, Wav2vec 2.0，Wav2vec-U）**专注于语音识别任务，一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型，一步步地挑战更为困难的语音识别数据集，使用更少的有标注数据或者完全使用无标注的数据，取得更好的结果。近期FAIR又提出**HuBERT模型**直接使用MLM的方式预测事先聚类好的离散的target。以及近近近期**Meta AI**的**data2vec**模型直接使用掩码加在线蒸馏的方法不仅在语音ASR达到SOTA，还在图像和NLP领域也有强劲的实力。（从CPC到data2vec都是旨在提出一个语音/vision/NLP都可以使用的一个自监督学习方法，从RNN时代到Transformer时代，仿佛历经一场轮回，但其实发表时间只是时隔3年而已…）

再看**谷歌**这边使用自家的Conformer框架一次次的基于Wav2vec2.0自监督训练方法针对于语音识别任务"**pushing the limits**"，把预训练模型做的更大更强，用1百万小时的youtube语音数据训练了8B参数的**BigSSL**，也把Wav2vec2.0和HuBERT模型结合提出了**W2V-BERT**模型，进一步刷新了自己的SOTA。

与此同时，**微软**也基于Wav2vec2.0提出了**UniSpeech**模型，在自监督学习时充分使用已标注好的数据，以及**wav2vec-Switch**模型专注于提升预训练模型的抗噪能力。基于HuBERT框架，微软针对ASR任务提出了**ILS-SSL**模型，通过让中间层也去预测target使ASR结果明显提升（与data2vec比肩的结果），针对Speaker相关的任务提出了**Unispeech-SAT**模型，通过加入句子混杂增强和句子之间的对比学习有效提升模型在speaker相关任务上的结果。为了实现ASR、Speaker以及其它语音下游任务的大一统，微软还提出的**WavLM**模型在十几个语音任务上都取得了SOTA结果。除了基于encoder的预训练模型，微软还有基于encoder-decoder的**SpeechT5**模型，能有效地用于所有文字和语音互相转化的任务（包括ASR, VC, TTS等等）

## 一、从声学特征到自监督语音特征 ##

我们都知道，自监督学习的崛起与广泛研究工作不过是近几年的新闻而已，深度学习不过也流行了不过十年。在这一切之前，如何解决各种各样语音任务还是极度的依赖于资深语音信号大佬们专业知识。大佬们依据经验和公式推导可以从语音信号中提取出多种**声学特征**（Acoustic Feature），我们就可以直接将这些特征作为输入向量用于各项语音任务中，并且能取得很好的效果。

![262964798e2c42218034febca074a257.png][] 专家们指导我们可以从语音信号中提取出多种声学特征。（图源台大李宏毅老师slides: http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20(v12).pdf）

然而， 这些预先定义好的声学特征（MFCC、FBank等）只能够捕捉到很短时间内的局部时频特征的信息。

那么，我们能不能通过在大规模无标注的语音数据上用自监督的方法学习到一个模型，再使用这个模型为一段音频信号抽取出**包含上下文的高维语义信息的特征向量**呢？

目前的语音预训练模型的自监督学习方法主要包括：

1.  **基于生成的自监督学习方法**；
2.  **基于判别的自监督学习方法；**

### 1、**基于生成的自监督学习方法** ###

**基于生成的自监督学习方法**（如APC、VQ-APC、Mockingjay等）的输入和输出通常都是声学特征，通过使用自回归预测或者随机掩码输入特征的方式让模型去学习重构完整的声学特征。如很多论文（CPC、BEiT等）中提到的，这种基于MSE loss的自监督学习方法有个弊端是：它要求模型去重构声学特征中的每一个细节，而这其中的很多细节可能是一些低层或噪声信息，并非我们想要让模型学习的高维语义信息。这样就会浪费模型的建模能力以及宝贵的计算资源。

### 2、**基于判别的自监督学习方法** ###

如今更为主流的是**基于判别的自监督学习方法**（如CPC、wav2vec2.0、HuBERT等）。CPC和wav2vec2.0等模型主要使用对比学习的方法，其中想要预测的向量是正例，再从当前句子中的其他位置上选出一些负例。HuBERT模型则是用离线的方式先为每一帧语音打好一个label（比如从500个类别中选择一个ID），然后将此label视为正例，其他类别都视为负例，使用CrossEntropy loss进行训练。

[NLP预训练模型综述\_Mystery\_zero的博客-CSDN博客][NLP_Mystery_zero_-CSDN]

[预训练模型最新综述：过去、现在和未来\_PaperWeekly的博客-CSDN博客][PaperWeekly_-CSDN]

[一网打尽：14种预训练语言模型大汇总\_zenRRan的博客-CSDN博客][14_zenRRan_-CSDN]

[10个预训练模型开始你的深度学习（计算机视觉部分）\_小白学视觉的博客-CSDN博客][10_-CSDN]

[万小时数据预训练 大规模中文语音预训练模型 分享\_lqfarmer的博客-CSDN博客][_ _lqfarmer_-CSDN]

[通用模型、全新框架，WavLM语音预训练模型全解\_微软技术栈的博客-CSDN博客][WavLM_-CSDN]

[带你了解3类预训练语音模型预测方法\_华为云开发者联盟的博客-CSDN博客\_语音识别预训练模型][3_-CSDN]

[基于判别学习的语音预训练模型（0）---简单总结 - 知乎][0_---_ -]

[基于判别学习的语音预训练模型（1）---从声学特征到自监督语音特征 - 知乎][1_---_ -]

[262964798e2c42218034febca074a257.png]: https://img-blog.csdnimg.cn/262964798e2c42218034febca074a257.png
[NLP_Mystery_zero_-CSDN]: https://blog.csdn.net/anny0001/article/details/109388170
[PaperWeekly_-CSDN]: https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/117969985
[14_zenRRan_-CSDN]: https://blog.csdn.net/qq_27590277/article/details/123887776
[10_-CSDN]: https://blog.csdn.net/qq_42722197/article/details/113805186
[_ _lqfarmer_-CSDN]: https://blog.csdn.net/lqfarmer/article/details/125696004
[WavLM_-CSDN]: https://blog.csdn.net/helendemeng/article/details/122130311
[3_-CSDN]: https://blog.csdn.net/devcloud/article/details/121028387
[0_---_ -]: https://zhuanlan.zhihu.com/p/463864969
[1_---_ -]: https://zhuanlan.zhihu.com/p/463866895