百度PaddleSpeech

2023-12-08 03:45:54

关于百度PaddleSpeech的初步研究

一：PaddleSpeech介绍
二：PaddleSpeech主要模块
- TTS
- ASR：
- VPR:开源全链路声纹提取与检索系统
- 其他服务:
- Web服务:
三：ASR引擎试用
- 1.WER情况：
- 2.RT情况（在流式的情况下）：
四：TTS引擎试用
五：初步结论
六：PaddleSpeech重要工程资料
- 1.环境配置：
- 2.server接口说明：
- 3.各模型下载源：
- 4.各功能demo：
- 5.官方性能测试结论：
- 6.实践范例：

一：PaddleSpeech介绍

PaddleSpeech是百度飞浆开源深度学习平台的其中一个项目，是基于飞桨 PaddlePaddle 语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

飞浆官网：https://www.paddlepaddle.org.cn/
github地址：https://github.com/PaddlePaddle/PaddleSpeech
相关介绍：https://mp.weixin.qq.com/s/Y9OvOuDKUxHCAPMHsVh-tg

二：PaddleSpeech主要模块

TTS

基于FastSpeech2进行改造，介绍文档：https://www.jiqizhixin.com/articles/2020-06-23-13
相较于端到端非流式合成， PP-TTS 流式合成的平均响应时延降低了97.4%，即使在普通的 CPU 笔记本上也能够实时响应。

ASR：

基于WenetSpeech上万小时训练的语音识别系统：WenetSpeech是从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。采用光学字符识别 (OCR) 和自动语音识别 (ASR) 技术分别标记每个 YouTube 和 Podcast 录音（也就是说这批数据并不是人工标注，而是伪标注，当然应该已经做了一定的筛选策略）

VPR:开源全链路声纹提取与检索系统

声纹特征作为生物特征，具有防伪性好，不易篡改和窃取等优点，配合语音识别与动态密码技术，非常适合于远程身份认证场景。在声纹识别技术的基础上，配合音频检索技术（如演讲、音乐、说话人等检索），可在海量音频数据中快速查询并找出相似声音（或相同说话人）片段。

其他服务:

除了ASR和TTS之外，PaddleSpeech还提供声音克隆，声纹识别，标点恢复，声音分类等功能

Web服务:

把语音识别、语音合成、声纹识别、声音分类、标点恢复这些功能封装到web框架里面，对外提供websocket服务，web框架基于Flask

PS：PaddleSpeech的模型有开箱即用的，也可以基于这些模型进行再训练．
。

三：ASR引擎试用

本次跑了一下PaddleSpeech开箱即用的ASR引擎的demo

1.WER情况：

用100条测试数据测试了一下，离线词错率是28.3%，流式词错率是29.9%，与阿里云或者科大讯飞等第三方ASR引擎对比起来，平均差了4个百分点，感觉这差距还是能接受的。

2.RT情况（在流式的情况下）：

１：音频流是切成每份85ms，CPU模式下平均识别耗时5ms，实时性是0.06
２：同时试了一下多进程（开１个服务端，３个客户端），速度比之前慢了两三倍，85ms的音频流识别需要12ms，实时性变成0.14，另外，实测与freeswitch的交互，速度会更快。

四：TTS引擎试用

本次试用了开箱即用的tts的功能，此功能可以调整语速，音调，以及选择多种音色，但是与官方提供的demo相比，还是多了一些顿挫感，不知道是什么原因。

TTS的音频demo地址：https://paddlespeech.readthedocs.io/en/latest/tts/demo.html

五：初步结论

从效果来说：PaddleSpeech的ASR和TTS功能是可以初步用于普通话比较标准的场景的，但是如果切换到方言口音比较重的场景，词错率就太高了，需要自己的语料进行微调，paddleSpeech本身也提供了相应的fine-tune功能。

从性能来说：无论是GPU和CPU模式，RT时间都是可以的，具体可以参考官方性能测试结论：https://github.com/PaddlePaddle/PaddleSpeech/wiki/ASR-Benchmark ，另外，官方提供了TTS的onnx转换，但目前并不支持ASR的onnx转换

六：PaddleSpeech重要工程资料

1.环境配置：

https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/linux-pip.html

2.server接口说明：

https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API

3.各模型下载源：

https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/released_model.md

4.各功能demo：

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos

5.官方性能测试结论：

https://github.com/PaddlePaddle/PaddleSpeech/wiki/ASR-Benchmark

6.实践范例：

开源项目 - 飞桨AI Studio - 人工智能学习与实训社区 AI Studio里面倒是有很多有趣的项目，没事可以在里面多逛逛

转载自：https://zhuanlan.zhihu.com/p/527290413

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > mac 本地bulid 测试包
下一篇 > 计算机视觉（Computer Vision,CV）顶会论文下载地址

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce