百度PaddleSpeech
关于百度PaddleSpeech的初步研究
- 一:PaddleSpeech介绍
- 二:PaddleSpeech主要模块
- TTS
- ASR:
- VPR:开源全链路声纹提取与检索系统
- 其他服务:
- Web服务:
- 三:ASR引擎试用
- 1.WER情况:
- 2.RT情况(在流式的情况下):
- 四:TTS引擎试用
- 五:初步结论
- 六:PaddleSpeech重要工程资料
- 1.环境配置:
- 2.server接口说明:
- 3.各模型下载源:
- 4.各功能demo:
- 5.官方性能测试结论:
- 6.实践范例:
一:PaddleSpeech介绍
PaddleSpeech是百度飞浆开源深度学习平台的其中一个项目,是基于飞桨 PaddlePaddle 语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。
飞浆官网:https://www.paddlepaddle.org.cn/
github地址:https://github.com/PaddlePaddle/PaddleSpeech
相关介绍:https://mp.weixin.qq.com/s/Y9OvOuDKUxHCAPMHsVh-tg
二:PaddleSpeech主要模块
TTS
基于FastSpeech2进行改造,介绍文档:https://www.jiqizhixin.com/articles/2020-06-23-13
相较于端到端非流式合成, PP-TTS 流式合成的平均响应时延降低了97.4%,即使在普通的 CPU 笔记本上也能够实时响应。
ASR:
基于WenetSpeech上万小时训练的语音识别系统:WenetSpeech是从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。采用光学字符识别 (OCR) 和自动语音识别 (ASR) 技术分别标记每个 YouTube 和 Podcast 录音(也就是说这批数据并不是人工标注,而是伪标注,当然应该已经做了一定的筛选策略)
VPR:开源全链路声纹提取与检索系统
声纹特征作为生物特征,具有防伪性好,不易篡改和窃取等优点,配合语音识别与动态密码技术,非常适合于远程身份认证场景。在声纹识别技术的基础上,配合音频检索技术(如演讲、音乐、说话人等检索),可在海量音频数据中快速查询并找出相似声音(或相同说话人)片段。
其他服务:
除了ASR和TTS之外,PaddleSpeech还提供声音克隆,声纹识别,标点恢复,声音分类等功能
Web服务:
把语音识别、语音合成、声纹识别、声音分类、标点恢复这些功能封装到web框架里面,对外提供websocket服务,web框架基于Flask
PS:PaddleSpeech的模型有开箱即用的,也可以基于这些模型进行再训练.
。
三:ASR引擎试用
本次跑了一下PaddleSpeech开箱即用的ASR引擎的demo
1.WER情况:
用100条测试数据测试了一下,离线词错率是28.3%,流式词错率是29.9%,与阿里云或者科大讯飞等第三方ASR引擎对比起来,平均差了4个百分点,感觉这差距还是能接受的。
2.RT情况(在流式的情况下):
- 1:音频流是切成每份85ms,CPU模式下平均识别耗时5ms,实时性是0.06
- 2:同时试了一下多进程(开1个服务端,3个客户端),速度比之前慢了两三倍,85ms的音频流识别需要12ms,实时性变成0.14,另外,实测与freeswitch的交互,速度会更快。
四:TTS引擎试用
本次试用了开箱即用的tts的功能,此功能可以调整语速,音调,以及选择多种音色,但是与官方提供的demo相比,还是多了一些顿挫感,不知道是什么原因。
TTS的音频demo地址:https://paddlespeech.readthedocs.io/en/latest/tts/demo.html
五:初步结论
从效果来说:PaddleSpeech的ASR和TTS功能是可以初步用于普通话比较标准的场景的,但是如果切换到方言口音比较重的场景,词错率就太高了,需要自己的语料进行微调,paddleSpeech本身也提供了相应的fine-tune功能。
从性能来说:无论是GPU和CPU模式,RT时间都是可以的,具体可以参考官方性能测试结论:https://github.com/PaddlePaddle/PaddleSpeech/wiki/ASR-Benchmark ,另外,官方提供了TTS的onnx转换,但目前并不支持ASR的onnx转换
六:PaddleSpeech重要工程资料
1.环境配置:
https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/linux-pip.html
2.server接口说明:
https://github.com/PaddlePaddle/PaddleSpeech/wiki/PaddleSpeech-Server-RESTful-API
3.各模型下载源:
https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/source/released_model.md
4.各功能demo:
https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos
5.官方性能测试结论:
https://github.com/PaddlePaddle/PaddleSpeech/wiki/ASR-Benchmark
6.实践范例:
开源项目 - 飞桨AI Studio - 人工智能学习与实训社区 AI Studio里面倒是有很多有趣的项目,没事可以在里面多逛逛
转载自:https://zhuanlan.zhihu.com/p/527290413
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
