语音和语音合成基本知识
一.语音领域基础知识:
声学特征包括基频 能量 声音质量 频谱等。
基频就是论文中经常出现的F0 feature(pitch),是复杂声波中最低的频率(其他频率叫谐波)。
基频和音高有很紧密的对应关系,它决定语音音调的高低。
陪音频率又叫谐波频率,他们决定语音的音色的差别。
所以两个有相同基频的语音可以因为谐波频率的不同而具有不同的音色;同时具有相同音色的语音,因为基频的不同而具有不同的音高。
二.语音合成领域:
一种方式比如是从汉字读音 先得到 音节 再得到音素;
一般语音合成vocoder的输入:
1.linguistic feature
1).phoneme syllable
2).characters syllable
2.predicted log fundamental frequency (F0)
3.phoneme durations
4.mel spectrograms
使用mel 谱表示比波形更平滑,并且也更容易用平方误差,因为在每帧的相位是不变的。
备注:
英语有48种音素;汉语32种音素;
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
