SLT2021: LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER
0. 题目
LEARN2SING: TARGET SPEAKER SINGING VOICE SYNTHESIS BY LEARNING FROM A SINGING TEACHER
学会唱歌: 目标说话人从一个歌唱老师那里学会唱歌(歌声合成)

1. 摘要
唱歌声合成已受到越来越多的关注 语音合成领域发展迅速。通常,为了从歌词和与音乐相关的录音, 乐谱等中产生自然的演唱声音,通常需要录音棚级的演唱语料库。但是,这样的语料库很难收集,因为我们很多人都很难像专业歌手一样唱歌。在本文中,我们提出了一种方法– Learn2Sing,该方法只需要唱歌老师即可生成目标演讲者的歌声,而无需他们(目标者, 学生)的歌声数据。在我们的方法中,使用自回归合成框架, 老师的歌唱语料库和多说话者语料共同训练,共享speaker embedding结构和空间, 共享韵律标签embedding向量。同时,由于目标说话人没有与音乐相关的转录,因此我们使用对数刻度基频(LF0)作为辅助功能,作为声学模型的输入,以建立统一的输入表示。为了使目标说话者在推理阶段无需参考歌声音频就可以歌声合成,还训练了持续时间模型和LF0预测模型。特别是,我们在声学模型中采用领域对抗训练(DAT),其目的是通过将风格与歌唱和说话数据的声学特征区分开来提高目标说话者的歌唱性
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
