本文介绍如何提取提取声学特征用于Merlin训练。在语音合成中,属于声码器(vocoder)的内容。
Merlin可以使用两种vocoder,STRAIGHT
或WORLD
。WORLD
的目标是提取60-dim MGC, variable-dim BAP (BAP dim: 1 for 16Khz, 5 for 48Khz), 1-dim LF0;STRAIGHT
的目标是提取60-dim MGC, 25-dim BAP, 1-dim LF0。
新版本的WORLD_v2
还在开发中,目标是提取60-dim MGC, 5-dim BAP, 1-dim LF0(MGC和BAP的维度支持微调)。
由于STRAIGHT
的使用有严格的证书限制,本文,主要介绍WORLD
。