Skip to content

Instantly share code, notes, and snippets.

@candlewill
Last active July 12, 2021 05:05
Show Gist options
  • Save candlewill/d1d53e0043f616bd1b2781afe166c19f to your computer and use it in GitHub Desktop.
Save candlewill/d1d53e0043f616bd1b2781afe166c19f to your computer and use it in GitHub Desktop.

Merlin for Chinese

用于中文语音合成的Merlin。本文,主要利用Merlin,合成中文语音。

数据准备

为了测试方法是否可行,我们仅使用100条数据。待确认可行,再使用完整数据。

由于缺少中文前端,我们仅使用音素。

数据集:King_TTS

# 在dl44机器上执行
cd /home/train01/heyunchao/workspace/tacotron_3/tacotron/King_TTS_031_01subsel
scp -P 32658 01subsel.zip  root@10.38.11.161:/root/workspace/TTS_DATA/King_TTS_031_01subsel

# 在cloudml deep-learning 2机器上执行
# 音频文件
cd /root/workspace/TTS_DATA/King_TTS_031_01subsel
unzip 01subsel.zip
# 文本文件
cd /root/workspace/TTS_DATA/King_TTS_031_01subsel
# upload from local PC
tar zxvf 01news.tar.gz

# 从音频(01news)、文本(01subsel)文件夹中各区100条数据保存到subset文件夹
mkdir -p subset/wav
mkdir -p subset/interval
for file in $(ls -p 01news | grep -v / | head -100)
do
cp 01news/$file subset/interval/
done

for file in $(ls -p 01subsel | grep -v / | head -100)
do
cp 01subsel/$file subset/wav/
done

格式转换

我们需要将Praat格式的interval文件转为lab格式:

cd subset/
mkdir lab
python3 interval_2_lab.py interval lab

interval_2_lab.py脚本路径为:http://v9.git.n.xiaomi.com/heyunchao/Merlin_Toolkit/blob/master/CN_Tools/interval_2_lab.py

创建文件列表file_id_list.scp

cd /root/workspace/TTS_DATA/King_TTS_031_01subsel/subset
ls lab/ | cut -d "." -f 1 > file_id_list.scp

训练时长模型

  1. 编辑全局配置文件global_settings.cfg
  2. 编辑时长模型配置文件duration_cmu_arctic.conf
  3. 准备log config

环境准备


Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment