生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

随笔1年前 (2024)发布飞鱼

0 0

NVIDIA NeMo 是一个端到端云原生框架，无论是在本地还是在云上，用户可以灵活地构建、定制和部署生成式 AI 模型，更多内容可点击查看：NVIDIA Nemo——用于构建和部署生成式 AI 模型的端到端云原生框架_nv生态下的模型部署、迁移、调试

本期旨在了解和探讨使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应⽤。

NVIDIA NeMo 的 ASR (Automatic Speech Recognition)、NLP (Nature Language Processing) 和 TTS(Text-to-Speech) 预训练模型是在多数据集上训练的（包括⼀些语⾔，如中⽂普通话），针对准确性进⾏了优化，可以⽤于训练、微调新模型或在现有预训练模型上进⾏迁移学习。

模型的每个模块（如编码器、解码器）的预训练权重有助于加速特定领域数据的模型训练，同时对于推理⽽⾔，训练好的模型可以很容易地转换为可部署推理的格式。NeMo 也提供了教程帮助⽤户训练或微调⽤中⽂普通话进⾏对话 AI 的模型。

现代 TTS 系统相当复杂，“端到端”（指从原始⽂本到⾳频输出）pipeline 由多个组件组成，每个组件都需要⾃⼰的模型或启发式⽅法。⼀个标准的 pipeline ⼀般包含以下步骤：

生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

图片来源于NVIDIA

1. ⽂本规范化：将原始⽂本转换为⼝语⽂本。

2. 词素到⾳素转换（G2P）：将规范后⽂本的基本单位（即词素/字符）转换为⼝语的基本单位（即⾳素）。

3. 谱图合成：将⽂本/⾳素转换为频谱图。

4. ⾳频合成：使⽤声码器将频谱图转换为⾳频，也称为频谱图反转。

对于后两步（谱图合成、⾳频合成），⽬前⽐较常⽤两步组合的 pipeline，⽐如 Tacotron2 + WaveGlow 的组合，前者是从⽂本⽣成梅尔频谱的模型，后者是从梅尔频谱⽣成⾳频的模型，NeMo的较新进展是基于 FastPitch + HiFi-GAN 的组合。

FastPitch 是基于 FastSpeech 完全并⾏的⽂本到语⾳合成模型，以基频轮廓为条件。该模型在推理过程中预测⾳⾼轮廓，通过改变这些预测，⽣成的语⾳可以更具表现⼒，更符合语句的语义，最终更能吸引听众。

HiFi-GAN 专注于设计⼀种声码器模型，能有效地从中间旋律谱图合成原始波形⾳频。它由⼀个发⽣器和两个鉴别器（多尺度和多周期）组成。⽣成器和鉴别器采⽤对抗训练，并增加了两个损失，以提⾼训练稳定性和模型性能。

NeMo 的“端到端”的模型还在开发中，TTS 推理部署⽅案建议使⽤我们之前分享过的 Triton 的 Ensemble Model 功能以零代码的⽅式组合同时运⾏的多个模块，如⽂本规范化、G2P、编码器等预处理

Triton Ensemble 可以将它们⽆缝组合在⼀起，⽽⽆需编写任何串联代码，实现了零代码的模型串联功能。对于声学模型的解码器、vocoder 以及最后的 Chunk 拼接的 Blender，Triton ensemble 也能以零代码的⽅式将它们组合在⼀起。前述模型包括Mel-Spectrogram Generator和 Vocoder，都可以使⽤ TensorRT 来加速推理。

生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

图⽚来源于NVIDIA

使⽤ NeMo 可以快速实现以上步骤集成 TTS pipeline，NeMo 对于 TTS 训练有完整的⽀持包括：

Model Recipes，模型配⽅包括⽤于训练和评估模型的步骤和⽅法
Configuration Files，训练配置⽂件
Pre-trained Model Checkpoints，预训练模型权重

接下来我们将使⽤ NVIDIA NeMo FrameWork 容器实践 TTS 的训练，特别是频谱模型和⾳频合成器模型的训练和微调。

一、系统环境准备

⼿动安装可以参考 NeMo 的安装指南（https://github.com/NVIDIA/NeMo/blob/stable/docs/source/starthere/intro.rst#installation），这⾥采⽤更简便的官⽅容器⽅式（镜像查询和下载可能需要⼀定的权限，请⾃⾏检查NGC账号权限）。

# pull latest NeMo Framework container docker pull nvcr.io/nvidia/nemo:24.01.framework docker run -it -d --cap-add=SYS_PTRACE --cap-add=SYS_ADMIN --security-opt seccomp=unconfined --gpus=all --shm-size=16g --privileged --ulimit memlock=-1 --name=nemo_test -v /home/docker/mnt:/home -p 28888:8888 -p 16006:6006 nvcr.io/nvidia/nemo:24.01.framework

NeMo 部分组件版本信息：

ndc 0.1.0
nemo_toolkit 1.23.0
megatron_core 0.5.0rc0
transformer-engine 1.4.0.dev0+da30634
nemo_aligner 0.1.0rc0

NeMo 容器环境准备好之后，我们看⼀下 FastPitch 和 HiFi-GAN 模型的训练，FastPitch 与⼤多数 NeMo 模型⼀样，是⼀种 LightningModule，⽀持使⽤PyTorch Lightning训练，通过YAML⽂件定义来参数化配置并使⽤Hydra加载。


# NeMo中使用预训练模型生成频谱图
from nemo.collections.tts.models.base import SpectrogramGenerator
from nemo.collections.tts.models import FastPitchModel
 
from matplotlib.pyplot import imshow
from matplotlib import pyplot as plt
 
# 查看可使用的 FastPitch pretrained models 列表
print("FastPitch pretrained models:")
print(FastPitchModel.list_available_models())
 
# 加载 pre-trained Model
pretrained_model = "tts_en_fastpitch"
spec_gen = FastPitchModel.from_pretrained(pretrained_model)
spec_gen.eval();
 
assert isinstance(spec_gen, SpectrogramGenerator)
 
if isinstance(spec_gen, FastPitchModel):
    tokens = spec_gen.parse(str_input="Hey, welcome to Nvidia NeMo TTS!")
else:
    tokens = spec_gen.parse(text="Hey, welcome to Nvidia NeMo TTS")
 
spectrogram = spec_gen.generate_spectrogram(tokens=tokens)
 
%matplotlib inline
# 可视化查看生成的频谱图
imshow(spectrogram.cpu().detach().numpy()[0,...], origin="lower")
plt.show()

生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

如上代码，我们简单尝试了使⽤ NeMo 框架⼯具利⽤ FastPitch 预训练模型⽣成频谱图。接下来我们按照 NVIDIA 官⽅提供的教程，实现⽀持中英⽂双语的 FastPitch 和 HiFi-GAN 的训练和微调。

二、开启 jupyter notebook

⾸先在docker容器内开启 jupyter notebook，host 主机上访问http://localhost:8888，通过token登⼊，之后的训练过程主要会在 jupyter notebook 上进⾏。

# 开启 jupyter notebook root@f37a875dac31:/home# jupyter notebook > "jupyter-`date +"%Y%m%d%H%M%S"`.log" 2>&1 [I 06:07:19.341 NotebookApp] Writing notebook server cookie secret to /root/.local/share/jupyter/runtime/notebook_cookie_secret [I 06:07:20.233 NotebookApp] jupyter_tensorboard extension loaded. [I 06:07:20.538 NotebookApp] JupyterLab extension loaded from /usr/local/lib/python3.10/dist-packages/jupyterlab [I 06:07:20.538 NotebookApp] JupyterLab application directory is /usr/local/share/jupyter/lab [I 06:07:20.540 NotebookApp] [Jupytext Server Extension] NotebookApp.contents_manager_class is (a subclass of) jupytext.TextFileContentsManager already - OK [I 06:07:20.544 NotebookApp] Serving notebooks from local directory: /home [I 06:07:20.544 NotebookApp] Jupyter Notebook 6.4.10 is running at: [I 06:07:20.544 NotebookApp] http://hostname:8888/?token=87aeab0595ef72111a234a28cc996da5f35d494707b2c8b0 [I 06:07:20.544 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation). [C 06:07:20.547 NotebookApp] To access the notebook, open this file in a browser: file:///root/.local/share/jupyter/runtime/nbserver-2068-open.html Or copy and paste this URL: http://hostname:8888/?token=87aeab0595ef72111a234a28cc996da5f35d494707b2c8b0

三、下载相关脚本和⽂件

# 以下命令在容器shell内执行 cd /home export BRANCH = 'main' mkdir -p NeMoChineseTTS cd NeMoChineseTTS wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/scripts/tts_dataset_files/zh/24finals/pinyin_dict_nv_22.10.txt wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/scripts/dataset_processing/tts/sfbilingual/get_data.py wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/scripts/dataset_processing/tts/sfbilingual/ds_conf/ds_for_fastpitch_align.yaml wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/examples/tts/fastpitch.py wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/examples/tts/hifigan_finetune.py wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/scripts/dataset_processing/tts/extract_sup_data.py wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/scripts/dataset_processing/tts/generate_mels.py wget https://raw.githubusercontent.com/NVIDIA/NeMo/$BRANCH/examples/tts/conf/zh/fastpitch_align_22050.yaml wget https://raw.githubusercontent.com/NVIDIA/NeMo/$BRANCH/examples/tts/conf/hifigan/hifigan.yaml mkdir -p model/train_ds && cd model/train_ds && wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/examples/tts/conf/hifigan/model/train_ds/train_ds_finetune.yaml mkdir -p model/validation_ds && cd model/validation_ds && wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/examples/tts/conf/hifigan/model/validation_ds/val_ds_finetune.yaml mkdir -p model/generator && cd model/generator && wget https://raw.githubusercontent.com/nvidia/NeMo/$BRANCH/examples/tts/conf/hifigan/model/generator/v1.yaml

四、数据准备

FastPitch的原⽣训练相关代码和资料可查看DeepLearningExample，下⾯我们需要完成本次训练的数据准备⼯作，主要分4步。

1. 下载 SFSpeech 数据集

# 第一步：下载 SFSpeech 数据集 # 依赖 NGC ，请提前安装好 NGC CLI 工具 mkdir DataChinese && cd DataChinese ngc registry resource download-version "nvidia/sf_bilingual_speech_zh_en:v1" && cd sf_bilingual_speech_zh_en_vv1 && unzip SF_bilingual.zip

SFSpeech 双语数据集发布在NGC，包含约2,740个单⼀⼥性发⾔者的双语⾳频样本及其相应的⽂本转录，每个样本的⾳频时⻓约为5-6秒，总时⻓约为4.5⼩时。

对于⾃定义数据的规范，官⽅给出的相关建议是：

最好以22050赫兹的采样率获取语⾳数据，或者以更⾼的采样率获取数据，然后将其降采样⾄22050赫兹。

> 如果低于22050赫兹且⾼于16000赫兹：

请在⾃⼰的数据集上重新训练WaveGlow。
调整频谱图⽣成参数，即窗⼝⼤⼩和傅⽴叶变换的窗⼝跨度。

> 对于16000赫兹以下的频率，请考虑获取新数据。

在⽐特率/量化⽅⾯，⼀般建议越⾼越好。我们还没有进⾏⾜够的实验来说明这对质量有多⼤影响。
对于数据量，同样是越多越好，⽽且在⾳素⽅⾯越多样化越好。在过滤静⾳和⾮语⾳⾳频后，⽬标是⼤约20⼩时的语⾳。
⼤多数开放语⾳数据集的格式约为10秒，可以认为⽤于训练Tacotron 2的⾳频数据⻓度10秒⾄20秒的是有效的。语⾳样本越⻓，训练就越困难。
⾳频⽂件应该是⼲净的，背景噪⾳或⾳乐要少。使⽤⼯作室⻨克⻛录制的数据⽐使⽤⼿机捕获的数据更容易训练。
为确保单词的发⾳准确；训练效果与数据集⾮常相关，需要进⾏⽂本到⾳标拼写，使⽤正确发⾳的⾳标字⺟（符号）。

2. 创建数据清单

借助前述下载好的脚本 get_data.py 读取数据集中提供的 DataChinese/SF_bilingual/text_SF.txt为每个数据点⽣成以下字段:

audio_filepath: wav⽂件的位置；
duration: wav⽂件的时⻓；
text: 原始⽂本；
normalized_text: 规范化后⽂本。

运⾏以下命令获取最终的清单：train_manifest.json , val_manifest.json 和 test_manifest.json 。命令将 1% 的数据分为验证集，1% 分为测试集，剩余的 98% 分为训练集。这个过程包含了拆分数据集处理和规范化数据两种操作。

cd /home/NeMoChineseTTS python get_data.py --data-root ./DataChinese/sf_bilingual_speech_zh_en_vv1/SF_bilingual/ --manifests-path ./ --val-size 0.005 --test-size 0.01

3. 音素化

⼀个中⽂句⼦的发⾳可以表示为⼀串⾳素，⾸先使⽤ pypinyin 库将句⼦转换为拼⾳序列，然后使⽤预定义的拼⾳到⾳素字典将它们转换为⾳素。对于句⼦中的英⽂单词，我们直接使⽤字⺟作为输⼊单位。例如：

print("text: 我今天去了Central Park逛了逛。") print("pinyin: 'wo3', 'jin1', 'tian1', 'qu4', 'le5', 'C', 'e', 'n', 't', 'r', 'a', 'l', ' ', 'P', 'a', 'r', 'k', 'guang4', 'le1', 'guang4')

从 get_data.py ⽣成的原始 json 数据集拆分仅包含⽂本/字形输⼊，使⽤⾳素可以获得更⾼质量的合成⾳频。根据教程这⾥默认使⽤中⽂⾳素和英⽂字⺟作训练。

4. 创建补充数据

为了优化训练，还需要为每个⾳频提取⾳⾼，估计⾳⾼统计数据（均值、标准差、最⼩值和最⼤值），这⾥通过 extract_sup_data.py 脚本对数据进⾏⼀次迭代完成。注意：这是⼀个可选步骤，如果跳过，将在训练 FastPitch 的第⼀个 epoch ⾃动执⾏。

cd /home/NeMoChineseTTS python extract_sup_data.py --config-path . --config-name ds_for_fastpitch_align.yaml manifest_filepath=train_manifest.json sup_data_path=sup_data phoneme_dict_path=pinyin_dict_nv_22.10.txt ++dataloader_params.num_workers=4

五、模型训练

1. 训练FastPitch模型

在训练模型之前先定义模型配置，配置⽂件：fastpitch_align_22050.yaml ，⼤部分模型配置保持不变，此外有两处改动：

phoneme_dict_path ⽂件路径指向 pinyin_dict_nv_22.10.txt ;
pitch_mean 和 pitch_std 使⽤上述 extract_sup_data.py 脚本估算出的值进⾏更新：

PITCH_MEAN=226.75924682617188,

PITCH_STD=58.773109436035156,

PITCH_MIN=65.4063949584961,

PITCH_MAX=1986.977294921875.

# 单卡训练 cd NeMoChineseTTS CUDA_VISIBLE_DEVICES=0 python fastpitch.py --config-path . --config-name fastpitch_align_22050 model.train_ds.dataloader_params.batch_size=32 model.validation_ds.dataloader_params.batch_size=32 train_dataset=train_manifest.json validation_datasets=val_manifest.json sup_data_path=sup_data exp_manager.exp_dir=resultChineseTTS trainer.max_epochs=1500 trainer.check_val_every_n_epoch=1 pitch_mean=226.75924682617188 pitch_std=58.773109436035156 phoneme_dict_path=pinyin_dict_nv_22.10.txt

注意:

> 使⽤ CUDA_VISIBLE_DEVICES=0 来限制训练仅在单个GPU上进⾏；

> 添加FLAGS：HYDRA_FULL_ERROR=1, CUDA_LAUNCH_BLOCKING=1 开启debug模式；

> 从头开始训练，建议使⽤⾄少5000个epochs。

2. 评估：训练好的 FastPitch + 预训练 HiFi-GAN


import IPython.display as ipd
from nemo.collections.tts.models import HifiGanModel, FastPitchModel
from matplotlib.pyplot import imshow
from matplotlib import pyplot as plt
 
test = "Hotmail会以资料夹方式区分不同邮件来源"
test_id = "com_SF_ce438"
data_path = "NeMoChineseTTS/DataChinese/sf_bilingual_speech_zh_en_vv1/SF_bilingual/wavs/"
seed = 1104
 
def evaluate_spec_fastpitch_ckpt(spec_gen_model, v_model, test):
    with torch.no_grad():
        torch.manual_seed(seed)
        torch.cuda.manual_seed(seed)
        torch.backends.cudnn.enabled = True
        torch.backends.cudnn.benchmark = False
        parsed = spec_gen_model.parse(str_input=test, normalize=True)
        spectrogram = spec_gen_model.generate_spectrogram(tokens=parsed)
        print(spectrogram.size())
        audio = v_model.convert_spectrogram_to_audio(spec=spectrogram)
 
    spectrogram = spectrogram.to('cpu').numpy()[0]
    audio = audio.to('cpu').numpy()[0]
    audio = audio / np.abs(audio).max()
    return audio, spectrogram
 
# 加载 fastpitch 和 hifigan 模型
import glob, os
# fastpitch_nemo_or_ckpt文件路径
fastpitch_model_path = sorted(glob.glob("NeMoChineseTTS/resultChineseTTS/FastPitch/*/checkpoints/*.*"),key=os.path.getmtime)[-1]
 
# 预训练模型 hifigan， 来源：https://api.ngc.nvidia.com/v2/models/nvidia/nemo/tts_en_lj_hifigan/versions/1.6.0/files/tts_en_lj_hifigan_ft_mixerttsx.nemo
hfg_ngc = "tts_en_lj_hifigan_ft_mixerttsx" 
 
vocoder_model = HifiGanModel.from_pretrained(hfg_ngc, strict=False).eval().cuda()
if ".nemo" in fastpitch_model_path:
    spec_gen_model = FastPitchModel.restore_from(fastpitch_model_path).eval().cuda()
else:
    spec_gen_model = FastPitchModel.load_from_checkpoint(checkpoint_path=fastpitch_model_path).eval().cuda()
    
%matplotlib inline
audio, spectrogram = evaluate_spec_fastpitch_ckpt(spec_gen_model, vocoder_model, test)
 
# 播放音频
print("原始音频")
ipd.display(ipd.Audio(filename=data_path+test_id+'.wav', rate=22050))
print("预测音频")
ipd.display(ipd.Audio(audio, rate=22050))

原始⾳频：hotmail-orig.wav
预测⾳频（62 epoches）: hotmail-generate-62epoches.wav
预测⾳频（1594 epoches）：hotmail-generate-1594epoches.wav

基于以上代码，我们⼀共⽐较了三个训练模型，分别迭代62、1594、5000 epochs，迭代 62 次合成的⾳频质量是⽐较糟糕的，在训练1594个epochs后有所改善但仍然不理想。因为上述⽐较使⽤的是预训练HiFi-GAN模型，为了进⼀步提⾼质量下⾯我们依照微调 FastPitch 的⽅式对 HiFi-GAN 进⾏微调。

3. 微调预训练 HiFi-GAN 模型

微调数据准备

我们运⾏以下代码使⽤ generate_spectrogram 中定义的⽅法从FastPitch⽣成梅尔频谱图，然⽽⽣成的频谱图与原始⾳频的mel频谱图不同，如下所示：


test_audio_filepath = "NeMoChineseTTS/DataChinese/sf_bilingual_speech_zh_en_vv1/SF_bilingual/wavs/com_SF_ce1.wav"
test_audio_text = "NTHU對面有一條宵夜街。"
from matplotlib.pyplot import imshow
from nemo.collections.tts.models import FastPitchModel
from matplotlib import pyplot as plt
import librosa
import librosa.display
import torch
import soundfile as sf
import numpy as np
from nemo.collections.tts.parts.utils.tts_dataset_utils import BetaBinomialInterpolator
 
def load_wav(audio_file):
    with sf.SoundFile(audio_file, 'r') as f:
        samples = f.read(dtype='float32')
    return samples.transpose()
 
def plot_logspec(spec, axis=None):    
    librosa.display.specshow(
        librosa.amplitude_to_db(spec, ref=np.max),
        y_axis='linear', 
        x_axis="time",
        fmin=0, 
        fmax=8000,
        ax=axis
    )
 
spec_model = FastPitchModel.load_from_checkpoint(fastpitch_model_path).eval().cuda()
 
print("加载原始音频梅尔频谱")
y, sr = librosa.load(test_audio_filepath)
# change n_fft, win_length, hop_length parameters below based on your specific config file
spectrogram2 = np.log(librosa.feature.melspectrogram(y=y, sr=sr, n_fft=1024, win_length=1024, hop_length=256))
spectrogram = spectrogram2[ :80, :]
print("spectrogram shape = ", spectrogram.shape)
plot_logspec(spectrogram)
plt.show()
 
print("加载预测的梅尔频谱")
with torch.no_grad():
    text = spec_model.parse(test_audio_text, normalize=False)
    spectrogram = spec_model.generate_spectrogram(
      tokens=text, 
      speaker=None,
    )
spectrogram = spectrogram.to('cpu').numpy()[0]
plot_logspec(spectrogram)
print("spectrogram shape = ", spectrogram.shape)
plt.show()

生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

原始⾳频梅尔频谱

生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

预测⽣成的梅尔频谱

从上图⽐较来看，我们需要将FastPitch预测的梅尔频谱图与真实数据对⻬包括持续时间。为什么不使⽤原始数据的梅尔频谱图呢？使⽤原始数据的梅尔频谱图进⾏微调会引⼊原始⾳频中的噪声伪影，这些噪声伪影会作为输⼊传递到模型，从⽽导致声码器输出中带有噪声。对⻬了的预测梅尔频谱图可以使HiFi-GAN能够不产⽣噪声⼜更接近真实。

具体实现：从FastPitch训练中获取最新的checkpoint，并预测每个输⼊记录的频谱图，这些记录分别位于train_manifest.json , test_manifest.json 和 val_manifest.json 中。

NeMo提供了⼀个⾼效的脚本，在⽬录NeMoChineseTTS/mels中⽣成梅尔频谱，并通过添加新字段 “mel_filepath” 创建具有后缀“_mel” 的新清单。例如， train_manifest.json 对应 train_manifest_mel.json 。值得⼀提的是，此脚本借助于NeMo提供的⼯具，利⽤真实频谱⻓度和插值后数据来⽣成对⻬的预测频谱图。

# 运行以下命令来获取新清单 cd /home/NeMoChineseTTS python generate_mels.py --cpu --fastpitch-model-ckpt {fastpitch_model_path} --input-json-manifests train_manifest.json val_manifest.json test_manifest.json --output-json-manifest-root ./

开始微调


cd /home/NeMoChineseTTS
CUDA_VISIBLE_DEVICES=0 python hifigan_finetune.py 
    --config-path . 
    --config-name hifigan.yaml 
    trainer.max_steps=10 
    model.optim.lr=0.00001 
    ~model.optim.sched 
    train_dataset=train_manifest_mel.json 
    validation_datasets=val_manifest_mel.json 
    exp_manager.exp_dir=resultChineseTTS 
    +init_from_pretrained_model={hfg_ngc} 
    +trainer.val_check_interval=5 
    trainer.check_val_every_n_epoch=null 
    model/train_ds=train_ds_finetune 
    model/validation_ds=val_ds_finetune

4. 评估：训练好的 FastPitch + 微调的预训练HiFi-GAN


hfg_path = sorted(glob.glob("NeMoChineseTTS/resultChineseTTS/HifiGan/*/checkpoints/HifiGan.nemo"), key=os.path.getmtime)[-1]
 
if ".nemo" in hfg_path:
    vocoder_model_pt = HifiGanModel.restore_from(hfg_path).eval().cuda()
else:
    vocoder_model_pt = HifiGanModel.load_from_checkpoint(checkpoint_path=hfg_path).eval().cuda()
    
if ".nemo" in fastpitch_model_path:
    spec_gen_model = FastPitchModel.restore_from(fastpitch_model_path).eval().cuda()
else:
    spec_gen_model = FastPitchModel.load_from_checkpoint(checkpoint_path=fastpitch_model_path).eval().cuda()
 
%matplotlib inline
 
audio, spectrogram = evaluate_spec_fastpitch_ckpt(spec_gen_model, vocoder_model_pt, test)
 
# 播放音频
print("原始音频")
ipd.display(ipd.Audio(data_path+test_id+'.wav', rate=22050))
print("预测音频")
ipd.display(ipd.Audio(audio, rate=22050))

原始⾳频：hotmail-orig.wav
微调后预测⾳频：hotmail-generate-finetune.wav

至此，我们使⽤ NVIDIA NeMo 框架实现了 TTS 的训练和推理应⽤，接下来，我们还将实践更多模型的训练及推理。欢迎关注我们！

# 随笔

生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

一、系统环境准备

二、开启 jupyter notebook

三、下载相关脚本和⽂件

四、数据准备

1. 下载 SFSpeech 数据集

2. 创建数据清单

3. 音素化

4. 创建补充数据

五、模型训练

1. 训练FastPitch模型

2. 评估：训练好的 FastPitch + 预训练 HiFi-GAN

3. 微调预训练 HiFi-GAN 模型

微调数据准备

开始微调

4. 评估：训练好的 FastPitch + 微调的预训练HiFi-GAN

Infor CloudSuite软件二次开发：InforCloudSuite概览与架构

Aria2安装和使用-Mac版

相关文章

随机网址

猜你喜欢