GPT-SoVITS V2教程

OnethingAI

发布于:2025-06-24

一、简介

项目地址: https://github.com/RVC-Boss/GPT-SoVITS

这次V2更新了以下功能

1.支持韩语及粤语

2.更好的文本前端

3.底模由2k小时扩展至5k小时

4.对低音质参考音频(尤其是来源于网络的高频严重缺失、听着很闷的音频)合成出来音质更好

从v1环境迁移至v2

1.需要pip安装requirements.txt更新环境

2.需要克隆github上的最新代码

3.需要从huggingface 下载预训练模型文件放到GPT_SoVITS\pretrained_models\gsv-v2final-pretrained下

中文额外需要下载G2PWModel_1.1.zip(下载G2PW模型,解压并重命名为 G2PWMode1,将其放到 GPT_SoVITS/text 目录下)

*前置工作(很重要)

由于云端部署的webui和本地的差异,导致云端无法在开启达标等环节自动跳转到对应页面。需先通过公网服务配置3个端口的公网访问能力。 1,控制台打开公网访问,选择TCP

2,配置3个端口9873(uvr5)、9872 (推理)、9871(打标)

二、案例说明

步骤一,选择镜像创建实例

  • 进入镜像中心

  • 选择【GPT-SoVITS V2】镜像创建实例 + 推荐使用4090显卡

步骤二,进行语音处理

V2的版本主要操作为:数据集处理、模型训练、推理三大部分

2.1、前置工作

打开【GSWebUI】页面和【查看日志】页面

  • GSWebUI为GPT-SoVITS的工具页面

  • 查看日志,是为了查看操作中的进度使用

2.2、人声分离处理

  • 如果你的音频有混响、伴奏、嘈杂的背景音,可以开启UVR5工具进行处理,点击【开启UVR-WebUI】按钮,日志上会输出UVR-WebUI的页面端口号【9873】

  • 通过第一步添加的9873 公网访问地址访问

  • 进行人声音分离处理

    • 1、选择模型,模型的介绍可以看

    • 2、上传音频文件

    • 3、选择生成格式

    • 4、点击转换

女声音素材.mp3

文件管理可以访问这个目录下,就可以看到转换后的文件了

/workspace/output/uvr5_opt

2.3、语音切分

返回GPT-SoVITS WebUI

1、填入需要处理的音频路径,可以输出刚才已经分离好的音频路径,如/workspace/output/uvr5_opt

2、点击开启语音分割

3、切割好后,会提示“切割结束”

4、可以在/workspace/output/slicer_opt目录下查看切换后的语音文件

2.4、语音降噪

如果音频相对干净,可以跳过这个步骤

如果使用默认的路径,可不用修改(如果是自定义的话,需要修改)。直接点击【开启语音降噪】按钮,开始处理

可在/workspace/output/denoise_opt目录下查看处理后的音频文件

降噪处理完成后,会提示任务完成

2.4、离线ASR

  • 默认是降噪文件夹,如果没有进行降噪处理的话,可自行填写之前切分的音频路径

  • 默认为中文,如果是其它语言需要切换为多语种模型

  • 设置完成后,点击开启离线批量ASR处理

  • 处理完成后,会生成打标文件,路径为/workspace/output/asr_opt/denoise_opt.list

  • 如果需要精调打标,需要开启打标WebUI进行处理,端口为【9871】,请使用公网访问后,生成的地址进行浏览器访问(这一步非常耗时,如果不追求极致的话可以跳过)

2.5、调整数据集

进入GPT-SoVITS TTS页面

  • 这里输入模型名称,不要中文,会出错

  • 确认标注文件路径

  • 设置好后,点击一键三连

处理完成后,可在

2.6、训练模型

进入微调训练标签页面下面

1、确认模型名称

2、先进行SoVITS训练,可以观察日志中的训练进度,训练完成后会提示“SoVITS训练完成”

3、再进行GPT训练

2.6、推理(语音合成)

切换至1C 推理标签页面下

1、点击【刷新模型路径】加载训练好的模型

e代表轮数,s代表步数

2、开启TTS推理WbeUI

使用文件管理功能,从这个路径下/workspace/output/denoise_opt,下载分离好的人声部分到本地

浏览器打开第一步配置的9872 对应的公网地址访问

1、上传刚才下载的好音频文件

2、参考音频的文本,音频文本怎么获取

  • 在/workspace/output/asr_opt的denoise_opt.list

  • 复制文案粘贴到参考音频的文本框里(写音频所表达的文字内容)

3、输入合成的文案(写自己的文字内容)

输入完成后,点击【合成语音】按钮,等待生成音频

缺失包的安装,如果处理多语言遇到日志提示如下:

可控制台打开终端小工具解决,打开终端后,在终端输入:

plain python -m nltk.downloader averaged_perceptron_tagger_eng

如果需要其他包,则将上面averaged_perceptron_tagger_eng 替换为对应包即可

提交反馈