语音合成(TTS) GPT-SoVITS认知

最新推荐文章于 2025-06-30 13:16:02 发布

山河已无恙

最新推荐文章于 2025-06-30 13:16:02 发布

阅读量2.4k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： AI认知HarmonyOS笔记文章标签： gpt

本文链接：https://blog.csdn.net/sanhewuyang/article/details/136334624

AI认知HarmonyOS笔记专栏收录该内容

29 篇文章

订阅专栏

本文介绍了GPT-SoVITS项目，它允许用户通过参考音频的情感、音色和语速进行控制，支持跨语言生成，且提供WebUI接口。文章还提到如何准备参考音频和使用整合包中的工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

小伙伴推荐，简单了解
相对之前试过的其他的TTS项目，GPT-SoVITS的优点
简单易用，文档完整，默认的模型效果就很好
理解不足小伙伴帮忙指正

不必太纠结于当下，也不必太忧虑未来，当你经历过一些事情的时候，眼前的风景已经和从前不一样了。——村上春树

GPT-SoVITS实现了：

由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
可以少量语音微调训练，也可不训练直接推理
可以跨语种生成，即参考音频（训练集）和推理文本的语种为不同语种

项目地址：

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/README.md

第一次玩直接下载整合包就好：

https://huggingface.co/lj1995/GPT-SoVITS-windows-package/resolve/main/GPT-SoVITS-beta.7z?download=true

直接执行 bat 脚本就可以

D:\GPT-SoVITS-beta\GPT-SoVITS-beta0217>runtime\python.exe webui.py
Running on local URL:  http://0.0.0.0:9874

这里我们选中 是否开启TTS推理WebUI 稍等一会

在这里插入图片描述

会自动在浏览器打开推理页面

在这里插入图片描述

整合包默认会有模型，可以直接使用

参考音频准备

找一段游戏配音原声

在这里插入图片描述

如果不是原声，可以使用自带的工具处理，或者用Au剪一下，或者使用整理包里的 ffmpeg 工具直接处理

在这里插入图片描述

参考音频：

年轻游侠儿泪眼模糊，凄然一笑，站起身，拿木剑对准墙壁，狠狠折断。此后江湖再无温华的消息，这名才出江湖便已名动天下的木剑游侠儿，一夜之间，以最决然的苍凉姿态，离开了江湖。刺骨大雪中，他最后对自己说了一句。“不练剑了。”

推理结果

参考音频：

姜泥声若细蚊道：“是不是我走了，就杀不了你了？”，徐凤年转身笑道：“当然不会，有曹官子和老剑神两位高人教你，说不定过个几年就能杀我了，走吧走吧，省得天天在本世子面前晃荡，没你在，记得杀我之前通知一声，我也好睡安稳觉，我能睡几年是几年，”，姜泥咬着嘴唇道：“那我就不走！。

推理结果

博文部分内容参考

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/README.md