AI翻唱+视频剪辑全流程实战

目录

一、AI翻唱之模型训练

(1)模型部署    

(2)数据集制作——搜集素材

(3)数据集制作——提升音频质量

方法一:使用RVC提供的音频处理功能。

方法二:可以使用音频剪辑工具Adobe Audition

(4)训练

二、AI翻唱之模型推理

三、视频剪辑


前言:从0到1,忙碌了三天,剪了三个视频,其中两个放在了B站(星铁新角色知更鸟翻唱Love Story和Mr. Wonderful),第三个是四个原神角色合唱孤勇者:【知更鸟】Love Story_哔哩哔哩_bilibili

【知更鸟】Mr. Wonderful_哔哩哔哩_bilibili

一、AI翻唱之模型训练

(1)模型部署    

 我使用的是RVC,也可以使用so-vits-svc

这里分别提供了Nvida显卡和AMD显卡支持的版本

链接:https://pan.baidu.com/s/1vtw_gRCIUdDjPH9cELjVkw?pwd=bi3r 
提取码:bi3r

以Nvida显卡为例,分别下载“RVC1006Nvidia”和“0128补丁”压缩包,分别解压后,复制“0128补丁”内容粘贴到“RVC1006Nvidia”文件夹进行替换

之后,直接点击go-web.bat运行即可。(需要电脑安装好CUDA,安装步骤不再赘述)

(2)数据集制作——搜集素材

方法一:从网上查找现成音频数据集(如github)

方法二:从B站下载音视频制作。

        这里推荐使用DownKyi(哔哩下载姬),在此提供了三个版本。

链接:https://pan.baidu.com/s/1Kyc_cbYL7cIbwFTpXrDVdA?pwd=saq7 
提取码:saq7

                 1.5.9可能存在B站用户无法登陆问题;1.6.1可以登录然后下载高清视频,但是使用过程中出现无法解析的问题。一种解决方案是登录在1.6.1中账号登录后,将1.5.9文件夹内容复制到1.6.1。

另一种方案是直接使用DownKyi-1.0.10-1.win-x64

(3)数据集制作——提升音频质量

由于视频中可能出现背景音或其他不属于角色的杂音,这时就需要进行背景音处理。 

方法一:使用RVC提供的音频处理功能。

直接将原始音频文件拖到上图中左下角红框内,然后点击模型选择HP3,点击转换;

转换后的结果再次放入上图中左下角红框内,点击模型选择onnx_dereverb,点击转换;

也可继续进行别的处理,每个模型的说明见上图。

方法二:可以使用音频剪辑工具Adobe Audition

安装步骤见我的另一篇博客:

Adobe Audition 2024 下载与安装-CSDN博客

处理背景音:

1. 选中一段不含人声的背景音

2. 在“效果”栏中选择“降噪/恢复”中的“降噪(处理)” 

3. 点击“捕捉噪声样本”,然后点击“选择完整文件”,最后点击“应用”就可以啦

(4)训练

1. 输入实验名(自拟),然后选择音频目标采样率(一般为40k),其他保持默认 ,点击“处理数据”即可。(此步骤是将音频剪切成数个短节,“输出信息”栏会提示进程结束)

2. 根据自身情况选择音高提取算法(输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢,rmvpe效果最好且微吃CPU/GPU),之后点击“特征提取”(“输出信息”栏会提示进程结束)

3. 根据自身显卡性能选择“保存频率”、“总训练轮数”和“每张显卡的batch_size”(显卡不太行的建议设置低一点),其他保持默认,点击“一键提取”(“输出信息”栏会提示进程结束)

二、AI翻唱之模型推理

1. 切换到“模型推理”界面,在“推理音色”上选择上面步骤一训练好的模型权重文件;

也可以在网上直接下载别人已经训练好的模型,将.pth文件放在  RVC\assets\weights  目录下,将索引.index文件放在 logs 目录或logs下面的文件夹皆可。

 

2. 输入待处理音频文件路径,即需要模拟的声音或歌曲文件所在的路径。

3. 输入索引index路径。

4. 根据 下图中蓝色部分的说明适当进行调整,即可点击“转换”开始模型推理。

三、视频剪辑

一个好的视听盛宴当然离不开视频剪辑啦。推荐使用PR进行剪辑,当然也可以使用“剪映”这个软件也比较方便。

PR安装与下载方法,可见:Adobe Premiere Pro安装-CSDN博客

该版本的字幕如果无法自动由音频转文字(建议支持正版!),可以使用网易见外工作台 (youdao.com)这个网站进行操作,导出字幕文件后添加到PR即可。在PR内可以拖动字幕来调整出现时间。

### AI翻唱技术及其工具 AI翻唱技术是一种基于人工智能的创新方法,它通过深度学习和自然语言处理等先进技术来模仿特定歌手的声音特征并将其应用于其他歌曲中。这种技术的核心在于对大量音频数据的学习以及对目标声音特性的精确建模。 #### So-VITS-SVC So-VITS-SVC 是一种广泛使用的 AI 翻唱工具,能够将一首歌的音色转换成另一个人的音色,从而实现高质量的翻唱效果[^1]。该工具利用先进的语音合成技术和神经网络架构,在保持原始歌声旋律的同时调整演唱者的音色特性。例如,“AI 孙燕姿”的翻唱现象就是借助此工具完成的,展示了其强大的功能与灵活性。 #### Moises.ai Moises.ai 提供了一种专注于音频分离的技术解决方案,特别是用于去除原声中的伴奏部分以便更好地进行后期编辑或重新混录工作[^2]。虽然 moises.ai 主要定位于音频分解服务而非直接参与翻唱过程本身,但它为后续制作提供了重要支持——即干净的人声轨道提取出来之后才能更方便地被替换或者修改成为新的版本。 #### Dolphin 除了上述提到的产品外还有像 Dolphin 这样的平台也加入了这一领域竞争行列之中[Dolphin]^3^ 。 它允许普通用户即使没有任何专业知识也可以快速创建属于自己的定制化音乐作品;只需要上传所需素材然后指定想要效仿哪位艺术家即可自动获得相应风格演绎出来的成品文件。 #### 整合包教程资源链接分享 对于希望深入了解如何实际操作这些系统的爱好者们来说,《基于so-vits-svc语音模型实现AI翻唱歌曲》这篇博文提供了一个非常详尽的手把手指导手册,涵盖了从安装设置一直到最终产出整个流程当中的每一个细节要点[^4]。 ```python import torch from so_vits_svc import inference as svc_inference def ai_singing_conversion(input_audio, target_voice_model): converted_audio = svc_inference.convert(input_audio=input_audio, model_path=target_voice_model) return converted_audio ``` 以上代码片段展示的是使用 `so-vits-svc` 库来进行简单的 AI 歌声转换的一个例子。其中函数接收两个参数分别是输入待处理音频信号以及指向已训练好对应艺人嗓音特点的目标模型路径地址,并返回经过变换后的结果形式。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值