Tortoise-tts Better speech synthesis through scaling——TTS论文阅读

pied_piperG

已于 2024-01-26 15:40:25 修改

阅读量1.7k

点赞数 21

CC 4.0 BY-SA版权

文章标签：论文阅读 TTS 音频语音合成

于 2024-01-26 14:47:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pied_piperG/article/details/135866104

笔记地址：https://flowus.cn/share/a79f6286-b48f-42be-8425-2b5d0880c648
【FlowUs 息流】tortoise

论文地址：

Better speech synthesis through scaling

Abstract:

自回归变换器和DDPM：自回归变换器（autoregressive transformers）是一种基于变换器架构的模型，能够处理序列数据，例如图像的像素。DDPM（深度概率模型，Deep Diffusion Probabilistic Models）是一种基于深度学习的概率模型，用于生成高质量的图像。自回归变换器和DDPM被广泛应用于图像生成，它们利用大量的计算资源和数据来学习图像的分布，这意味着模型通过分析和学习大量图像数据来理解和复现图像的概率分布。

技术迁移：该方法论不仅限于图像生成，还可以应用于其他领域，如语音合成。

TorToise系统：这篇论文描述了一种将图像生成领域的进步应用于语音合成的方法。其结果是TorToise，这是一个富有表现力的多声音文本到语音合成系统。

所有的模型代码和训练好的权重都已在GitHub上开源，网址为：

GitHub - neonbjb/tortoise-tts: A multi-voice TTS system trained with an emphasis on quality

1.Background

1.1Text-to-speech

文本到语音研究领域主要集中于开发高效的模型，这些模型通常基于相对较小的数据集进行训练。这种选择主要受以下因素的驱动：

高效模型的需求：为了能够大规模部署，需要构建高效的语音生成模型，这些模型必须具有高采样率。

大型转录语音数据集的缺乏：很难获得大型、经过转录的语音数据集。

扩展传统TTS中使用的编解码器模型架构的挑战：传统的TTS技术在扩展时面临许多挑战。

1.1.1Neural MEL Invertes

神经MEL反转器，就是vocoder，声码器

M

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。