语音识别中的 senone 是什么？

最新推荐文章于 2024-04-28 00:39:13 发布

会飞行的小蜗牛

最新推荐文章于 2024-04-28 00:39:13 发布

阅读量9k

点赞数 2

分类专栏：语音识别

语音识别专栏收录该内容

24 篇文章

订阅专栏

本文探讨了在语音识别中使用的senone概念及其上下文相关建模，解释了senone如何通过决策树从triphone中得出，并介绍了声学模型如何包含每个senone的属性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有时候，音素会被放在上下文中考虑，这样就形成了三元音素或者多元音素。但它与亚音素不同，他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已，所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多，它是一个可以被决策树或者其他方式来定义的复杂函数。（英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。）

模型：

模型是用来描述一些数学对象的。这些数学对象描述了一些口语的共同属性。在实际应用中，senone的音频模型就是三态高斯混合模型。简单的说，它就是一个最有可能的特征向量。对于模型，有几个问题需要考虑：模型到底多大程度上可以描述实际情况？在模型本身的局限情况下模型能表现得更优吗？自适应模型如何改变条件？

声学模型acoustic model：

一个声学模型包含每个senone的声学属性，其包括不依赖于上下文的属性（每个音素phone最大可能的特征向量）和依赖于上下文的属性（根据上下文构建的senone）。

转载自：http://blog.csdn.net/zouxy09/article/details/7941055

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。