- 博客(6)
- 收藏
- 关注
原创 AFF特征融合模块汇总
在注意力特征融合模块中 ,X和Y初始特征的融合仅是简单对应元素相加,然后作为注意力模块的输入会对最终融合权重产生影响。作者认为如果想要对输入的特征图有完整的感知,只有将初始特征融合也采用注意力融合的机制,一种直观的方法是使用另一个attention模块来融合输入的特征。对输入的两个特征X,Y先做初始特征融合,经过sigmod激活函数,输出值为0~1之间,作者希望对X 、Y 做加权平均,就用 1 减去这组 Fusion weight,可以作到 Soft selection,通过训练,让网络确定各自的权重。
2024-01-05 00:05:25
4978
1
原创 《Attentional Fusion TDNN for Spoof Speech Detection》注意力融合模块的应用
本文提出了一种基于ECAPA-TDNN的AF-TDNN模型,用于欺骗语音检测。该结构利用多尺度特征聚合方法和注意力融合模块(Attention Fusion Module, AFM),可以得到各卷积层的融合信息。这种融合信息可以帮助网络获得单个话语的更多隐含特征,从而获得比原始模型更好的评价度量结果。
2023-12-26 22:32:55
1420
1
原创 《An Enhanced Res2Net with Local and Global Feature Fus-ion for Speaker Verification》论文分享
本文提出了一种新的架构,称为增强式Res2Net(ERes2Net),通过局部和全局特征融合提高说话人识别性能。
2023-12-21 19:12:50
858
原创 联合分类损失与聚类损失详谈
此外,我们采用端到端二值化方法来解决重叠语音问题。等)上具有最先进的性能,但代价是计算量很高。后者需要更少的计算资源,但不能更好地利用时间序列信息。为了利用这两种方法的优点,我们提出了一种快速有效的二值化方法,该方法基于自适应谱聚类和VBHMM。为了更好地与之前的系统结果相比,我们使用开源二值化评分工具。的凝聚层次聚类是说话人二值化任务的两个主要聚类方法。的质量,说话人错误率反映了不同说话人的预测精度。xi和高斯混合模型的后验概率的接近程度。新的损失函数,大边距高斯混合,定义如下。的泛化能力是有益的。
2023-11-26 19:00:41
285
1
原创 《何亮-基于深度聚类和图网络》中的Loss Fumction总结
通过深度聚类生成伪音素标签,其中池化层之前的帧级特征聚类得到类中心,每一帧特征所属的对应类被视为伪音素标签。损失计算由两部分组成:一是聚类损失,二是说话人损失。我们随机生成与聚类数量相同的平均向量,计算池化层之前的帧级特征之间的相似度,逐帧计算平均向量帧,得到相似度矩阵。将相似度矩阵与伪音素标签进行比较,得到聚类损失。当段级特征映射到说话者类别编号时,我们将使用地面实况说话者标签来计算 CE 损失。最后,两者相加为模型的总损失。网络的整体架构如图1所示,损失计算过程如图2所示。
2023-10-27 23:44:14
256
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人