项目:ASRT_SpeechRecognition
学习中…持续更新
系统流程
1.特征提取
- 输入:语音.wav
- 操作:分帧加窗等操作
- 输出:语谱图(二维频谱图像信号)
2.声学模型
- 参考VGG的深度卷积神经网络
- 输入:语谱图
- 操作:VGG模型训练
- 输出:VGG输出
3.CTC解码
- 输入:VGG输出
- 输出:汉语拼音序列
4.语言模型
- 基于概率图的最大熵隐马尔可夫模型
- 输入:汉语拼音序列
- 操作:隐含马尔可夫链
- 输出:汉字文本
- 无需中文分词算法的简单词频统计
def sub_run(path, n): # n 记录每次切片的一组中包含的字符数
f1 = open(path, 'rb')
stxt = f1.read()
stxt = str(stxt, 'utf-8')
f1.close()
tmp_str = {
}