隐马尔可夫模型(HMM)中的三态电话模型 [英] 3-state phone model in Hidden Markov Model (HMM)
本文介绍了隐马尔可夫模型(HMM)中的三态电话模型的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想问一下HMM中三态手机模型的含义。本案例是基于隐马尔可夫模型在语音识别系统中的应用。因此,这个例子是基于隐马尔可夫模型对语音进行声学建模的。
我从一篇期刊论文中获得了这个示例图片: http://www.intechopen.com/source/html/41188/media/image8_w.jpg
图1:3-声音的状态HMM/s/
所以,我的问题是:
- 3个状态是什么意思?
- S1、S2和S3到底是什么意思?(我知道这是状态,但它代表什么?)
- 如何表示此HMM状态下的/s/声音?
- 为什么是3?如果我们有4个、5个或更多的状态,会发生什么?
- 如果/s/的发音只是辅音"s/"的简单发音,那么状态和转换的用法是什么?
你们有没有这个理论的简单的例子(图形类比)解释?
谢谢
尼克
推荐答案
3状态是什么意思?
描述电话S的模型由树状态-S1、S2和S3组成。
S1、S2和S3到底是什么意思?(我知道它是州,但它代表什么?)
s1表示音素S开头的特征向量的概率分布,s2在中间,s3在结尾。概率分布本质上是特征向量(手机的这一部分如何发音)和变化(在什么范围内变化)的最可能值。
如何表示此HMM状态下的/s/声音?
S声音由整个HMM表示,而不仅仅是单个状态。
在连续语音识别中,语音声学受到前置音素和后置音素的影响。因此,将每个音素分成三个部分更为精确--开始时从前一个音素过渡,中间稳定,最后过渡到下一个音素。如果手机处于隔离和稳定状态,1个状态就足够了。在连续语音中,也可以对单个音素使用5个状态,但这不会显著提高准确率。为什么是3?如果我们有4个、5个或更多状态,会发生什么?
如果/s/的发音只是辅音"s/"的简单发音,那么状态和转换的用法是什么?
请参见上文。转换表示从一种状态转换到另一种状态的概率,本质上它模拟了手机的长度。
这篇关于隐马尔可夫模型(HMM)中的三态电话模型的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文