隐马尔可夫模型(HMM)中的三态电话模型 [英] 3-state phone model in Hidden Markov Model (HMM)

查看:16
本文介绍了隐马尔可夫模型(HMM)中的三态电话模型的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想问一下HMM中三态手机模型的含义。本案例是基于隐马尔可夫模型在语音识别系统中的应用。因此,这个例子是基于隐马尔可夫模型对语音进行声学建模的。

我从一篇期刊论文中获得了这个示例图片: http://www.intechopen.com/source/html/41188/media/image8_w.jpg

图1:3-声音的状态HMM/s/

所以,我的问题是:

  1. 3个状态是什么意思?
  2. S1、S2和S3到底是什么意思?(我知道这是状态,但它代表什么?)
  3. 如何表示此HMM状态下的/s/声音?
  4. 为什么是3?如果我们有4个、5个或更多的状态,会发生什么?
  5. 如果/s/的发音只是辅音"s/"的简单发音,那么状态和转换的用法是什么?

你们有没有这个理论的简单的例子(图形类比)解释?

谢谢

尼克

推荐答案

3状态是什么意思?

描述电话S的模型由树状态-S1、S2和S3组成。

S1、S2和S3到底是什么意思?(我知道它是州,但它代表什么?)

s1表示音素S开头的特征向量的概率分布,s2在中间,s3在结尾。概率分布本质上是特征向量(手机的这一部分如何发音)和变化(在什么范围内变化)的最可能值。

如何表示此HMM状态下的/s/声音?

S声音由整个HMM表示,而不仅仅是单个状态。

为什么是3?如果我们有4个、5个或更多状态,会发生什么?

在连续语音识别中,语音声学受到前置音素和后置音素的影响。因此,将每个音素分成三个部分更为精确--开始时从前一个音素过渡,中间稳定,最后过渡到下一个音素。如果手机处于隔离和稳定状态,1个状态就足够了。在连续语音中,也可以对单个音素使用5个状态,但这不会显著提高准确率。

如果/s/的发音只是辅音"s/"的简单发音,那么状态和转换的用法是什么?

请参见上文。转换表示从一种状态转换到另一种状态的概率,本质上它模拟了手机的长度。

这篇关于隐马尔可夫模型(HMM)中的三态电话模型的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆