从Google Speech API结果中检测流畅度 [英] Detect fluency from google speech api results

查看:14
本文介绍了从Google Speech API结果中检测流畅度的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试使用Google Speech(转换为文本)API确定演讲者的流利度。

到目前为止,我发现接口(Betav1)可以显示说出一个单词的时间(开始时间和结束时间)。

和来自维基百科的

口语流利度或口语流利度都是衡量产出的标准 和接受演讲,作为一个流利的演讲者必须能够 在谈话中理解并回应他人。口语是 典型地以看似不流利的品质为特征(例如, 支离破碎、停顿、错误开始、犹豫、重复),因为 "任务压力"。因此,一个人的口语流利程度是可以理解的 在感知方面,以及这些语音质量是否可以 被认为是预期的、自然的(即流利的)或不同寻常的 有问题(即不流利)

我知道我们可以从单词的API中获得停顿、重复等。但相对测量可能很困难,因为我找不到任何标准值。

有没有适当的方法来实现这一点?谁能给出一个准则来检测Google API的流畅性(或使用某种开源语音库或外部软件的任何其他有效方法)

如果我完全走错了方向,完全没有问题,只需要一个适当的指导来实现该功能。

推荐答案

这实际上取决于您拥有的数据。我不熟悉Google Text to Speech API。但是,根据数据结构的不同,有几个替代选项可以实现您想要的结果。

  1. 如果数据是结构化的(即,与这些词的属性对应的词和值的表),您可以运行分类(或回归)算法,如随机森林或多元Logistic回归,以估计流利度(在连续的尺度上)或流利度类别(例如,非常不流利、有点不流利、正常、某种程度流利、非常流利)。

  2. 如果数据是非结构化的(例如,一个短语的录制)-那么您可以尝试在keras/TensorFlow中使用神经网络,它旨在将不同的短语分类为流利或不流利。

这篇关于从Google Speech API结果中检测流畅度的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆