speech-to-text相关内容
我正在执行语音识别任务,该任务涉及检测儿童的语音能力,随着时间的推移而改善 ... 我想将Google Cloud Speech to Text API用于检测的ASR部分.然后,我将使用不同测量结果的成绩单来估算进度. 但是! Google Speech API的句子级别自动更正功能始终会重写口语的前一段... 是否可以禁用此ASR的自动更正? 我无法使用"speechC
..
我开始使用Google语音API转录音频. 正在转录的音频包含许多个接一个的语音. 例如273298 但是转录又回到了270-3298 我的猜测是它将其解释为某种电话号码. 我想要的是未解析的输出,例如“我可以自己处理和解析的“二七三二二九十八". 对这种事情有设置或支持吗? 谢谢 解决方案 所以我遇到了同样的问题,我想我们找到了解决方案.如果您使
..
我可以在Chrome应用中使用Web Speech API吗? 如果有人有任何知识,请告诉我.谢谢 解决方案 Chrome应用具有特殊的 TTS API 对他们可用.根据此错误报告,Web Speech API不可用扩展程序,但没有说明打包应用程序.最好的选择就是尝试一下,看看它是否有效.
..
我想在用dart编写的Flutter项目中使用Google的实时语音识别api. 我已经激活了一个gcloud帐户,创建了api密钥(这应该是Google语音的唯一必要的身份验证方法),并编写了一个基本apk,应该将音频流发送到Google Cloud并显示响应. 我导入了googleapis/speech和googleapis_auth插件. 但是我不知道如何设置它. 他们说您必须使用gR
..
我正在使用node.js在浏览器上使用Azure语音api进行语音到文本的演示。根据API文档这里,它确实指定需要.wav或.ogg文件。但是下面的示例通过将字节数据发送到api进行了api调用。 所以我已经从麦克风以字节数组形式获取了数据。将其转换为字节并将其发送到api的正确路径是吗?还是将其另存为.wav文件然后发送到api更好? 所以下面是我的代码。 这是来自麦克风部分的
..
我有一个来自json文件的音频文件链接,现在我需要将音频剪辑转换为文本,并且此文本应与android编程中的语音转换为文本进行比较. 如何将音频文件转换为文本,我在Google上搜索了很多,仍然找不到正确的答案,任何建议将不胜感激. 解决方案 使用Google Cloud Machine Learning平台提供的两个强大的面向自然语言的API: Cloud Speech API 和 Cl
..
我希望能够从电话音频流中提取一个人的话语.电话音频被路由到我的服务器,然后我的服务器创建一个流识别请求.如何判断一个单词是完整发音中的一部分还是当前正在转录中的一部分?我应该比较单词之间的时间戳吗?即使流电话音频中在一定时间内没有语音,API仍会继续返回临时结果吗?如何超过1分钟的流音频限制? 解决方案 关于前三个问题: 您不需要比较单词之间的时间戳,可以通过查看is_final f
..
可以通过向http://www.google.com/speech-api/v2/recognize?... 请求,使用Google的语音识别API来获取音频文件(WAV,MP3等)的转录. 示例:我在WAV文件中说过"二三为五". Google API为我提供了这一点: { u'alternative': [ {u'transcript': u'12345'},
..
在推送到Bluemix时服务出现问题 我通过php-curl发送的推送请求是: POST https://stream.watsonplatform.net/speech-to -text/api/v1/识别 具有以下参数 型号:zh-CN_NarrowbandModel 内容类型:音频/音频;速度:8000 传输编码:分块 时间戳记:true word_confi
..
首先.以下是我遇到的错误. 现在,我正在做的事情如下.... 我正在集成IBM的语音转文本服务.我已经创建了一个演示这里! 我还使用了另外两个IBM服务,分别为 Personality Insights 和 Cloudant数据库. 我已经成功集成了语音转文字示例.但是,当我集成个性化见解和 Cloudant数据库时,它给我带来了错误. 我已识别的内容: 在ST
..
要求: 我想要一个与汽车中的呼叫系统类似的系统/算法,您说出您想呼叫的名字,它将找出与您的声音相匹配的名字.我的要求是,我将使用预先录制的声音代替姓名. 例如: 用户使用非英语语言记录几个单词的目标语音,例如: "Keyboard-JP-01.wav" =>键盘 "Monitor-JP-01.wav" =>显示器 经过一些培训甚至没有进行培训,当用户再次说出一个单词时,语
..
我正在运行Enthought Python 2.7以及Mac OS 10.8.2中的默认Python 2.7,Xcode 4.5.1.我正在尝试在Python中开发语音转换为文本转换器.我使用Enthought Python,因为它允许我使用pyaudio在16000Hz, 1 Channel中进行记录,这是pocketsphinx正常工作所必需的. 我正在尝试使用brew install
..
IBM的文档说以下节点后端代码使您可以Use the API key to have the SDK manage the lifecycle of the token. The SDK requests an access token, ensures that the access token is valid, and refreshes it if necessary. const
..
我想将chrome语音识别WebKitSpeechRecognition()与音频文件的输入一起使用以进行测试.我可以使用虚拟麦克风,但这确实很棘手,很难通过自动化实现,但是当我对其进行测试时,一切正常,语音识别将音频文件转换为文本.现在我想使用以下chrome参数: --use-file-for-fake-audio-capture="C:/url/to/audio.wav" --use-
..
我有一个ExampleSstreaming类,实际上是从 IBM Watson SDK的GitHub获得的(语音文字服务演示).这是 public class ExampleStreaming : MonoBehaviour { private int m_RecordingRoutine = 0; private string m_MicrophoneID = null; pr
..
我正在创建一个机器人,该机器人可以接受文本和语音输入,并且还可以在两种模式下进行应答. 该机器人的工作原理非常好,但我必须始终单击麦克风按钮才能与该机器人对话.您是否知道不单击麦克风按钮就可以使麦克风始终打开并识别语音吗?
..
我正在一个使用生物识别系统保护系统安全的项目中.我们计划使用人的声音来保护系统. 想法是允许该人说一些单词或句子,并且系统将以数字格式存储该语音.下次用户想进入系统时,他/她必须说一些可能与以前使用的词不同的词. 我们不想匹配单词,但希望匹配语音频率. 我已经阅读了一些有关此系统的研究论文,但是这些论文没有任何实现细节. 所以只想知道是否有任何软件/API可以将模拟语音转换
..
使用Watson-Unity-SDK可以区分说话者/用户,因为它似乎能够返回一个数组,该数组标识在多人交流中哪个说话者说了哪些单词,但我无法确定了解如何执行它,特别是在我向助手服务发送不同讲话(由不同人说)的情况下. 有用于解析Assistant的json输出/响应以及OnRecognize和OnRecognizeSpeaker以及SpeechRecognitionResult和Speake
..
当前,我们正在研究使用sphinx4进行语音识别.我们正在努力为听写类型的应用程序提供良好的响应.输入的是wav文件,我们希望将其转录.我研究了Sphinx4提供的LatticeDemo和Transcriber演示.当我使用相同的配置时,响应非常差.我试图调整配置文件,但它根本无法识别单词.提供的转录演示是针对数字的,我已经修改了配置文件以理解单词.但是我不确定我是否想念一些东西.我已经附上了配置
..
我尝试实现Microsoft Bing语音api及其前5次正常工作,此后,当我录制自己的声音时,控制台出现异常. 异常:未捕获的DOMException:无法构造"AudioContext":提供的硬件上下文的数量(6)大于或等于最大限制(6). 当我尝试使用AudioContext.close()关闭时,它显示另一个错误,例如“未捕获(承诺)DOMException:无法关闭正在关闭或已经
..