speech-to-text相关内容

如何在Google Cloud Speech-to-Text API中禁用句子级自动更正

我正在执行语音识别任务,该任务涉及检测儿童的语音能力,随着时间的推移而改善 ... 我想将Google Cloud Speech to Text API用于检测的ASR部分.然后,我将使用不同测量结果的成绩单来估算进度. 但是! Google Speech API的句子级别自动更正功能始终会重写口语的前一段... 是否可以禁用此ASR的自动更正? 我无法使用"speechC ..

Google-Speech-api错误地转录语音号码

我开始使用Google语音API转录音频. 正在转录的音频包含许多个接一个的语音. 例如273298 但是转录又回到了270-3298 我的猜测是它将其解释为某种电话号码. 我想要的是未解析的输出,例如“我可以自己处理和解析的“二七三二二九十八". 对这种事情有设置或支持吗? 谢谢 解决方案 所以我遇到了同样的问题,我想我们找到了解决方案.如果您使 ..

使用gcloud Speech API在Dart和Flutter中进行实时语音识别

我想在用dart编写的Flutter项目中使用Google的实时语音识别api. 我已经激活了一个gcloud帐户,创建了api密钥(这应该是Google语音的唯一必要的身份验证方法),并编写了一个基本apk,应该将音频流发送到Google Cloud并显示响应. 我导入了googleapis/speech和googleapis_auth插件. 但是我不知道如何设置它. 他们说您必须使用gR ..
发布时间:2020-11-09 02:39:58 其他开发

通过浏览器上的node.js将音频流传输到Azure语音api

我正在使用node.js在浏览器上使用Azure语音api进行语音到文本的演示。根据API文档这里,它确实指定需要.wav或.ogg文件。但是下面的示例通过将字节数据发送到api进行了api调用。 所以我已经从麦克风以字节数组形式获取了数据。将其转换为字节并将其发送到api的正确路径是吗?还是将其另存为.wav文件然后发送到api更好? 所以下面是我的代码。 这是来自麦克风部分的 ..

如何从音频剪辑转换文本?

我有一个来自json文件的音频文件链接,现在我需要将音频剪辑转换为文本,并且此文本应与android编程中的语音转换为文本进行比较. 如何将音频文件转换为文本,我在Google上搜索了很多,仍然找不到正确的答案,任何建议将不胜感激. 解决方案 使用Google Cloud Machine Learning平台提供的两个强大的面向自然语言的API: Cloud Speech API 和 Cl ..
发布时间:2020-09-14 00:21:16 移动开发

Google Speech API流音频超过1分钟

我希望能够从电话音频流中提取一个人的话语.电话音频被路由到我的服务器,然后我的服务器创建一个流识别请求.如何判断一个单词是完整发音中的一部分还是当前正在转录中的一部分?我应该比较单词之间的时间戳吗?即使流电话音频中在一定时间内没有语音,API仍会继续返回临时结果吗?如何超过1分钟的流音频限制? 解决方案 关于前三个问题: 您不需要比较单词之间的时间戳,可以通过查看is_final f ..

重复输入错误-依赖关系和项目模块冲突-Android

首先.以下是我遇到的错误. 现在,我正在做的事情如下.... 我正在集成IBM的语音转文本服务.我已经创建了一个演示这里! 我还使用了另外两个IBM服务,分别为 Personality Insights 和 Cloudant数据库. 我已经成功集成了语音转文字示例.但是,当我集成个性化见解和 Cloudant数据库时,它给我带来了错误. 我已识别的内容: 在ST ..

通过与预先录制的单词进行比较来识别

要求: 我想要一个与汽车中的呼叫系统类似的系统/算法,您说出您想呼叫的名字,它将找出与您的声音相匹配的名字.我的要求是,我将使用预先录制的声音代替姓名. 例如: 用户使用非英语语言记录几个单词的目标语音,例如: "Keyboard-JP-01.wav" =>键盘 "Monitor-JP-01.wav" =>显示器 经过一些培训甚至没有进行培训,当用户再次说出一个单词时,语 ..
发布时间:2020-08-22 20:19:47 其他开发

在Mac OS X中设置PocketSphinx

我正在运行Enthought Python 2.7以及Mac OS 10.8.2中的默认Python 2.7,Xcode 4.5.1.我正在尝试在Python中开发语音转换为文本转换器.我使用Enthought Python,因为它允许我使用pyaudio在16000Hz, 1 Channel中进行记录,这是pocketsphinx正常工作所必需的. 我正在尝试使用brew install ..
发布时间:2020-08-14 23:26:02 Python

chrome语音识别WebKitSpeechRecognition()不接受伪造音频设备的输入-假音频捕获使用文件或音频文件

我想将chrome语音识别WebKitSpeechRecognition()与音频文件的输入一起使用以进行测试.我可以使用虚拟麦克风,但这确实很棘手,很难通过自动化实现,但是当我对其进行测试时,一切正常,语音识别将音频文件转换为文本.现在我想使用以下chrome参数: --use-file-for-fake-audio-capture="C:/url/to/audio.wav" --use- ..

如何将人声转换为数字格式?

我正在一个使用生物识别系统保护系统安全的项目中.我们计划使用人的声音来保护系统. 想法是允许该人说一些单词或句子,并且系统将以数字格式存储该语音.下次用户想进入系统时,他/她必须说一些可能与以前使用的词不同的词. 我们不想匹配单词,但希望匹配语音频率. 我已经阅读了一些有关此系统的研究论文,但是这些论文没有任何实现细节. 所以只想知道是否有任何软件/API可以将模拟语音转换 ..

助理实体和不同的发言人

使用Watson-Unity-SDK可以区分说话者/用户,因为它似乎能够返回一个数组,该数组标识在多人交流中哪个说话者说了哪些单词,但我无法确定了解如何执行它,特别是在我向助手服务发送不同讲话(由不同人说)的情况下. 有用于解析Assistant的json输出/响应以及OnRecognize和OnRecognizeSpeaker以及SpeechRecognitionResult和Speake ..

sphinx4的语音识别响应较差

当前,我们正在研究使用sphinx4进行语音识别.我们正在努力为听写类型的应用程序提供良好的响应.输入的是wav文件,我们希望将其转录.我研究了Sphinx4提供的LatticeDemo和Transcriber演示.当我使用相同的配置时,响应非常差.我试图调整配置文件,但它根本无法识别单词.提供的转录演示是针对数字的,我已经修改了配置文件以理解单词.但是我不确定我是否想念一些东西.我已经附上了配置 ..
发布时间:2020-07-08 19:37:12 其他开发

未捕获的DOMException:无法构造"AudioContext":提供的硬件上下文的数量(6)

我尝试实现Microsoft Bing语音api及其前5次正常工作,此后,当我录制自己的声音时,控制台出现异常. 异常:未捕获的DOMException:无法构造"AudioContext":提供的硬件上下文的数量(6)大于或等于最大限制(6). 当我尝试使用AudioContext.close()关闭时,它显示另一个错误,例如“未捕获(承诺)DOMException:无法关闭正在关闭或已经 ..