google-speech-api相关内容
我第一次在一个项目中使用GCS Speech API将一系列音频文件转换为文本。每个文件大约有60分钟,在整个时间里都是一个人不停地说话。 我已经安装了GC SDK,正在使用它执行请求,如下所示: gcloud ml speech recognize-long-running "/path/to/file/audio.flac" --language-code="pt-PT" --asy
..
我在一台覆盆子PI上使用了Google Python语音识别,它工作得真的很好。然而,它一直在倾听,我更喜欢有一个唤醒词,这样它就只在我需要的时候才倾听。 此时,它会监听,直到出现静音(或返回到任何环境背景噪音),然后将声音片段发送到API以进行语音到文本识别。我有没有办法缩短它在监听的时间?这样,它可以一次只听一个单词,并等待我设置的任何唤醒单词。 推荐答案 最好是离线实现唤醒
..
我正在尝试使用Google Speech(转换为文本)API确定演讲者的流利度。 到目前为止,我发现接口(Betav1)可以显示说出一个单词的时间(开始时间和结束时间)。 和来自维基百科的 口语流利度或口语流利度都是衡量产出的标准 和接受演讲,作为一个流利的演讲者必须能够 在谈话中理解并回应他人。口语是 典型地以看似不流利的品质为特征(例如, 支离破碎、停顿、错误开始、犹豫、重复
..
这是Google Speech API文档:https://cloud.google.com/speech/docs/sync-recognize 这个接口我试了2周,还是不能解决我的主要目的(翻译直播)。 我使用的是PHP。(允许其他语言建议,我自己找) 我在2周内可以做的事情: 同步语音识别(<;=1分钟) 异步语音识别(>;1分钟且<;=80分钟)。
..
尝试在ubuntu 16.04中使用PIP3安装pydio时出现以下错误: Collecting pyaudio Downloading PyAudio-0.2.11.tar.gz Installing collected packages: pyaudio Running setup.py install for pyaudio ... error Complete out
..
当尝试使用FiRestore和Google Speech to Text库构建项目时,我收到“重复类”错误。据我所知,这是因为这两个库都引入了原型库。排除会产生运行时错误。如何解决重复问题? 以下是错误(连接在一起,还有数百行): Duplicate class com.google.api.Advice found in modules jetified-proto-google-c
..
几个月来,我一直在使用 Google Speech API 将我的 PHP 应用程序(使用 Google Cloud PHP 客户端)中的音频转录为文本,没有任何问题.但是我的调用现在开始返回 403 错误,状态为“PERMISSION_DENIED"和消息“调用者没有权限". 我将 Speech API 与 Google Storage 一起使用.我正在使用服务帐户进行身份验证并将我的音频
..
我已经搜索了 Google 的所有可用文档,但找不到在 Python 中的音频流上进行流式语音识别的示例. 目前,我在 Django 中使用 Python 语音识别来获取用户的音频,然后收听音频.然后我可以保存文件并运行谷歌语音识别或直接从创建的音频实例中运行. 有人可以指导我如何对音频流进行流式语音识别吗? 解决方案 Google 提供了流式 Python API 的示例 此
..
我开始使用谷歌语音 api 转录音频. 正在转录的音频包含许多一个接一个说出的数字. 例如273 298 但转录返回 270-3298 我的猜测是它会将其解释为某种电话号码. 我想要的是未解析的输出,例如“2 73 2 98",我可以自己处理和解析. 有没有设置或者支持这种东西? 谢谢 解决方案 所以我遇到了完全相同的问题,我认为我们找到了解决方案
..
我使用的麦克风通过浏览器记录声音,将其转换为文件并将文件发送到 Java 服务器.然后,我的 java 服务器将文件发送到云语音 api 并给我转录.问题是转录超长(2 秒对话约 3.7 秒). 所以我想加快转录速度.要做的第一件事是流式传输数据(如果我在记录的开头开始转录.问题是我不太了解 api.例如,如果我想从源中转录我的音频流(浏览器/麦克风)我需要使用某种 JS api,但我找不到
..
package blessupboys.speechtest;导入 android.app.Activity;导入 android.content.Context;导入 android.content.Intent;导入 android.net.ConnectivityManager;导入 android.os.Bundle;导入 android.view.View;导入 android.view
..
我已经按照谷歌云语音 api 快速入门来使用请求 api curl -s -H "Content-Type: application/json" \-H "授权:不记名"$(gcloud auth application-default print-access-token) \https://speech.googleapis.com/v1/speech:recognize \-d @sync
..
我正在尝试在 python 中加载音频文件并使用谷歌语音识别进行处理 问题在于,与 C++ 不同,python 不显示数据类型、类,也不让您通过创建新对象和重新打包数据来访问内存以在一种数据类型和另一种数据类型之间进行转换 我不明白如何在 python 中从一种数据类型转换为另一种数据类型 有问题的代码如下, 将speech_recognition导入为spr导入 libros
..
我正在使用 pyaudio 将我的声音录制为 wav 文件.我正在使用以下代码: def voice_recorder():格式 = pyaudio.paInt16频道 = 2汇率 = 22050块 = 1024记录_秒 = 4WAVE_OUTPUT_FILENAME = "first.wav"音频 = pyaudio.PyAudio()# 开始录音流 = 音频.open(格式=格式,频道=频道
..
首先:我已经知道使用此 API 进行连续语音识别流有 65 秒的限制.我的目标不是延长那 65 秒.我的应用程序:它使用 Google 的流式语音识别,我的代码基于此示例:https://github.com/GoogleCloudPlatform/android-docs-samples/tree/master/speech该应用运行良好,我获得了 ASR 结果,并在用户说话时将它们显示在屏幕上
..
我正在使用具有谷歌语音模型(de-DE)的当前google asr/tts,在 date 提取的某些使用情况下遇到错误的结果. 我真的很想知道其他人是否会有类似的结果. 让我给你举一些例子: 我是说: "der 1.10.1905"->90587 "22.11.98";->22.11 89 但是:
..
当得知Google终于为开发人员发布了官方语音API时,我感到非常兴奋.我一直对Google的语音识别在Android,Chrome和其他产品中的出色表现感到惊讶. 我创建了一个Google Cloud帐户,启用了语音API,并根据 Google语音API文档.精度极高,但速度却异常缓慢.一个18秒的音频文件将花费他们的引擎大约16秒钟来转录!Microsoft Bing Speech AP
..
我正在为STT构建C#.net应用程序,并且正在手动创建凭据.我发现文档对我来说非常混乱,而且我不知道如何正确添加凭据. 我添加了一个项目,创建了一个JSON凭证,然后下载并保存在文件夹中,并使用 GoogleCredential 手动指向该目录以进行授权,并且一切正常.但是,这对于已交付的应用程序来说不是解决方案.当前方法: GoogleCredential凭据=GoogleCrede
..
我正在尝试将服务器设置为使用 SocketIO 从客户端浏览器接收音频,然后通过Google Speech-to-Text处理它,最后用文本回复给客户端. 最初,理想情况下,我想设置为类似于此页面上的工具的功能:https://cloud.google.com/speech-to-text/ 我尝试使用 getUserMedia 并将其通过 SocketIO-Stream 进行流传输,
..
我正在尝试将OGG_OPUS编码的流发送到Google语音到文本流服务.由于Google对他们的流请求有一个时间限制,因此我必须以固定的时间间隔将音频流路由到另一个Google Speech To Text流会话. 根据我所阅读的内容,OGG流中的页面无法独立读取,因为页面中的数据是通过考虑上一页和下一页的数据来计算的.如果是这样,我们是否可以在某个时间点切断流并用剩余的数据重新创建一个全新
..