speech-to-text相关内容

Pocketsphinx Android 演示错误:“无法初始化识别器 java.io.IOException:无法初始化记录器.麦克风可能已经在使用中."

我一直在使用 Pocketsphinx Android 演示并收到错误消息:“无法初始化识别器 java.io.IOException:无法初始化录音机.麦克风可能已在使用中." 该错误是什么意思,我该怎么做才能修复它? 解决方案 如果您将 Android 操作系统升级到 6 或已经是 6,则必须在运行时请求许可.Android OS 6 之后,Android manifest re ..

SAPI:语音转文本示例

我是 SAPI 的新手,如果你们中的任何人能为我提供 SAPI 中文本 Hello World 示例的演讲,我将不胜感激.我知道 MS 有一些例子,比如“听写"等,但我想从一个非常小的例子开始.很高兴您能提供帮助. 解决方案 我玩过一些使用 SAPI 的 Windows 语音识别,它确实不是用户友好的.这是我编写的代码示例(用 C++): #include #include #inclu ..

语音转文本和文本转语音同时进行

简介 我正在开发一个应用程序,我需要在其中使用 Booth SpeechRecognizer 和 TTS.但是我在尝试这个时遇到了一些问题.主要是如果我初始化 TTS,SpeechRecgonizer 似乎不起作用,如果我禁用 TTS,那么 SpeechRecognizer 工作正常.接下来是带有相关代码的代码片段: 代码 public class GameActivity exte ..

文本转语音错误,与语音转文本按钮冲突

我正在尝试同时使用 iOS 语音到文本 api 和文本到语音 api.基本上用户会说话,他们所说的内容将被转录到文本视图中.然后用户将按下一个按钮,该按钮将从文本视图中转录的文本提供文本到语音.我的错误是当用户按下语音转文本按钮时,文本转语音按钮停止工作.但是,如果我根本不按下语音转文本按钮并通过键盘在文本视图中输入一些文本,那么文本转语音按钮就起作用了.我猜是语音转文本按钮有问题.我的代码没有出 ..
发布时间:2021-09-06 19:49:18 移动开发

使用多个变量打开不同的链接

编辑、更新 看到我的主要目标是首先让用户通过语音(语音到文本)请求特定的(书名),然后打开书大声阅读(文本到语音),最后一步是将这本书打印到盲文,我的难点是我没有找到以 pdf 格式打开这本书的方法,所以我只是将他作为文本区域,我不知道如何使用此代码将文本转换为盲文字母 https://gist.github.com/meh/141520 我的目标是在调用不同的变量时打开不同的页面但是 ..

文本到语音(语音生成)和语音到文本(语音识别)API?

是否有针对桌面或浏览器环境的已知 API 的完整列表? 解决方案 我将重新整理并更新 C、Java 或 PHP 中的语音识别?.这绝不是全面的,但它可能是您的一个开始 通过几个月的观察这些问题,我看到大多数开发者的选择都是这样分解的: Windows 用户 - 使用 .Net 或 Microsoft.Speech 的 System.Speech 功能并安装 Microsoft ..

Google Speech to Text 的 25 秒延迟

这是我在使用 Google Speech to Text Engine 时遇到的问题.我目前正在以 32kB 块实时流式传输 16 位/16 kHz 音频.但是在发送音频和接收转录之间平均有 25 秒的延迟,这违背了实时转录的目的. 为什么会有这么高的延迟? 解决方案 Google Speech to Text 文档 建议使用 100 毫秒的帧大小来最小化延迟. 32kB *( ..
发布时间:2021-08-30 20:26:21 其他开发

语音到文本的大型音频文件 [Microsoft Speech API]

使用 Microsoft Speech API 转录中/大型音频文件(每个文件约 6-10 分钟)的最佳方法是什么?像批处理音频文件转录这样的东西? 我使用了 https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample,用于持续转录语音,但它停止转录某点.转录有什 ..

iOS语音到文本的转换

我想将口语转换为文本,以便可以在应用程序中使用nslinguistictagger.如何将语音转换为文本?有什么选择?openears是否支持语音到文本的转换? 解决方案 Openears 将支持离线模式下的免费语音识别和文本语音转换功能. 它们具有 FliteController 类参考,该类参考控制OpenEars中的语音合成(TTS). 他们在语音识别领域做得很好. ..
发布时间:2021-05-16 20:51:51 移动开发

如何从Watson Speech-to-Text输出中重建对话?

我有Watson的语音转文本服务的JSON输出,我已将其转换为列表,然后转换为Pandas数据帧. 我正在尝试确定如何重建与会话类似的会话(带有时间): 发言人0:说了这一点[00.01-00.12] 发言人1:说[00.12-00.22] 发言人0:说了别的话[00.22-00.56] 我的数据框的每个单词都有一行,单词每个都有列,其开始/结束时间和扬声器标签(0或 ..
发布时间:2021-05-15 19:24:04 Python

Javascript使事件单击和语音识别与多个按钮一起使用

所以我使用的是webkitSpeechRecognition,它的效果很好,但是问题是我想同时在多个地方使用它,当我将其添加到页面的另一部分时,它无法正常工作. 这是它自己工作的地方: var final_transcript ='';var识别=假;var ignore_onend;var start_timestamp;//获取语言//https://gist.githubuse ..

如何序列化和反序列化"longRunningRecognize"操作以在以后获得其结果?

我正在使用Firebase云功能通过 longRunningRecognize 的示例代码: //检测音频文件中的语音.这将创建一个识别作业,您可以//可以立即等待,或者稍后再获取结果.const [operation] =等待client.longRunningRecognize(request);//获得工作最终结果的Promise表示const [response] =等待操作. 此代 ..

应用程序默认凭据不可用

我正在尝试为我的Android应用程序使用Google Cloud Platform的语音转文本API.我已经通过了一个录制的音频文件以转换为文本.我无法解决被描述为""的IOException.应用程序默认凭据不可用.如果在Google Compute Engine中运行,它们将可用.否则,必须定义环境变量GOOGLE_APPLICATION_CREDENTIALS指向定义凭据的文件.请参见 h ..
发布时间:2021-05-12 19:49:43 移动开发

对话的Dialogflow电子邮件地址

有人对通过语音获取用户的电子邮件地址有任何建议吗?由于电子邮件地址在某种程度上遵循某种模式,因此编写起来非常简单,但是使用语音非常困难.最好只是简单地要求用户逐个读出字符吗? 解决方案 Dialogflow提供了系统实体用于大多数常见的用户输入.您可以将 sys.email 实体用于您的目的,然后在实现中使用它. ..
发布时间:2021-04-30 19:45:22 其他开发

改善语音识别,C#

我使用System.Speech库来识别语音,但通常可以识别出很大的差异. SpeechRecognizer_rec = new SpeechRecognizer();DictationGrammar语法=新的DictationGrammar();grammar.SpeechRecognized + =新的EventHandler(gra ..
发布时间:2021-04-18 20:36:53 C#/.NET

Azure语音SDK使用python从流中语音转换为文本

我正在尝试将UI的流作为流发送到python API.我需要python Azure语音逻辑将语音转换为文本.我不确定如何使用pull/pusha音频输入流将语音转换为文本 解决方案 就我而言,我从其他来源接收到音频流.与我的应用程序建立连接后(在收到第一个程序包时),将启动PushAudioInputStream.此流将接收到的每个程序包的数据推送到SDK.因此在这种情况下使用具有推流的 ..
发布时间:2021-04-13 19:57:32 Python

如何为MS Azure语音到文本服务启用单词级置信度

如何使用MS Azure语音转文本服务获得每个单词的单词级置信度?目前,我正在获得句子级别的置信度值,并且需要单词级别的置信度以进行进一步处理. 解决方案 使用以下代码: setServiceProperty("wordLevelConfidence","true",ServicePropertyChannel.UriQueryParameter); 这就是我的做法 Speech ..
发布时间:2021-04-13 19:08:07 其他开发

如何使用Azure语音转文本和Python SDK获取单词级时间戳?

在我在GitHub上找到的示例的帮助下,我的代码当前能够读取音频文件并使用Azure Speech to Text进行转录.但是,我需要在转录中包括所有单词的时间戳.根据文档,此功能已在1.5.0版中添加,可以通过request_word_level_timestamps()方法进行访问.但是即使我已经打电话给我,我也会得到与以前相同的答复.我无法从文档中弄清楚如何使用它.有谁知道它是如何工作的? ..
发布时间:2021-04-13 18:59:55 Python