speech-to-text相关内容

IBM Watson语音转文本无法对数据流音频/WebM音频/x浮点数组媒体MIME类型进行代码转换

我正在使用mediaDevices.getUserMedia()在Chrome中录制短音频文件(几秒钟),将文件保存到Firebase存储,然后尝试将文件发送到IBM Watson语音到文本。我收到以下错误消息: unable to transcode data stream audio/webm -> audio/x-float-array 我在浏览器中设置了麦克风: navig ..

Wave.Error:UNKNOWN FORMAT:3尝试将WAV文件转换为Python中的文本时出现错误

我需要从麦克风录制音频并将其转换为文本。我用从网上下载的几个音频片段尝试了这个转换过程,效果很好。但当我尝试转换从麦克风录制的音频剪辑时,出现以下错误。 回溯(最近一次调用): 文件“C:UsersHPAppDataLocalProgramsPythonPython37libsite-packagesspeech_recognition__init__.py”,第203行,在中输入 Self.A ..
发布时间:2022-06-07 20:53:19 Python

是否可以从一个帐户同时执行两个语音到文本流?

所以,问题就在标题上,我可以为一个用户创建语音到文本流,效果很好,但当我尝试连接第二个用户时,它对所有人都不好,有时对一个用户很好,所以问题是,我是否可以使用一个Google_APPLICATION_Credentials同时为两个或更多用户创建Sppech到文本流,或者每个用户都需要启动自己的项目? 推荐答案 您应该能够使用相同的StreamingRecognize()客户端创建多个 ..

通过附加上下文改进Android语音识别

据我所知,Android API使用谷歌语音识别服务将语音转换为文本。 我已经学习了API,我发现它很简单,只需将语音转换为单词数组。 有没有什么方法可以提高识别率,我是说,如果我知道上下文,我可以给服务发送一些参数来提高识别率吗? 或者,是否有任何其他语音识别服务可用于此目的? 提前谢谢。 推荐答案 有什么方法可以提高识别率吗?我的意思是,如果我知道上下文,我可以给服 ..
发布时间:2022-04-02 10:49:45 移动开发

INVALID_ARGUMENT:请求负载大小超过限制:10485760字节

我第一次在一个项目中使用GCS Speech API将一系列音频文件转换为文本。每个文件大约有60分钟,在整个时间里都是一个人不停地说话。 我已经安装了GC SDK,正在使用它执行请求,如下所示: gcloud ml speech recognize-long-running "/path/to/file/audio.flac" --language-code="pt-PT" --asy ..

如何在c#项目中添加自定义词典

我正在开发一个基于语音识别的C#项目。我想识别印度英语口音中的单词,因此我想了想词库,然后在该文件中添加发音,但我不知道如何在我的项目中添加词典&;如何创建词典? 推荐答案 Lexicons不能通过System.Speech.Recognition公开,很遗憾。不过,您可以使用SAPI的SpeechLib自动化接口访问词典;您要创建的对象是SpLexicon。 请注意,Sy ..
发布时间:2022-04-02 10:28:12 C#/.NET

巨蟒语音比较

我有两个.wav文件,我需要比较它们并确定它们是否包含相同的单词(顺序也相同)。 我一直在寻找最好的方法。我想不出如何让pySpeech使用文件作为输入。我试过让CMU的狮身人面像项目工作,但我似乎不能让GStreamer与Python27一起工作,更不用说他们的项目了。我也玩过蜻蜓,但没有运气。 我使用的是64位Win7和Python27。有谁有什么主意吗? 非常感谢您的帮助。 ..
发布时间:2022-04-02 10:01:20 Python

Android SpeechRecognizer设置识别引擎?

我正在使用SpeechRecognizer将语音转换为文本。我正在使用三星,在我将语音识别器设置为‘Samsung Powered by Vlingo’时遇到错误,在我更改为‘Google’后,错误消失了。我想知道有什么方法可以编程更改识别引擎吗?谢谢。 推荐答案 我找到了问题的答案。我可以使用‘Public Static SpeechRecognizer createSpeechRe ..
发布时间:2022-04-02 09:50:06 Java开发

如何将Mozilla DeepSpeech实现到PHP Web应用程序中将语音转换为文本?

我有一个PHP Web应用程序,正在寻找一个开源的,高精度的语音到文本识别实现,将接受语音命令打开用户的网页。例如:“进行销售”(这将打开Create Sales PHP页面)、“进行采购订单”、“打开日终报告”等。 我的问题: 我想知道是否可以使用Mozilla DeepSpeech从Firefox浏览器获取.wav音频并将语音转换为文本。如果是,使用麦克风录制Firefox语音并使 ..

C#Syst.Speech.识别替换字词

我目前正在使用Microsoft.Speech API将话语口述为文本,但我真正需要的是该程序可以使用的其他口述。我用这个作为我的荣誉论文,因此我希望知道对任何话语的前十种解读。 2011年,人们提出了一个非常类似的问题,如果不是很准确的话: C# system.speech.recognition alternates 但一直没有人接电话。因此,我的问题是:如何使用Microsoft.S ..
发布时间:2022-04-02 09:15:45 C#/.NET

语音识别,NodeJS

我目前正在开发一个工具,由于连接到不同的API,我可以阅读所有通知。 它工作得很好,但现在我想放一些语音命令来做一些操作。 就像当软件显示“一封来自Bob的邮件”时,我想说的是“阅读它”或“存档它”。 我的软件通过节点服务器运行,目前没有任何浏览器实现,但它可以是计划。 在节点JS中启用语音到文本的最佳方式是什么? 我在它上面看到了很多线程,但主要是使用浏览器,如果可 ..
发布时间:2022-04-01 23:59:45 其他开发

如何通过Objective-C中的语音框架实现语音到文本的转换?

我想使用iOS语音框架在我的Objective-C应用程序中进行语音识别。 我找到了一些快速的例子,但在Objective-C中找不到任何东西。 是否可以从Objective-C访问此框架?如果是,如何? 推荐答案 花了足够的时间寻找Objective-C示例--甚至在苹果的文档中--我也找不到像样的东西,所以我自己找出来了。 头文件(.h) /*! * Im ..

只对数字(1到10000)进行语音识别的接口还是sdk?

我需要一个专门的解决方案来检测1到1000之间的数字,以便在智能手机上使用。 最好的解决方案是让这个SDK脱机工作。 有什么想法吗? 我找不到Google Speech或Amazon Transcribe的任何配置以允许“仅数字” 推荐答案 从人们那里得到数字是不太对的,即使你向他们要数字,他们通常也会说很多话,比如“我不知道”或“稍等一下”。您将严重损害体验。 您必须智能地分析 ..
发布时间:2022-04-01 23:52:48 其他开发

非英语语言的语音到文本转换

我正在尝试实现非英语语言的朴素语音到文本的转换。用户使用其他语言说话,而文本也使用相同的语言。这可能吗?如果是的话,有谁能帮助我们想出如何实施它的想法呢?如有任何帮助,我们将不胜感激。提前谢谢。 推荐答案 任何商业语音识别解决方案都不太可能支持梵文,因此您唯一的选择是将对梵文的支持添加到开源引擎(如CMUSphinx)中。 这非常简单,您实际上只需要按照文档操作,就可以切中要害。 ..
发布时间:2022-04-01 23:51:11 其他开发

有人在生产中使用Google Speech API吗?

我找到了一些介绍如何使用Google Speech API的文章(http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/)。 然而,这可靠吗?有人在生产中使用它吗? 谢谢 推荐答案 我的理解是,谷歌的语音网络服务只有在他们的Chrome浏览器或安卓操作系统上才能合法使用。你当然可以构建一个依赖于 ..
发布时间:2022-04-01 23:46:20 其他开发

PySpeech(Python)-转录MP3文件?

我想使用pySpeech API转录mp3(语音到文本)。不过,我不知道这是否可能。 是吗?如何? 推荐答案 我不知道关于pySpeech的事情,但如果它是微软Speech API的包装器,那么其他一些帖子可能会有帮助。 Microsoft语音引擎不需要麦克风输入。他们可以接受音频文件。 如果你在做抄写,你需要一本听写语法。听写语法包含在Windows 7和Vista附带 ..
发布时间:2022-04-01 23:44:14 Python