speech-recognition相关内容

我们可以从MFCC系数中恢复音频吗?

可以从MFCC系数中获得音频信号吗?如果是,MFCC系数也有一个值范围吗?如果不是,则如何在0到1之间对其进行归一化. 我尝试使用以下MATLAB代码: http://labrosa.ee.columbia.edu/matlab/rastamat/ 但是恢复的音频与原始信号完全不同. 解决方案 此问题更适合 dsp stackexchange . 您无法修复来自MF ..
发布时间:2021-04-12 19:38:38 其他开发

如何将梅尔频谱图转换为对数缩放梅尔频谱图

我正在阅读本文有关使用卷积神经网络进行环境噪声歧视的文章,并希望复制他们的结果.他们将WAV文件转换为对数比例的梅尔频谱图.你怎么做到这一点?我能够将WAV文件转换为梅尔频谱图 y,sr = librosa.load('audio/100263-2-0-117.wav',duration = 3)ps = librosa.feature.melspectrogram(y = y,sr = sr ..
发布时间:2021-04-12 19:36:53 Python

音频信号在字级边界处分离

我正在使用webrtcvad和pydub处理音频文件.任何片段的分割都是通过静默句子来实现的.有什么方法可以在字级边界条件下进行拆分?(在每个口语之后)?如果librosa/ffmpeg/pydub具有这样的功能,是否可以在每个人声上进行分割?但是分割后,我需要人声的开始和结束时间与人声部分在原始文件中所处的位置完全相同.ffmpeg分割的一种简单解决方案或方法也定义为: https://g ..
发布时间:2021-04-12 19:34:54 Python

使用Microsoft Cognitive Speech API和非麦克风实时音频流进行语音识别

问题 我的项目由一个桌面应用程序组成,该应用程序实时记录音频,为此,我打算从API接收实时识别反馈.使用麦克风,使用Microsoft的新语音到文本API的实时实现是微不足道的,我的情况与仅在将我的数据写入 MemoryStream 对象. API支持 本文解释了如何实现API的 Recognizer (链接).换句话说,要实现我所需要的,必须实现一个回调接口. 实施尝试 ..
发布时间:2021-04-12 19:33:30 C#/.NET

如何结束Google语音转文本流的正常识别并获取待处理的文本结果?

我希望能够结束Google语音转文本流( StreamingRecognitionResult.is_final 是 true .同样,看来我们应该一直保持音频流传输,直到触发 data 事件为止,才能获得最终或临时的所有结果. 对我来说,这似乎是个错误,他提交了问题. 已更新:现在看来,它已被确认为错误.在修复之前,我正在寻找一种可能的解决方法. 已更新:以供将来参考,此处是列出了 ..

ASP.NET MVC 5是否支持语音识别?

我想知道ASP.NET MVC 5是否支持语音识别.我想用它来编写登录系统. 解决方案 ASP.net是一个用于使用HTML,Javascript和CSS构建网站的Web框架,甚至根本无法处理声音. 但是,您可以使用HTML语音识别API(仅适用于Chrome浏览器)进行语音识别.您可以使用ASP.NET创建所需的HTML页面并将其呈现给用户.您可以从以下页面了解有关HTML语音识别 ..
发布时间:2021-04-11 19:58:44 其他开发

Android上的长音频语音识别

我想开发一个模块,该模块将使用语音对Android中的文本进行支持.我发现了许多与 RecognizerIntent 等相关的文档和演示.但是我发现所有这些演示都只能获取声音,直到10秒钟左右.但是我希望我的演示运行5-10分钟以上.如果没有离线运行,我没有任何问题,因为我的应用程序始终在线运行. 我还查看了 Android上的Pocketsphinx ,但是效果不佳.另外,它仅对Andro ..

在模拟器中与文本进行语音对话:未找到可处理意图的活动

我想问一下如何在仿真器上使用语音输入文本代码.我的代码可在真实设备上运行,但不能在仿真器上运行.错误说: 找不到用于处理Intent的活动{act = android.speech.action.RECOGNIZE_SPEECH(有其他功能)} 我该怎么办? 解决方案 package net.viralpatel.android.speechtotextdemo;导入java.ut ..
发布时间:2021-04-05 20:39:58 移动开发

通过语音开始语音识别,例如"Ok Google"吗?

我正在构建一个使用语音命令执行某些功能的应用程序.我从此处 获得了一些代码 private静态最终int SPEECH_REQUEST_CODE = 0;//创建一个可以启动语音识别器活动的意图私人空白displaySpeechRecognizer(){意图意图=新意图(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);intent.putExtra(Rec ..
发布时间:2021-04-05 20:19:18 移动开发

如何隐藏吐司消息“您的音频将被发送到Google以提供语音识别服务."在Android中?

我正在使用谷歌语音识别器在Android中集成语音服务,但是在按下麦克风按钮时却显示了这条烦人的吐司消息.请给我建议一种隐藏此吐司信息的方法. 这是我的Java代码 公共类FormActivity扩展了AppCompatActivity {AppCompatEditText mFeedbackView;ImageView mFeedbackVoiceView;私有最终int REQ_COD ..
发布时间:2021-04-05 20:08:22 移动开发

SpeechRecognizer-时间限制

我正在将 SppechRecognizer 用于语音识别器应用程序.它的工作正常.我的要求是我想在1秒或2秒后停止收听声音.如何实现? 解决方案 1或2秒似乎没有很多时间,但如果要设置时间限制,则可能需要穿线.Android有一些默认的附加功能,可以设置语音输入的最小长度和用户停止讲话后的最大长度,但没有其他功能可以设置语音输入的最大时间长度. 您最好的选择是安排某种计时器,例如 C ..
发布时间:2021-04-05 18:42:27 移动开发

SpeechSynthesizer无法获得所有已安装的语音2

为了能够在我正在开发的.NET应用程序中使用,我在Windows 7 32位操作系统中安装了新的语音. 但是,当我使用 GetInstalledVoices()方法查看所有声音的列表时,只会出现一个(默认为"Microsoft Anna").为什么会发生? “语音"出现在“控制面板"->“语音"部分. 其他TTS应用程序也可以使用此声音. 解决方案 我找到了我的问题的答案 ..
发布时间:2021-04-01 21:41:05 C#/.NET

如何在语音识别中处理同音字?

对于那些不熟悉留声机的人,我提供以下示例: 我们的& hi&高 到&太&两个 使用iOS随附的语音API 时,我遇到用户可能会遇到的情况说出其中一个单词,但它不会总是返回我想要的单词. 我查看了[alternativeSubstrings](链接)属性想知道这是否有帮助,但是在我对上述单词进行测试时,它总是空着. 我还研究了自然语言API ,但在那里找不到任何内容看起来 ..
发布时间:2020-12-01 06:57:50 移动开发

识别语音转文本迅捷

是否可以识别语音,然后使用自定义键盘将其转换为文本.就像iPhone中的默认短信应用一样. 屏幕截图 1.默认识别iPhone键盘中的语音. 2.文字语音 任何帮助将不胜感激. 谢谢. 解决方案 我有以下代码在示例应用程序中用于将语音转换为文本. import UIKit import Speech import AVKit class ViewCon ..

iOS是否提供内置的文本到语音支持或诸如NSSpeechRecognizer之类的任何类?

我发现许多库都可以使用,例如 flite 在给定的此处中,但是我想知道iOS是否提供了任何内置类与OS X中提供的NSSpeechRecognizer相似的SDK. 解决方案 iOS 5或6中没有内置的文本语音转换支持-您需要使用第三方库.如果您使用的是iOS 7,那么您会很幸运. iOS 7中有一个名为AVSpeechSynthesizer的新类(AVSpeechUtterance ..
发布时间:2020-11-30 21:26:10 移动开发