speech-recognition相关内容
可以从MFCC系数中获得音频信号吗?如果是,MFCC系数也有一个值范围吗?如果不是,则如何在0到1之间对其进行归一化. 我尝试使用以下MATLAB代码: http://labrosa.ee.columbia.edu/matlab/rastamat/ 但是恢复的音频与原始信号完全不同. 解决方案 此问题更适合 dsp stackexchange . 您无法修复来自MF
..
我正在阅读本文有关使用卷积神经网络进行环境噪声歧视的文章,并希望复制他们的结果.他们将WAV文件转换为对数比例的梅尔频谱图.你怎么做到这一点?我能够将WAV文件转换为梅尔频谱图 y,sr = librosa.load('audio/100263-2-0-117.wav',duration = 3)ps = librosa.feature.melspectrogram(y = y,sr = sr
..
我正在使用webrtcvad和pydub处理音频文件.任何片段的分割都是通过静默句子来实现的.有什么方法可以在字级边界条件下进行拆分?(在每个口语之后)?如果librosa/ffmpeg/pydub具有这样的功能,是否可以在每个人声上进行分割?但是分割后,我需要人声的开始和结束时间与人声部分在原始文件中所处的位置完全相同.ffmpeg分割的一种简单解决方案或方法也定义为: https://g
..
问题 我的项目由一个桌面应用程序组成,该应用程序实时记录音频,为此,我打算从API接收实时识别反馈.使用麦克风,使用Microsoft的新语音到文本API的实时实现是微不足道的,我的情况与仅在将我的数据写入 MemoryStream 对象. API支持 本文解释了如何实现API的 Recognizer (链接).换句话说,要实现我所需要的,必须实现一个回调接口. 实施尝试
..
我希望能够结束Google语音转文本流( StreamingRecognitionResult.is_final 是 true .同样,看来我们应该一直保持音频流传输,直到触发 data 事件为止,才能获得最终或临时的所有结果. 对我来说,这似乎是个错误,他提交了问题. 已更新:现在看来,它已被确认为错误.在修复之前,我正在寻找一种可能的解决方法. 已更新:以供将来参考,此处是列出了
..
我想知道ASP.NET MVC 5是否支持语音识别.我想用它来编写登录系统. 解决方案 ASP.net是一个用于使用HTML,Javascript和CSS构建网站的Web框架,甚至根本无法处理声音. 但是,您可以使用HTML语音识别API(仅适用于Chrome浏览器)进行语音识别.您可以使用ASP.NET创建所需的HTML页面并将其呈现给用户.您可以从以下页面了解有关HTML语音识别
..
我已经实现了这样的识别器意图. Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,RecognizerIntent.LANGUAGE_MODEL_FREE_FORM);intent.putExtra(
..
我想开发一个模块,该模块将使用语音对Android中的文本进行支持.我发现了许多与 RecognizerIntent 等相关的文档和演示.但是我发现所有这些演示都只能获取声音,直到10秒钟左右.但是我希望我的演示运行5-10分钟以上.如果没有离线运行,我没有任何问题,因为我的应用程序始终在线运行. 我还查看了 Android上的Pocketsphinx ,但是效果不佳.另外,它仅对Andro
..
我想问一下如何在仿真器上使用语音输入文本代码.我的代码可在真实设备上运行,但不能在仿真器上运行.错误说: 找不到用于处理Intent的活动{act = android.speech.action.RECOGNIZE_SPEECH(有其他功能)} 我该怎么办? 解决方案 package net.viralpatel.android.speechtotextdemo;导入java.ut
..
我正在构建一个使用语音命令执行某些功能的应用程序.我从此处 获得了一些代码 private静态最终int SPEECH_REQUEST_CODE = 0;//创建一个可以启动语音识别器活动的意图私人空白displaySpeechRecognizer(){意图意图=新意图(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);intent.putExtra(Rec
..
我正在使用此api的Google:- https://www.google.com/speech-api/v2/recognize?output = json& lang = "+language_code +“& key ="我的密钥" 用于语音识别,并且效果很好. 问题在于数字,即,如果我说一二三四,结果将是 1234 如果我说 1,234> ,结果仍然是 1234 .
..
我正在使用谷歌语音识别器在Android中集成语音服务,但是在按下麦克风按钮时却显示了这条烦人的吐司消息.请给我建议一种隐藏此吐司信息的方法. 这是我的Java代码 公共类FormActivity扩展了AppCompatActivity {AppCompatEditText mFeedbackView;ImageView mFeedbackVoiceView;私有最终int REQ_COD
..
这是我启动RecogniseListener目的的方式: Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH);intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,RecognizerIntent.LANGUAGE_MODEL_FREE_FORM);int
..
在大多数Android设备中, RecognitionService 将由Google的原生的“现在/助手"应用程序. 直到Android Oreo为止,我都可以使用以下简单代码查询Google Recognizer支持的语言: 最终意图vrIntent =新意图(RecognizerIntent.ACTION_GET_LANGUAGE_DETAILS);//vrIntent.setPac
..
我正在将 SppechRecognizer 用于语音识别器应用程序.它的工作正常.我的要求是我想在1秒或2秒后停止收听声音.如何实现? 解决方案 1或2秒似乎没有很多时间,但如果要设置时间限制,则可能需要穿线.Android有一些默认的附加功能,可以设置语音输入的最小长度和用户停止讲话后的最大长度,但没有其他功能可以设置语音输入的最大时间长度. 您最好的选择是安排某种计时器,例如 C
..
为了能够在我正在开发的.NET应用程序中使用,我在Windows 7 32位操作系统中安装了新的语音. 但是,当我使用 GetInstalledVoices()方法查看所有声音的列表时,只会出现一个(默认为"Microsoft Anna").为什么会发生? “语音"出现在“控制面板"->“语音"部分. 其他TTS应用程序也可以使用此声音. 解决方案 我找到了我的问题的答案
..
对于那些不熟悉留声机的人,我提供以下示例: 我们的& hi&高 到&太&两个 使用iOS随附的语音API 时,我遇到用户可能会遇到的情况说出其中一个单词,但它不会总是返回我想要的单词. 我查看了[alternativeSubstrings](链接)属性想知道这是否有帮助,但是在我对上述单词进行测试时,它总是空着. 我还研究了自然语言API ,但在那里找不到任何内容看起来
..
是否可以识别语音,然后使用自定义键盘将其转换为文本.就像iPhone中的默认短信应用一样. 屏幕截图 1.默认识别iPhone键盘中的语音. 2.文字语音 任何帮助将不胜感激. 谢谢. 解决方案 我有以下代码在示例应用程序中用于将语音转换为文本. import UIKit import Speech import AVKit class ViewCon
..
我发现许多库都可以使用,例如 flite 在给定的此处中,但是我想知道iOS是否提供了任何内置类与OS X中提供的NSSpeechRecognizer相似的SDK. 解决方案 iOS 5或6中没有内置的文本语音转换支持-您需要使用第三方库.如果您使用的是iOS 7,那么您会很幸运. iOS 7中有一个名为AVSpeechSynthesizer的新类(AVSpeechUtterance
..
我对这个离子插件有问题,我做对了所有事情,但是当您带给我数据时,它是在后续操作(例如再次按下按钮或只是按下其他元素)之后执行的. 如果有人可以帮助我,我会保留我的代码. 下面是我的HTML代码:
..