speech-recognition相关内容
我正在尝试使用C#构建一个应用程序,该应用程序将获取音频流(目前是从文件中获取,但稍后将是网络流),并在它们可用时实时返回Watson的转录,类似于演示位于 https://speech-to-text-demo.mybluemix.net/ 有人知道我可以在哪里找到一些示例代码(最好是C#),可以帮助我入门吗? 我根据 https://github.com/watson-develo
..
虽然在一般情况下我们使用Bluemix Java SDK取得了成功,但在尝试识别偶发的非英语单词(例如外来姓氏)时遇到了问题.我们的希望是可以使用SPR语音符号(这对text2speech非常有用)来指定关键字列表,但对Speech2text似乎不支持.有任何建议/解决方法吗? SpeechToText service = new SpeechToText(); service.setUse
..
我正在使用节点sdk来使用IBM watson语音转文本模块.发送音频样本并收到响应后,置信度看起来很奇怪. { "results": [ { "word_alternatives": [ { "start_time": 3.31, "alternatives": [ { "confidence
..
我了解到Watson语音转文本已针对口语对话和1或2个说话者进行了一定程度的校准.我也知道,与WAV和OGG相比,它可以更好地处理FLAC. 从声学上讲,我想知道如何改善算法识别能力. 我的意思是,增加音量有帮助吗?也许使用一些压缩过滤器?降低噪音? 什么样的预处理可以帮助这项服务? 解决方案 提高基本模型(非常准确,但也非常通用)的准确性的最佳方法是使用Watson S
..
我想将 SpeechRecognition api 与音频一起使用文件(mp3,波形等) 有可能吗? 解决方案 简短的回答是否. Web语音Api规范不禁止这样做(浏览器可以允许最终用户选择一个文件作为输入),但是音频输入流永远不会提供给调用的javascript代码(在当前的草稿版本中),因此您无法读取或读取任何文件.更改输入到语音识别服务的音频. 设计此规范的目的是使jav
..
我正在用Hololens创建自己的带有语音识别功能的Unity项目.我复制了教程中的说明. 从字面上将粘贴的SpeechManager.cs文件和SphereCommands.cs文件复制到我的项目中,但不会出错.我尝试在其中加入一些声音: KeywordRecognizer_OnPhraseRecognized看看我是否到达那里(甚至在调用任何东西之前),但我不知道. 我启动了key
..
概述:因此,这是我最后一个问题的跟进工作( 问题:我的下一个问题似乎涉及一种微小的比赛情况,涉及我的麦克风已经在使用中,需要能够记录一些东西. 想象以下内容: 我启动了我的python守护进程,它目前正在监听. 我对着麦克风说话,然后问好Hello Scarlett(Pocketsphinx匹配关键字并立即开始记录所有输入) 应该将音频记录到/tmp/目录中的wav文件中,并且应该
..
我正在使用来自云平台的Google Speech API来获取流音频的语音到文本.我已经使用GCP对short audio file的curl POST请求进行了REST API调用. 我看过Google Streaming的文档识别,显示“流语音识别只能通过gRPC进行." 我在 OpenSuse Leap 15.0 中安装了gRPC(也有protobuf).这是该目录的屏幕截图.
..
我使用Microsoft语音平台在屏幕上输出语音时识别语音.但是,我有问题:例如,我有语法(由GrammarBuilder and Choices构造-“红色",“绿色",“黑色") 当我说“红色绿色黑色"时,我只能得到“红色",也许是“红色绿色",而不能得到“红色绿色黑色". 一些代码: Thread.CurrentThread.CurrentCulture = new Cul
..
有没有一种方法可以仅在听写模式下或在构建自定义语法XML文件时将语法限制为数字?显然我不能将所有数字都输入XML,但是必须有一种简单的方法. 解决方案 我很早以前就知道过这个问题,但是我有一个解决方案,以防您仍然需要它.这是我想出的文件.这要求用户仅讲一位数字,例如1到7(不是1到7,这将不起作用).您可以根据自己的需要进行尝试:
..
我正在制作自己的jarvis程序,当我说“搜索"时,我想 打开Google并搜索“内容".这是我的代码...(我没有全部粘贴) private void Form1_Load(object sender, EventArgs e) { _recognizer.SetInputToDefaultAudioDevice(); _recogniz
..
我正在执行语音识别任务,该任务涉及检测儿童的语音能力,随着时间的推移而改善 ... 我想将Google Cloud Speech to Text API用于检测的ASR部分.然后,我将使用不同测量结果的成绩单来估算进度. 但是! Google Speech API的句子级别自动更正功能始终会重写口语的前一段... 是否可以禁用此ASR的自动更正? 我无法使用"speechC
..
我开始使用Google语音API转录音频. 正在转录的音频包含许多个接一个的语音. 例如273298 但是转录又回到了270-3298 我的猜测是它将其解释为某种电话号码. 我想要的是未解析的输出,例如“我可以自己处理和解析的“二七三二二九十八". 对这种事情有设置或支持吗? 谢谢 解决方案 所以我遇到了同样的问题,我想我们找到了解决方案.如果您使
..
如果我们在Chrome的网站上运行以下HTML5的Web Speech API的JavaScript代码,则Chrome会要求用户允许使用用户的计算机麦克风. var recognition = new webkitSpeechRecognition(); recognition.start(); 但是,如果我在Chrome扩展程序页面上运行上述代码,则Chrome不会要求用户授予权限.
..
我当时正在使用javascript语音识别api(new webkitSpeechRecognition()),但令我惊讶的是为什么它没有互联网就无法正常工作,因为它是javascript代码,因此应该可以离线工作 我检查了chrome开发人员工具的网络部分,甚至没有向互联网发出请求 解决方案 在Chrome上,在网页上使用语音识别涉及基于服务器的识别引擎.您的音频将发送到Web服务
..
我想在我的商业网络应用程序中使用webkit-语音识别. 有什么限制(按站点查询的限制,禁止用于商业用途)? 解决方案 5分钟(300秒)后出现超时 尽管我找不到任何文档.
..
我已经生成了一个.wav音频文件,其中包含一些语音和其他一些干扰语音. 这段代码为我测试了一个.wav文件: import speech_recognition as sr r = sr.Recognizer() with sr.WavFile(wav_path) as source: audio = r.record(source) te
..
我希望Android语音识别系统分析音频文件,而不是麦克风的默认传入语音. 有什么办法吗? 谢谢. 解决方案 cmusphinx.sourceforge.net/wiki/tutorialandroid刚刚发现链接听起来像是有人在创建一个Android版本的Sphinx. 似乎不支持查看Android api来执行此操作. ( http://developer.andro
..
我需要使用Delphi语言创建一个程序化等效项...或者有人可以发布有关如何使用Delphi在语音识别中执行语法的链接。或在Delphi中具有程序等效的XML语法的任何示例。抱歉,我的英语。 **等效程序** ** 参考: http://msdn.microsoft.com/zh-cn/library/ms723634(v = VS.85).aspx SPS
..
我想制作一个iOS应用来计算疑问句。我将寻找WH问题,也将寻找“我会吗?”格式化问题。 我在语音或音频技术领域并不十分了解,但是我使用Google时发现语音识别SDK很少。但是仍然不知道如何检测和绘制语调。是否有任何支持语调或情感语音识别的SDK? 解决方案 AFAIK没有基于云的语音识别SDK,它也可以提供你的语调。您可以搜索音高跟踪解决方案,并从音高轮廓中得出语调。在Python
..