speech相关内容
获取“所有”AVSpeechSynthesisVoice对象列表的标准方法是请求它: [AVSpeechSynthesisVoice speechVoices] 但是,这仅显示每个语言区域对的唯一默认语音。例如,EN-US: "Language: en-US, Name: Samantha, Quality: Default", 如果我在下面的设置应用程序中查看 General
..
我正在尝试制作一款具有语音识别功能的Android应用程序,但不幸的是,Google不支持我的语言(马其顿语),我正在尝试比较两种录音的声音。 我正在使用http://code.google.com/p/musicg/来记录和比较语音,我正在堆叠初始化语音检测的设置。有人可以告诉我如何重写语音检测的初始化函数,这对我来说非常重要。或者其他一些想法 如何做到这一点。 这是哨声检测的初始化
..
我正在尝试使用Google Speech(转换为文本)API确定演讲者的流利度。 到目前为止,我发现接口(Betav1)可以显示说出一个单词的时间(开始时间和结束时间)。 和来自维基百科的 口语流利度或口语流利度都是衡量产出的标准 和接受演讲,作为一个流利的演讲者必须能够 在谈话中理解并回应他人。口语是 典型地以看似不流利的品质为特征(例如, 支离破碎、停顿、错误开始、犹豫、重复
..
我一直想创建一个使用Microsoft语音识别的应用程序。 我的应用程序的用户应该经常说缩写的东西,比如‘LHC’代表‘大型强子对撞机’或‘CERN’。根据该顺序,我的应用程序将返回 你说:在C岁的时候 您说:CERN 虽然它对‘CERN’有效,但对‘LHC’却失败得很厉害。 然而,如果我可以制作自己的定制培训文件,我就可以很容易地在其中的某个地方放置术语LHC。然后,我
..
我有15盘录音带,我相信其中一盘包含了我和祖母交谈的旧录音。快速地试图找到合适的地方,但没有找到。我不想听20个小时的磁带才能找到它。位置可能不在其中一盘磁带的开头。大多数内容似乎分为三类--按照总长度的顺序,最长的是:静音、语音广播和音乐。 我计划将所有磁带转换为数字格式,然后再次查找录音。最明显的方法是在我做其他事情的时候在背景中播放它们。这对我来说太直截了当了,所以:有没有什么开源库或
..
我目前正在使用Microsoft.Speech API将话语口述为文本,但我真正需要的是该程序可以使用的其他口述。我用这个作为我的荣誉论文,因此我希望知道对任何话语的前十种解读。 2011年,人们提出了一个非常类似的问题,如果不是很准确的话: C# system.speech.recognition alternates 但一直没有人接电话。因此,我的问题是:如何使用Microsoft.S
..
我想开始学习语音识别和语音合成 在Prototype based on speech recognition 有人告诉我使用Microsoft语音服务器(SDK等) 当我有了这些,我如何编写应用程序,以及使用哪种编程语言(开发环境?)? 是否有使用Asterisk或SVOX的经验? 我需要做的是: 语音识别 语音合成 我不一定要很好地识别语音--我认为一开始30-50个单
..
我有一个用于语言X的语音识别应用程序。 Microsoft SAPI不支持此语言。如何将用于语言X的此SR添加到Microsoft SAPI,以便可以通过Microsoft SAPI使用它? 所以我想知道的是 我可以向Microsoft SAPI添加自定义SR吗? 如果是,如何操作? 如果这是一个复杂的过程,从哪里可以找到详细信息? 推荐答案 只是应用程序编程接口
..
我需要一个专门的解决方案来检测1到1000之间的数字,以便在智能手机上使用。 最好的解决方案是让这个SDK脱机工作。 有什么想法吗? 我找不到Google Speech或Amazon Transcribe的任何配置以允许“仅数字” 推荐答案 从人们那里得到数字是不太对的,即使你向他们要数字,他们通常也会说很多话,比如“我不知道”或“稍等一下”。您将严重损害体验。 您必须智能地分析
..
我想使用pySpeech API转录mp3(语音到文本)。不过,我不知道这是否可能。 是吗?如何? 推荐答案 我不知道关于pySpeech的事情,但如果它是微软Speech API的包装器,那么其他一些帖子可能会有帮助。 Microsoft语音引擎不需要麦克风输入。他们可以接受音频文件。 如果你在做抄写,你需要一本听写语法。听写语法包含在Windows 7和Vista附带
..
在Vista上使用Microsoft的SAPI 5.3语音API,如何编程进行RecoProfile的声学模型训练?更具体地说,如果您有一个文本文件和一个说出该文本的用户的音频文件,您会执行什么序列的SAPI调用以使用该文本和音频训练用户的配置文件? 更新: 有关此问题的详细信息我仍未解决: 您在";处调用ISpRecognizer2.SetTrainingState(true
..
与其使用可能会变得非常冗长且非常乏味的 Switch/Case 或 IF 布尔检查,我想知道是否可以找到更好的方法来处理和处理命令. 例如: if(settings.getName == 命令){说话(“我在这里");}if("获取新闻提要" == 命令){MyRSSFeed RSSNewsFeed = new MyRSSFeed();RSSNewsFeed.GetFeed();} if
..
我正在尝试使用 Google Speech API v2(地址 https://www.google.com/speech-api/v2/recognize?...) 我需要使用我的 Api 密钥,但是当我使用它时,我收到 error 403 Forbidden 当我使用我下载的示例项目中的 API 密钥时,它工作正常. 我在 Google Developers Console
..
.NET 中有两个类似的命名空间和程序集用于语音识别.我正在尝试了解这些差异以及何时适合使用其中一种. 有 System.Speech.Recognition 来自程序集 System.Speech(在 System.Speech.dll 中).System.Speech.dll 是 .NET Framework 类库 3.0 及更高版本中的核心 DLL 还有来自程序集 Microso
..
在“音频分析"领域是否有先前的开源工作来检测人声(比如尽管有一些背景噪音),确定说话者的性别,可能确定否.演讲者的数量、演讲者的年龄以及演讲者的情绪? 我的预感是,像 CMU Sphinx 这样的语音识别软件可能是一个不错的起点,但如果有更好的东西,那就太好了. 解决方案 我是一名从事语音识别研究的研究生.这些都是开放的研究问题,不幸的是,我不知道可以开箱即用的开源软件包. 如
..
我正在使用 W3C 浏览器网络语音 Api.我到处搜索,但找不到答案.有使用限制吗? 演示:https://www.google.com/intl/en/chrome/demos/speech.html 解决方案 是的,有一点问题.经过大量实验,我最近终于达到了极限;一旦请求开始,它就会被缩短.在桌面网络浏览器 (Chrome) 上,有 每个用户的限制(Primiano Tucci
..
我正在使用 W3C 浏览器网络语音 Api.我到处搜索,但找不到答案.有使用限制吗? 演示:https://www.google.com/intl/en/chrome/demos/speech.html 解决方案 是的,有一点问题.经过大量实验,我最近终于达到了极限;一旦请求开始,它就会被缩短.在桌面网络浏览器 (Chrome) 上,有 每个用户的限制(Primiano Tucci
..
是否有人知道免费提供的关键字发现系统,并且可能提供 API ?? CMU Sphinx 4 和 MS Speech API 是语音识别引擎,不能用于 KWS. SRI 有一个关键字识别系统,但没有下载链接,甚至没有用于评估的链接.(我什至在任何地方都找不到联系他们的软件的链接) 我在这里找到了一个,但它是一个演示版且有限. 解决方案 CMUSphinx 在 Pockets
..
我正在尝试使用谷歌语音识别 API.这是我写的代码: http://pastebin.com/zJEhnJ74 它有效.我从服务器得到答复: {"status":5,"id":"8803471b14a2310dfcf917754e8bd4a7-1","假设":[]} 现在的问题是“状态:5".事实上,这是状态代码: 状态:0 – 正确,状态:4 – 缺少音频文件,状态:5 – 不
..
在我的基于 C# 的应用程序中实现 Google Speech API 的代码是什么?我发现可以创建音频文件并将其发送到 http://slides.html5rocks.com/#speech-input 并将其作为文本接收.如果您以前尝试过,能否请您解释一下如何执行此操作或向我提供代码?卡在这里好久了 非常感谢. 到目前为止的代码: SpeechRecognitionEngin
..