其他开发
我目前正在开发一个工具,由于连接到不同的API,我可以阅读所有通知。 它工作得很好,但现在我想放一些语音命令来做一些操作。 就像当软件显示“一封来自Bob的邮件”时,我想说的是“阅读它”或“存档它”。 我的软件通过节点服务器运行,目前没有任何浏览器实现,但它可以是计划。 在节点JS中启用语音到文本的最佳方式是什么? 我在它上面看到了很多线程,但主要是使用浏览器,如果可
..
有人在编程方面用过Dragon自然会说语音识别软件吗? 我想知道,因为我认为这会比我手工打字快得多,而且在我的碳水化合物隧道上打字更容易。 我每天都在VB6 IDE、VISUAL STUDIO 2008 IDE+团队资源管理器中编程,写电子邮件,通过Windows Live IM聊天。 我需要一个基于命令的界面,在其中我可以将语音命令绑定到击键,在拼写/说单词/说不带空格的单词之间切
..
我需要一个专门的解决方案来检测1到1000之间的数字,以便在智能手机上使用。 最好的解决方案是让这个SDK脱机工作。 有什么想法吗? 我找不到Google Speech或Amazon Transcribe的任何配置以允许“仅数字” 推荐答案 从人们那里得到数字是不太对的,即使你向他们要数字,他们通常也会说很多话,比如“我不知道”或“稍等一下”。您将严重损害体验。 您必须智能地分析
..
我正在尝试实现非英语语言的朴素语音到文本的转换。用户使用其他语言说话,而文本也使用相同的语言。这可能吗?如果是的话,有谁能帮助我们想出如何实施它的想法呢?如有任何帮助,我们将不胜感激。提前谢谢。 推荐答案 任何商业语音识别解决方案都不太可能支持梵文,因此您唯一的选择是将对梵文的支持添加到开源引擎(如CMUSphinx)中。 这非常简单,您实际上只需要按照文档操作,就可以切中要害。
..
我要创建一个基于自动语音识别的原型以处理报告。 需求现在还不确定,但首先我会得到一些虚拟数据集。 首先,我将专注于声学信号的输入和进一步的处理。 我真的不知道如何开始,哪种开发环境,编程语言,... 我更喜欢使用Visual Studio,因为我已经有许可证,但我对提议持开放态度。 您有没有一些教程、想法、经验? 推荐答案 (我正在重复使用最近发给朋友的一封电子
..
我找到了一些介绍如何使用Google Speech API的文章(http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/)。 然而,这可靠吗?有人在生产中使用它吗? 谢谢 推荐答案 我的理解是,谷歌的语音网络服务只有在他们的Chrome浏览器或安卓操作系统上才能合法使用。你当然可以构建一个依赖于
..
我打字时手腕痛,我想开始使用语音识别编写SQL语句、存储过程和视图。 推荐答案 是。SQL非常适合语音识别(就像编程语言一样),因为它的词汇量和类似句子的结构都很有限。除了格式化SQL以使其看起来更美观之外,我口述它的速度比打字快得多。然而,口述代码并不适合每个人。一开始可能会非常令人沮丧。尝试并坚持这样做的人很可能是那些别无选择的人。 我使用的是Dragon NaturalyS
..
有谁知道一个(最好是C#.Net)库,可以让我在语音录音中定位特定人发言的片段? 推荐答案 工具包可以喊出:http://shout-toolkit.sourceforge.net/index.html 它是用C++编写的,并在Linux上进行了测试,但它也应该可以在Windows或OSX上运行。 该工具包是我在自动语音识别(ASR)博士研究中的副产品。将它用于ASR本身可
..
在Vista上使用Microsoft的SAPI 5.3语音API,如何编程进行RecoProfile的声学模型训练?更具体地说,如果您有一个文本文件和一个说出该文本的用户的音频文件,您会执行什么序列的SAPI调用以使用该文本和音频训练用户的配置文件? 更新: 有关此问题的详细信息我仍未解决: 您在";处调用ISpRecognizer2.SetTrainingState(true
..
我现在正在处理我的项目,我即将为台式计算机构建一个类似Siri的应用程序。我在想,谷歌语音API对于语音识别来说是否可靠和准确?你能给我推荐一下哪种语音API在语音识别方面最准确吗?最好是一个免费的API。谢谢。 推荐答案 虽然Google Speech API是免费的,但它不是官方的公共API。一些人对它进行了反向工程,discussed in this blog也是如此。如果您计划
..
我说的银行家四舍五入是指 “四舍五入,平分” ASrecommended by IEEE 754: 舍入到最接近的值;如果数字落在中间,则舍入到具有偶数(零)最低有效位的最接近的值。这是二进制浮点的默认设置,也是十进制的推荐默认设置。 据说此方法优于 “四舍五入到最近,平局离零” on the grounds that它“将对四舍五入的数字求和时的预期误差降至最
..
我正在读CS:APP,关于强制转换,它说在将从整型强制转换为浮点型时,数字不能溢出,但可以四舍五入。 这对我来说似乎很奇怪,因为我不知道有什么可以绕过去的,所以我试过了。我认为这只适用于非常大的整数(接近INT_MAX/INT_MIN),但舍入也是在上亿附近进行的。(不确定这种情况最先发生在哪里)。 为什么会发生这种情况?float的范围远远超过int。有人可能会说,浮点数不能准确表示
..
我需要将分钟转换为小时,四舍五入到小数点后两位。我还只需要在小数点后显示最多两个数字。因此,如果我的分钟数为650,则小时数应为10.83。 以下是我到目前为止的情况: Select round(Minutes/60.0,2) from .... 但在这种情况下,如果我的分钟是,比方说,630小时是10.5000000。但我只想要10.50英镑(舍入后)。如何实现此目标? 推
..
我希望在训练迭代中访问训练点,并通过使用训练集中未包括的数据点将软约束合并到我的损失函数中。我将使用this post作为参考。 import numpy as np import keras.backend as K from keras.layers import Dense, Input from keras.models import Model # Some random tra
..
我使用Conda注释安装TensorFlow: conda create -n tf2.6 python=3.9 conda install tensorflow-gpu=2.6 日志告诉我它已成功安装。然后在Python中,当我导入TensorFlow时,它显示无法加载动态库‘libcudart.so.11.0’。从日志中,我发现它在安装TensorFlow时安装了cudatoolki
..
我不确定我是否理解了TensorFlow Kerasmixed precision的概念。我的目标是运行浮点16精度的tf.keras模型,以提高推理速度。这能以混合精度完成吗? 我正在培训我的模型之前设置此策略: from tensorflow.keras.mixed_precision import experimental as mixed_precision policy =
..
我已经从TensorFlow_addons训练了一个带有Keras层和Weight_Normalization层的模型。这是我训练并保存为TensorFlow文件格式的模型: import tensorflow as tf import tensorflow.keras as tk import tensorflow_addons as tfa model = tf.keras.Seque
..
我正在尝试使用tfds.Feature.Video对TensorFlow 2中的视频进行解码,以便使用以下代码输出“tf.uint8类型的tf.张量器和形状[Num_Frames,Height,Width,Channels]”: import numpy as np import pandas as pd import tensorflow as tf import tensorflow_d
..
我正在尝试使用AWS EC2实例来测试我的ML项目。在包安装过程中,TensorFlow每次都会被终止。 我使用AWS Trial EC2t2.micro类型实例进行测试。 类型:t2.micro vCPU:1 内存:1GB 操作系统:Ubuntu Server 20.04 LTS (HVM), SSD Volume Type 有什么解决办法吗? 推荐答案 我遇
..
以下是重现该错误的简单代码: import os os.environ["CUDA_VISIBLE_DEVICES"]="-1" import numpy as np from keras.models import Sequential from keras.layers import Conv1D, Flatten, Dense import tensorflow as tf mod
..