mfcc相关内容
librosa.Feature.mfcc(y=NONE,sr=22050,S=NONE,n_mfcc=20,dct_type=2,Norm=‘Ortho’,Lifter=0,**kwargs) librosa MFCC函数不包含要为要使用的MEL滤镜数量传递的参数。有没有办法定义它,或者它是否使用librosa.filters.mel中使用的默认值‘’n_mes=128‘’。 推荐答案
..
result=librosa.feature.mfcc(信号,16000,n_mfcc=13,n_fft=2048,hop_length=400)结果.shape() 信号长 1 秒,采样率为 16000,我计算了 13 MFCC,跳长为 400.输出维度为 (13,41).为什么我得到41帧,不应该是(time*sr/hop_length)=40吗? 解决方案 TL;DR answer
..
我正在尝试使用声音文件的MFCC从.wav文件中提取功能.尝试将MFCC列表转换为numpy数组时出现错误.我非常确定会发生此错误,因为列表包含具有不同形状的MFCC值(但不确定如何解决此问题). 我看了另外2个stackoverflow帖子,但是这些并不能解决我的问题,因为它们对于特定任务而言太具体了. ValueError:无法将输入数组从形状(128,128,3)广播到形状(12
..
我正在尝试使用librosa创建MFCC图,但是该图似乎并不十分详细.目标是将该MFCC频谱图呈现给神经网络.我正在测试的音频文件长约1秒,来自Google Speech Commands数据集.我的代码是: WINDOW_SIZE = 20NFFT = int(((WINDOW_SIZE/1000)* 16000)样本_ = librosa.load(f,sr = 16000)mfccs =
..
我正在尝试从音频(.wav文件)中提取MFCC功能,并且尝试了 python_speech_features 和 librosa ,但它们给出的结果完全不同: audio,sr = librosa.load(file,sr = None)#librosahop_length = int(sr/100)n_fft = int(sr/40)features_librosa = librosa.fe
..
我正在从一些音频文件中提取MFCC功能.我目前使用的程序为每个文件提取了一系列MFCC,并且其缓冲区大小为1024.在论文中,我看到了以下内容: 在一秒钟的音频数据中提取的特征向量通过计算每个特征向量元素的均值和方差进行合并(合并). 我当前的代码使用TarsosDSP提取MFCC,但是我不确定如何将数据拆分为“一秒钟的音频数据"以合并MFCC. 我的MFCC提取代码 in
..
我正在使用两个不同的库来提取MFCC功能: python_speech_features库 BOB库 但是两者的输出是不同的,甚至形状也不相同.那是正常的吗?还是我缺少一个参数? 我的代码的相关部分如下: import bob.ap import numpy as np from scipy.io.wavfile import read from sklearn impo
..
我遇到了一个很棒的教程 https://github.com/manashmndl/DeadSimpleSpeechRecognizer 数据是根据由文件夹分隔的样本进行训练的,并且所有mfcc都将立即计算出来. 我正在努力实现类似但又不同的目标. 基于此: https://librosa.github.io/librosa/generated/librosa.feature.mfcc
..
我使用来自Kaldi的"egs/tidigits"代码,使用23个bin,20kHz采样率,25ms窗口和10ms移位生成了“七"种发音的声谱图.频谱图显示如下,通过MATLAB imagesc函数可视化: 我正在尝试使用Librosa替代Kaldi.我使用与上面相同的箱数,采样率和窗口长度/移位,如下设置我的代码. time_series, sample_rate = librosa
..
在C/C ++中是否有MFCC的实现?有任何源代码或库吗? 我已经找到 http://code.google.com/p/libmfcc/看起来不错. 解决方案 2016年回顾: libmfcc是简单的MIT许可证,自2010年以来不受支持. YAAFE 提供MFCC和其他功能LGPLv3,自2011年以来不受支持. Kaldi 是过大的,但只能用于MFCC. Apache
..
我的主要目标是将mfcc功能提供给ANN. 但是,我陷入了数据预处理步骤,而我的问题分为两个部分. 背景: 我有声音 我有一个带有注释和时间戳的txt文件,如下所示: 0.0 2.5 Music 2.5 6.05 silence 6.05 8.34 notmusic 8.34 12.0 silence 12.0 15.5 music 我知道对于一个音频
..
我只是信号处理的初学者.到目前为止,这是我从音频文件(.WAV)中提取MFCC功能的代码: from python_speech_features import mfcc import scipy.io.wavfile as wav (rate,sig) = wav.read("AudioFile.wav") mfcc_feat = mfcc(sig,rate) print(mfcc_f
..
我正在尝试从音频信号中提取MFCC向量作为输入到递归神经网络中.但是,我在弄清楚如何使用Core Audio在Swift中获取原始音频帧时遇到了麻烦.大概我必须低级获取数据,但是我在这方面找不到有用的资源. 如何使用Swift获取所需的音频信号信息? 编辑:此问题被标记为此问题如何转换WAV/将CAF文件的示例数据转换为字节数组?的方向更多.解决方案是用Objective-C编写的,我
..
我到处搜索,但无法弄清楚如何使用Android上的TarsosDSP提取MFCC功能.我知道如何从文件中获取FFT. 有帮助吗? 解决方案 请参见官方 MFCC测试文件 public class MFCCTest { // private static int counter = 0; @Test public void MFCCForSineTest() th
..
您可能会注意到,我真的是python和声音处理的新手.我(希望)使用python以及logfbank和mfcc函数从wave文件中提取了FFT数据. (logfbank似乎提供了最有希望的数据,mfcc的输出对我来说有点奇怪). 在我的程序中,我想更改logfbank/mfcc数据,然后从中创建wave数据(并将它们写入文件).我真的没有找到有关从FFT数据创建波形数据的过程的任何信息.你们
..
我目前正在尝试创建和训练神经网络,以使用MFCC进行简单的语音分类. 此刻,我为每个样本使用26个系数,总共使用5个不同的类别-这些是五个不同的单词,其音节数量不同. 虽然每个样本的时长为2秒,但我不确定如何处理用户可以非常缓慢或非常快速地发音的情况.例如,一秒钟内说出的“电视"一词与两秒钟内说出的该词产生不同的系数. 任何有关如何解决此问题的建议将不胜感激! 解决方案
..
目前,我正在MATLAB中进行语音识别项目. 我已经采集了两个语音信号,并提取了相同的MFCC系数. 据我所知,我现在应该计算两者之间的欧几里得距离,然后应用DTW算法.这就是为什么我计算出两者之间的距离并得到距离的数组的原因. 所以我的问题是如何在结果数组上实现DTW? 这是我的MATLAB代码: 清除所有;关闭所有; clc; % Define variables Tw =
..
我正在使用梅尔频率倒谱系数实现用于语音识别的软件.特别是系统必须识别单个指定的单词.因为有音频文件,所以我将MFCC放在一个矩阵中,该矩阵具有12行(MFCC)和与语音帧数一样多的列.我对行进行平均,因此得到的矢量只有12行(第i行是所有帧中所有ith-MFCC的平均值).我的问题是如何训练分类器来检测单词?我有一个仅包含正样本的训练集,即我从多个音频文件(同一个单词的多个注册)中获得的MFCC.
..
我目前正在做一个语音识别和机器学习相关的项目. 我现在有两个班级,并且为每个班级创建两个GMM分类器,分别用于标签“快乐"和“悲伤" 我想用MFCC向量训练GMM分类器. 我为每个标签使用两个GMM分类器. (以前是每个文件GMM): 但是,每次我运行脚本时,都会得到不同的结果. 用相同的测试样本和训练样本可能是什么原因? 在下面的输出中,请注意,我有10个测试样本, 每行
..
我目前正在开发语音识别项目,并且正在尝试选择最有意义的功能. 大多数相关论文建议使用零交叉率,F0和MFCC功能,因此我正在使用这些功能. 我的问题是,持续时间为00:03的训练样本具有268个功能.考虑到我正在做一个多类分类项目,每班训练有50多个样本,包括所有MFCC功能,可能会使项目遭受维度诅咒或“降低其他功能的重要性". 所以我的问题是,如果不能,我是否应该包括所有MFCC功能? 解
..