librosa相关内容

产生“不详"的librosaMFCC频谱图

我正在尝试使用librosa创建MFCC图,但是该图似乎并不十分详细.目标是将该MFCC频谱图呈现给神经网络.我正在测试的音频文件长约1秒,来自Google Speech Commands数据集.我的代码是: WINDOW_SIZE = 20NFFT = int(((WINDOW_SIZE/1000)* 16000)样本_ = librosa.load(f,sr = 16000)mfccs = ..
发布时间:2021-04-22 20:10:00 Python

AudioSegment到Librosa

i,m使用 pydub 模块编写代码以从音频文件中获取数据,但是我想使用 librosa 模块执行相同的操作,如何转换我的代码,并使用 librosa 获得相同的结果这是我的代码: 将numpy导入为np从pydub导入AudioSegment音频文件= AudioSegment.from_file(文件名)数据= np.fromstring(audiofile._data,np.int16)频 ..
发布时间:2021-04-12 19:43:44 Python

如何在Python中关联两个音频事件(如果它们相似,则进行检测)

对于我的项目,我必须检测两个音频文件是否相似以及何时在第二个音频文件中包含第一个音频文件.我的问题是我尝试使用numpy.correlate的librosa.我不知道我是否做对了.如何检测另一个音频文件中是否包含音频? 导入librosa导入numpylong_audio_series,long_audio_rate = librosa.load("C:\\ Users \\ Jerry \\ ..
发布时间:2021-04-12 19:40:12 Python

将频谱图存储为Python中的图像

我想将音频的STFT频谱图存储为图像.下面的代码向我显示了一个频谱图,但是当另存为图像时,我得到了另一幅图像. 将numpy导入为np导入matplotlib.pyplot作为plt将熊猫作为pd导入audio_name ='-.. au'hop_length = 512window_size = 1024进口librosay,sr = librosa.load(audio_name)窗口= n ..
发布时间:2021-04-12 19:37:52 其他开发

Librosa的采样率问题

在执行STFT时,然后在具有库天秤座: 导入librosay,sr = librosa.load('test.wav',mono = False)y1 = y [0,]S = librosa.core.stft(y1)z1 = librosa.core.istft(S,dtype = y1.dtype)librosa.output.write_wav('test2.wav',z1,sr) 输 ..
发布时间:2021-04-12 19:37:19 Python

使用librosa的STFT理解

我有一个音频样本,采样率为8khz,约为14秒.我正在使用librosa从该音频文件中提取一些功能. y,sr = librosa.load(文件名)stft = np.abs(librosa.stft(y,n_fft = n_fft))#file_length = 14.650022675736961 #sec#默认#n_fft = 2048#hop_length = 512#win_len ..
发布时间:2021-04-12 19:37:01 Python

如何将梅尔频谱图转换为对数缩放梅尔频谱图

我正在阅读本文有关使用卷积神经网络进行环境噪声歧视的文章,并希望复制他们的结果.他们将WAV文件转换为对数比例的梅尔频谱图.你怎么做到这一点?我能够将WAV文件转换为梅尔频谱图 y,sr = librosa.load('audio/100263-2-0-117.wav',duration = 3)ps = librosa.feature.melspectrogram(y = y,sr = sr ..
发布时间:2021-04-12 19:36:53 Python

音频信号在字级边界处分离

我正在使用webrtcvad和pydub处理音频文件.任何片段的分割都是通过静默句子来实现的.有什么方法可以在字级边界条件下进行拆分?(在每个口语之后)?如果librosa/ffmpeg/pydub具有这样的功能,是否可以在每个人声上进行分割?但是分割后,我需要人声的开始和结束时间与人声部分在原始文件中所处的位置完全相同.ffmpeg分割的一种简单解决方案或方法也定义为: https://g ..
发布时间:2021-04-12 19:34:54 Python

MPEG音频恒定比特率转换

我正在尝试将一些.wav文件转换为.mp3格式 所需的.mp3格式为: 我尝试使用FFmpeg使用以下代码: ffmpeg -i input.wav -vn -ac 2 -b:a 160k output1.mp3 这是该命令以.wav格式输出的结果 我得到了结果,但是两件事不同整体比特率模式和写库 写作库:LAME3.99.5与LAME3.100(我认为这不应该有什 ..
发布时间:2021-04-12 19:32:57 其他开发

如何将Librosa谱图图另存为特定大小的图像?

因此,我想将声谱图图像馈送到卷积神经网络,以尝试对各种声音进行分类.我希望每个图像都精确地为384x128像素.但是,当我实际保存图像时,它仅为297x98.这是我的代码: def save_spectrogram(num):dpi = 128x_pixels = 384y_pixels = 128样本,sr = load_wave(num)stft = np.absolute(librosa ..
发布时间:2021-04-12 19:30:54 Python

RuntimeError:无法缓存函数“ __jaccard”:文件“ /usr/local/lib/python3.7/site-packages/librosa/util/matching.py”没有可用的定位器

我正在docker Windows10计算机上的flask应用程序。在docker运行后出现以下错误 RuntimeError:无法缓存函数'__jaccard':no定位器可用于文件'/usr/local/lib/python3.7/site-packages/librosa/util/matching.py' flask应用程序 我指的是类似的帖子: numba缓存问题:无法 ..
发布时间:2020-10-25 00:54:09 其他开发

使用librosa隔离音频前景并转换回音频流

我试图隔离音频流的前景,然后使用librosa将其另存为独立音频流. 从此看似我已经隔离了完整的,前景和背景数据,如示例在S_full,S_foreground和S_background中所做的那样,但是我不确定如何使用这些数据作为音频. 我尝试使用 librosa.istft(...)进行转换,然后使用soundfile.write(...)将其另存为.wav文件,但剩下的文件大小大 ..
发布时间:2020-09-13 22:53:31 Python

librosa无法打开librosa创建的.wav?

我正在尝试使用librosa通过从60秒持续时间的某些.wav文件中剪切1s片段来生成一些数据. 这部分有效,我创建了所有文件,也可以通过任何播放器收听它们,但是如果我尝试使用librosa.load打开它们,则会收到此错误: >>> librosa.load('.\\train\\audio\\silence\\0doing_the_dishes.wav', sr=None) Tra ..
发布时间:2020-09-13 22:11:09 Python

在音频文件中查找声音效果

我要加载3个小时的MP3文件,每隔约15分钟就会播放一次独特的1秒钟声音效果,这预示着新篇章的开始. 是否可以识别每次播放此声音效果的时间,以便记下时间偏移量? 每次的音效都相似,但是由于它是以有损文件格式编码的,因此会有少量变化. 时间偏移将存储在 ID3章帧元数据中. 示例来源,其中声音效果播放两次 ffmpeg -ss 0.9 -i source.mp3 -t ..
发布时间:2020-09-13 21:46:40 Python