librosa相关内容
我正在尝试使用librosa创建MFCC图,但是该图似乎并不十分详细.目标是将该MFCC频谱图呈现给神经网络.我正在测试的音频文件长约1秒,来自Google Speech Commands数据集.我的代码是: WINDOW_SIZE = 20NFFT = int(((WINDOW_SIZE/1000)* 16000)样本_ = librosa.load(f,sr = 16000)mfccs =
..
i,m使用 pydub 模块编写代码以从音频文件中获取数据,但是我想使用 librosa 模块执行相同的操作,如何转换我的代码,并使用 librosa 获得相同的结果这是我的代码: 将numpy导入为np从pydub导入AudioSegment音频文件= AudioSegment.from_file(文件名)数据= np.fromstring(audiofile._data,np.int16)频
..
对于我的项目,我必须检测两个音频文件是否相似以及何时在第二个音频文件中包含第一个音频文件.我的问题是我尝试使用numpy.correlate的librosa.我不知道我是否做对了.如何检测另一个音频文件中是否包含音频? 导入librosa导入numpylong_audio_series,long_audio_rate = librosa.load("C:\\ Users \\ Jerry \\
..
我想将音频的STFT频谱图存储为图像.下面的代码向我显示了一个频谱图,但是当另存为图像时,我得到了另一幅图像. 将numpy导入为np导入matplotlib.pyplot作为plt将熊猫作为pd导入audio_name ='-.. au'hop_length = 512window_size = 1024进口librosay,sr = librosa.load(audio_name)窗口= n
..
我正在尝试从音频(.wav文件)中提取MFCC功能,并且尝试了 python_speech_features 和 librosa ,但它们给出的结果完全不同: audio,sr = librosa.load(file,sr = None)#librosahop_length = int(sr/100)n_fft = int(sr/40)features_librosa = librosa.fe
..
在执行STFT时,然后在具有库天秤座: 导入librosay,sr = librosa.load('test.wav',mono = False)y1 = y [0,]S = librosa.core.stft(y1)z1 = librosa.core.istft(S,dtype = y1.dtype)librosa.output.write_wav('test2.wav',z1,sr) 输
..
我有一个音频样本,采样率为8khz,约为14秒.我正在使用librosa从该音频文件中提取一些功能. y,sr = librosa.load(文件名)stft = np.abs(librosa.stft(y,n_fft = n_fft))#file_length = 14.650022675736961 #sec#默认#n_fft = 2048#hop_length = 512#win_len
..
我正在阅读本文有关使用卷积神经网络进行环境噪声歧视的文章,并希望复制他们的结果.他们将WAV文件转换为对数比例的梅尔频谱图.你怎么做到这一点?我能够将WAV文件转换为梅尔频谱图 y,sr = librosa.load('audio/100263-2-0-117.wav',duration = 3)ps = librosa.feature.melspectrogram(y = y,sr = sr
..
我正在使用webrtcvad和pydub处理音频文件.任何片段的分割都是通过静默句子来实现的.有什么方法可以在字级边界条件下进行拆分?(在每个口语之后)?如果librosa/ffmpeg/pydub具有这样的功能,是否可以在每个人声上进行分割?但是分割后,我需要人声的开始和结束时间与人声部分在原始文件中所处的位置完全相同.ffmpeg分割的一种简单解决方案或方法也定义为: https://g
..
我正在尝试将一些.wav文件转换为.mp3格式 所需的.mp3格式为: 我尝试使用FFmpeg使用以下代码: ffmpeg -i input.wav -vn -ac 2 -b:a 160k output1.mp3 这是该命令以.wav格式输出的结果 我得到了结果,但是两件事不同整体比特率模式和写库 写作库:LAME3.99.5与LAME3.100(我认为这不应该有什
..
因此,我想将声谱图图像馈送到卷积神经网络,以尝试对各种声音进行分类.我希望每个图像都精确地为384x128像素.但是,当我实际保存图像时,它仅为297x98.这是我的代码: def save_spectrogram(num):dpi = 128x_pixels = 384y_pixels = 128样本,sr = load_wave(num)stft = np.absolute(librosa
..
我想在datalab笔记本中播放声音文件,该文件是从google云存储桶中读取的.该怎么做? 解决方案 import numpy as np import IPython.display as ipd import librosa import soundfile as sf import io from google.cloud import storage BUCKET = 'som
..
我正在docker Windows10计算机上的flask应用程序。在docker运行后出现以下错误 RuntimeError:无法缓存函数'__jaccard':no定位器可用于文件'/usr/local/lib/python3.7/site-packages/librosa/util/matching.py' flask应用程序 我指的是类似的帖子: numba缓存问题:无法
..
我正在使用librosa,wave或soundfile库中的Python读取文件,我需要将块(任何大小)推送到HTTP流.按照规范,流字符串输入要求我将帧转换为RAW s16le格式. 我尝试了多种选择,包括: soundarray,rate = librosa.load(pathToWavFile, dtype="
..
我正在尝试使用librosa库通过以下Python代码对mp3文件进行采样(将模拟转换为数字),但是这会花费太多时间(一个文件大约需要4秒).我怀疑这是因为librosa不支持mp3,因此使用较慢的audioread来采样mp3 代码: import time import librosa s = time.time() for i in mp3_list[:10]: # list
..
我将一些音频文件转换为频谱图,并使用以下代码将其保存到文件中: import os from matplotlib import pyplot as plt import librosa import librosa.display import IPython.display as ipd audio_fpath = "./audios/" spectrograms_path = "./
..
我试图隔离音频流的前景,然后使用librosa将其另存为独立音频流. 从此看似我已经隔离了完整的,前景和背景数据,如示例在S_full,S_foreground和S_background中所做的那样,但是我不确定如何使用这些数据作为音频. 我尝试使用 librosa.istft(...)进行转换,然后使用soundfile.write(...)将其另存为.wav文件,但剩下的文件大小大
..
我正在尝试使用librosa通过从60秒持续时间的某些.wav文件中剪切1s片段来生成一些数据. 这部分有效,我创建了所有文件,也可以通过任何播放器收听它们,但是如果我尝试使用librosa.load打开它们,则会收到此错误: >>> librosa.load('.\\train\\audio\\silence\\0doing_the_dishes.wav', sr=None) Tra
..
我要加载3个小时的MP3文件,每隔约15分钟就会播放一次独特的1秒钟声音效果,这预示着新篇章的开始. 是否可以识别每次播放此声音效果的时间,以便记下时间偏移量? 每次的音效都相似,但是由于它是以有损文件格式编码的,因此会有少量变化. 时间偏移将存储在 ID3章帧元数据中. 示例来源,其中声音效果播放两次 ffmpeg -ss 0.9 -i source.mp3 -t
..
我是python的新手,总体来说还是编程,并且我目前正在努力安装和使用librosa库. 我以为我成功安装了: git clone https://github.com/librosa/librosa.git librosa 并分别安装numpy和scipy,再次使用: git clone https://github.com/numpy/numpy.git numpy git c
..