audio-processing相关内容
我正在寻找一种最新的解决方案,在不改变音调的情况下放慢/加快音频播放速度(所谓的“时间拉伸”)。处理应该尽可能快(音频是语音记录)。使用Web Worker也不错。 我正在使用Web Audio API。本机HTML5不是我的应用程序的选项。 我找到了一些延长时间的解决方案,但这些解决方案部分非常陈旧,不再维护,或者没有使用它们的例子。我找到的解决方案列表来自here。ThisStac
..
我从两个来源获得两个不同的音频样本。 麦克风声音: audioRecord = new AudioRecord(MediaRecorder.AudioSource.DEFAULT, 44100, AudioFormat.CHANNEL_IN_STEREO, AudioFormat.ENCODING_PCM_16BIT, (AudioR
..
第一次在这里发帖,让我们看看这是怎么回事. 我试图用 python 编写一个脚本,它会在 wav 文件的开头添加一秒钟的静音,但到目前为止没有成功. 我试图做的是在 wav 标头中读取,然后使用 wave 模块在开头添加一个 \0 ,但效果不佳.这是基于这里的代码 http://andrewslotnick.com/posts/audio-delay-with-python.html
..
result=librosa.feature.mfcc(信号,16000,n_mfcc=13,n_fft=2048,hop_length=400)结果.shape() 信号长 1 秒,采样率为 16000,我计算了 13 MFCC,跳长为 400.输出维度为 (13,41).为什么我得到41帧,不应该是(time*sr/hop_length)=40吗? 解决方案 TL;DR answer
..
我有几个不同时长的音频.所以我不知道如何确保音频的段数 N 相同.我正在尝试实现现有的论文,因此据说首先通过使用 25 ms 汉明窗口和 10 ms 重叠,在整个音频中使用 64 个 Mel 滤波器组从 20 到 8000 Hz 执行对数梅尔谱图.然后,为了得到我有以下代码行: y, sr = librosa.load(audio_file, sr=None)#sr = 22050#len(y)
..
我对确定音频样本的音调很感兴趣.算法将(或可能)如何尝试近似音乐音频样本的调? Antares Autotune 和 Melodyne 是两种可以执行此类操作的软件. 任何人都可以就这将如何工作给出一些外行的解释吗?通过分析和弦进行等的频谱,以数学方式推导出歌曲的调. 这个话题让我很感兴趣! 编辑 - 可以从对此问题做出贡献的每个人那里找到精彩的来源和丰富的信息. 特
..
我想增加带有语音数据的缓冲区的音量.关键是我正在使用 DirectSound 并且我有一个主缓冲区和一个辅助缓冲区 - 所有流混合都是手工完成的.在语音聊天中,所有参与者都可以拥有独立的音量级别.我将每个流数据乘以一个值(增益)并将其与一个缓冲区相加.一切正常,但是当我尝试将数据乘以大于 1.0f 的值时 - 我听到一些剪辑或什么. 我试过使用 Audacity 效果压缩器,但这无助于减少奇
..
import os导入 scipy.io导入 scipy.io.wav 文件将 numpy 导入为 np导入 matplotlib.pyplot 作为 pltdataset_path = os.path.join(os.environ['HOME'], 'shared', 'data', 'assignment_1')wavedata = os.path.join(dataset_path, 'e
..
首先,我在Stack Exchange中问了这个问题,但我仅获得与概念相关的答案,而没有面向实现的答案.所以,我的问题是我试图创建高通滤波器,并使用Python来实现. 从numpy导入cos,sin,pi,absolute,arange中的 从scipy.signal导入kaiserord,lfilter,firwin,freqz,firwin2从pylab导入图,clf,图,xlabel,
..
我试图记录我的麦克风输入并同时进行处理. 我尝试了一个包含此内容的循环: recordblocking(recorder,1);y = getaudiodata(recorder);%y上的任何处理 但是当我用 y 做某事时,由于没有连续记录,我正在丢失信息. 是否可以做一些事情来连续记录麦克风中传来的声音,将其存储在某种缓冲区中,并同时处理其中的一部分? 延迟不是问题,
..
我有一个音频文件 audio.wav ,并且有一系列时间框架,如下所示: X = [(12.31,14.),(15.4,18.9),...] 这些是我希望在拥有的.wav音频文件中完全保持静音的时间范围.我该如何实现? 解决方案 根据您的链接,我将其视为 从pydub导入 导入AudioSegmenta = AudioSegment.from_wav("audio.wav"
..
我有一个16位PCM格式的wave文件.我将原始数据保存在 byte [] 中,并提供了一种提取样本的方法,我需要使用浮点格式的数据,即使用 float [] 进行傅立叶运算转变.这是我的代码,看起来正确吗?我正在使用Android,因此 javax.sound.sampled 等不可用. private static short getSample(byte [] buffer,int po
..
我正在尝试使用 Web音频从URL加载的声音中提取振幅信息. API 即时(不是实时),这可能需要OfflineAudioContext.我期望在整个声音持续时间内,每t秒沿着包含声音幅度的数组的行数获取一个东西(大小取决于声音的持续时间,除以t).不幸的是,此时文档很少,我不确定该如何进行.如何每t秒加载声音并提取振幅? 解决方案 此操作很快完成,因此数学可能会弄乱.但希望它能帮助您入门
..
我尝试了以下命令从视频中提取音频: ffmpeg -i Sample.avi -vn -ar 44100 -ac 2 -ab 192k -f mp3 Sample.mp3 但是我得到以下输出 libavutil 50.15. 1 / 50.15. 1 libavcodec 52.72. 2 / 52.72. 2 libavformat 52.64. 2 / 52.
..
因此,我试图在iOS 5.1.1中以不同的速率播放声音文件,而且绝对没有运气.到目前为止,我已经尝试设置AVAudioPlayer的速率: player = [[AVAudioPlayer alloc] initWithContentsOfURL:referenceURL error:&error]; player.enableRate = YES; player.rate = 1.5; p
..
我可能很稠密,但似乎无法找到解决问题的方法 (注意::我可以找到很多人报告此问题,似乎是由于Java更新(可能是1.5?)导致的.也许不再支持SAMPLE_RATE?无法找到任何解决方案). 我正在尝试调整SAMPLE_RATE以加快/减慢歌曲速度.我可以成功播放一个.wav文件,没有问题,所以我研究了FloatControl来调节音量: public void adjustVo
..
以前有一个录制的声音文件,其中包含用户的声音.我需要做的是应用一些声音过滤器来更改声音,然后可以保存和播放修改后的版本. AudioKit 可以使用[[AKFileInput alloc] initWithFilename:file1];打开文件并使用[[AKManager sharedManager] renderToFile:outputFile forDuration:duration
..
第一次在这里发布,让我们看看如何进行. 我试图用python编写一个脚本,该脚本会在wav文件的开头添加一秒钟的静默,但是到目前为止,这样做没有成功. 我想做的是在wav标头中读取,然后使用wave模块在开头添加\ 0,但效果不佳.这是基于此处的代码 http://andrewslotnick.com/posts/audio-delay-with-python.html impo
..
出于项目目的,我正在录制来自舞台附近不同区域的音频剪辑(波形文件).我需要检查源音频是否;即:使用从附近地方录制的音频,可以在舞台附近的位置上听到舞台上的声音. 更清楚地讲,我在舞台附近的地方有麦克风,并且在舞台和这些附近的地方有音频剪辑.如何检查来自舞台的声音是否已接收到附近的位置,或者如何理解来自舞台的声音正在干扰附近的地方? 解决方案 听起来像一个有趣的项目……提供了一种精确的
..
我要加载3个小时的MP3文件,每隔约15分钟就会播放一次独特的1秒钟声音效果,这预示着新篇章的开始. 是否可以识别每次播放此声音效果的时间,以便记下时间偏移量? 每次的音效都相似,但是由于它是以有损文件格式编码的,因此会有少量变化. 时间偏移将存储在 ID3章帧元数据中. 示例来源,其中声音效果播放两次 ffmpeg -ss 0.9 -i source.mp3 -t
..