audio-processing相关内容

使用前置摄像头录制视频时,分别获取视频和音频缓冲区

我在SO和一些不错的博客文章上进行了很多研究,但是似乎我对读取视频和音频缓冲区有独特的要求,以便在录制过程中进一步对其进行处理. 我的用例就像当用户开始录制视频时,我需要使用ML-Face-Detection-Kit连续处理视频帧,还需要连续处理音频帧以确保用户说出某些内容并检测噪声水平.为此,我认为我需要将视频和音频都放在单独的缓冲区中,经过处理后,我将其合并并保存为MP4文件作为录音. ..

在matlab中读取多个wav文件

我想一对一地读取多个wav文件.我这样写,但是它给出了“无效的Wave文件.原因:无法打开文件."错误.但是,当我将t更改为数字时,它可以工作. for t=1:10 myFile=['path\','t.wav']; [ speech, fs] = wavread( myFile); end 解决方案 您需要将变量t转换为字符串.您正在要求打开文件'path\t.wa ..
发布时间:2020-08-10 21:54:14 其他开发

创建24位WAV文件有什么特别的事情吗?

我可以成功创建一个16位的wav文件,但是当创建一个24位的文件时,我听到的只是白噪声.我正在设置24位带符号整数数据块.我必须在wav文件头的字节20处设置一些特殊的音频格式吗?我当前正在使用格式1. 编辑#1 wBitsPerSample字段设置为24.wAvgBytesPerSec(字节速率)字段设置为 // 44100 * (2 * 3) sampleRate * blo ..
发布时间:2020-07-18 18:52:59 前端开发

如何使用上下文窗口对整个日志梅尔频谱图进行分段(确保所有音频的分段数量相同)?

我有几个音频,音频的持续时间不同.因此,我不知道如何确保音频片段的N个相同.我正在尝试实施现有的论文,因此,据说首先使用25 ms的汉明窗和10 ms的重叠在整个音频中使用从20到8000 Hz的64个Mel滤波器组在整个音频中执行Log Mel-Spectrogram .然后,为了得到我有以下代码行: y, sr = librosa.load(audio_file, sr=None) #s ..
发布时间:2020-07-14 04:31:15 其他开发

如何实时从麦克风或从iOS中保存的音频文件中获取原始音频帧?

我正在尝试从音频信号中提取MFCC向量作为输入到递归神经网络中.但是,我在弄清楚如何使用Core Audio在Swift中获取原始音频帧时遇到了麻烦.大概我必须低级获取数据,但是我在这方面找不到有用的资源. 如何使用Swift获取所需的音频信号信息? 编辑:此问题被标记为此问题如何转换WAV/将CAF文件的示例数据转换为字节数组?的方向更多.解决方案是用Objective-C编写的,我 ..
发布时间:2020-06-30 21:09:15 移动开发

如何播放和读取.caf PCM音频文件

我有一个应用程序,可以从iPod库中选择一首歌曲,然后将该歌曲作为".caf"文件复制到该应用程序的目录中.现在,我需要播放并同时从Accelerate框架将该文件读取到Apple FFT中,以便像频谱图一样可视化数据.这是FFT的代码: void FFTAccelerate::doFFTReal(float samples[], float amp[], int numSamples) { ..
发布时间:2020-06-26 12:54:03 移动开发

如何使用谐波积频谱获得基频?

我正在尝试从麦克风输入中获取音高.首先,我通过FFT将信号从时域分解到频域.在执行FFT之前,我已将汉明窗应用于信号.然后,我得到了FFT的复杂结果.然后,我将结果传递给谐波乘积谱,在此对结果进行降采样,然后将降采样的峰相乘,得出一个复数值.那我该怎么做才能得到基频呢? public float[] HarmonicProductSpectrum(Complex[] data) ..
发布时间:2020-06-26 12:48:22 C#/.NET

音频比较库

我需要处理音频比较的软件或库,但不使用mp3内部的标签,它应该比较2个音频文件之间的相似性或置信度,或者如果我从音频文件中切出一个片段,则软件应指向主音频文件中的那个文件令牌在哪里(我希望我已经足够清楚了。) 所以我怎么听说这种技术叫 Audio Acoustic Comparing em>,并基于一些音频样本文件,我们可以将其称为指纹。如果在文件中的某处找到了与输入样本或指纹等效的软件,则 ..
发布时间:2020-06-03 20:37:46 C#/.NET

Python NumPy-FFT和逆FFT?

因此,我一直在使用FFT,目前我正在尝试使用FFT从文件中获取声音波形(最终对其进行修改),然后将修改后的波形输出回文件中.我已经获得了声波的FFT,然后在其上使用了逆FFT函数,但是输出文件听起来根本不正确.我没有对波形进行任何滤波-我只是测试要获取频率数据,然后将其放回文件中-听起来应该一样,但是听起来却截然不同.有什么想法吗? -编辑- 此后我一直在从事这个项目,但尚未获得理想的 ..
发布时间:2020-05-18 21:05:42 Python

在C#中实现FftPitchDetector

我已经将FftPitchDetector.cs添加到我的项目中,但是我不确定如何使用它. 我的代码: private void sourceStream_DataAvailable(object sender, NAudio.Wave.WaveInEventArgs e) { if (waveWriter == null) return; ..
发布时间:2020-05-16 21:37:05 C#/.NET

.wav文件的峰值频率

我有一个.wav文件,当我弹吉他音符时由我录制.然后,我使用下面的程序读取我的.wav文件数据.我使用了Naudio库. AudioFileReader readertest = new AudioFileReader(@"E:\song\music.wav"); int bytesnumber = (int)readertest.Length; var buffer = new float ..
发布时间:2020-05-16 21:35:08 C#/.NET

如何使用MFCC系数向量训练机器学习算法?

在我的最后一个项目中,我试图实时(通过录制声音片段)识别狗/树皮/鸟的声音.我正在使用MFCC作为音频功能.最初,我使用jAudio库从声音剪辑中总共提取了12个MFCC矢量. 现在,我正在尝试训练机器学习算法(目前我尚未确定算法,但很可能是SVM).声音片段的大小约为3秒.我需要澄清有关此过程的一些信息.他们是 我是否必须使用基于帧的MFCC训练此算法(每帧12个) 还是基于整个剪辑的MF ..

如何以编程方式比较2个音频文件?

我想以编程方式比较2个音频文件。 例如:我的iPhone应用程序中有一个声音文件,然后我录制另一个。我想检查现有声音是否与录制的声音匹配( - 类似于语音识别)。 我该如何做到这一点? 解决方案 这就是所谓的音频指纹识别。存在一些开源项目,您可以从中获得一些想法。请看这里:音频指纹 - MusicBrainz 。 ..
发布时间:2018-09-26 15:33:08 移动开发

使用AVPlayer的MTAudioProcessingTap和远程URL进行AVFoundation音频处理

关于 AVAudioMix的文档很少和MTAudioProcessingTap,允许将处理应用于AVFoundation(在iOS上)的媒体资产的音轨(PCM访问)。这个文章和简短的提及WWDC 2012会议就是我所找到的。 我已经设置了描述这里为本地媒体文件工作,但它似乎不适用于远程文件(即HLS流式URL)。预期这一点的唯一迹象是本 Technical Q& A : AVAudio ..
发布时间:2018-09-19 13:36:54 移动开发

用python将视频切成帧

我正在尝试编写一个程序,删除没有特定符号的视频帧。我的一般计划: 从视频中分割音频 将视频分割成帧 通过查找符号的子例程来运行框架,通过检查应该是正确颜色的像素,并记录它们的颜色。 删除这些框架和相应的音频秒数 将其全部拼接在一起。 我需要一些帮助,找到可以做到这一点的库。我想知道,如果 wxpython 可以对像素颜色进行检测。我不知道什么库可以分割音频和视频,哪个可以编辑音 ..
发布时间:2017-10-24 00:28:28 Python

音频转换为文本

我只是想知道是否存在这样让我拿一个音频文件,分析它,并从中提取出文本库,或在Java中的外部库或C#任何构建。 我需要提出申请,这样做,但我不从那里我可以开始知道了。 解决方案 下面是一些你的选择: 微软语音 Lumenvox 龙自然谈到 sphinx4 ..
发布时间:2016-08-29 13:54:20 Java开发

加工用C音频WAV文件

我正在处理WAV文件的振幅和一些小数因素进行缩放。我想换我围绕如何读取和存储高效的方式重新写入文件,同时试图解决语言(我是新的C)的细微差别头。该文件可以是在任一个8位或16位的格式。我想这样做的方式是通过先读头数据的成一些pre定义的结构,然后处理在一个循环中的实际数据,我会读一大块数据到缓冲区中,做任何需要它,然后把它写入到输出。 的#include<&stdio.h中GT; #包括L ..
发布时间:2016-08-19 16:12:55 C/C++

Java的声音可视化

我试图做一个java声音可视化,但我对如何从提取的音频字节完全不知道,他们是在实时procressed之后。我想生成与程序的声音,然后播放,我可以同步与WAV文件的程序,但是这不是我想做的事情,而不会有任何保存它。 感谢您的帮助! 解决方案 这篇文章可以帮助你理解的声音文件的结构: HTTP://$c$cidol.com/爪哇/秋千/音频/内建的音频波形,显示/ ..
发布时间:2016-07-22 20:32:22 Java开发

开源FSK德codeR库?

我在找一个库或工具以取消在wav文件,例如code FSK来电显示。 目前使用带有VPB驱动为Voicetronix硬件通过于Debian / Ubuntu提供捆绑的工具。但是,这似乎有一个我试图调试错误 - 验证音频文件将是有益的第二个工具 我的不可以寻找任何从调制解调器或其他硬件设备读取呼叫者ID数据的无数的工具 - 我需要纯软件 解决方案 尝试SpanDSP http://www ..
发布时间:2016-07-22 18:43:33 其他开发