audio-processing 第2页 - IT屋-程序员软件开发技术分享社区

使用前置摄像头录制视频时，分别获取视频和音频缓冲区

我在SO和一些不错的博客文章上进行了很多研究，但是似乎我对读取视频和音频缓冲区有独特的要求，以便在录制过程中进一步对其进行处理. 我的用例就像当用户开始录制视频时，我需要使用ML-Face-Detection-Kit连续处理视频帧，还需要连续处理音频帧以确保用户说出某些内容并检测噪声水平.为此，我认为我需要将视频和音频都放在单独的缓冲区中，经过处理后，我将其合并并保存为MP4文件作为录音. ..

发布时间：2020-08-25 05:51:56 android video-processing android-camera2 audio-processing firebase-mlkit 移动开发

在matlab中读取多个wav文件

我想一对一地读取多个wav文件.我这样写，但是它给出了“无效的Wave文件.原因:无法打开文件."错误.但是，当我将t更改为数字时，它可以工作. for t=1:10 myFile=['path\','t.wav']; [ speech, fs] = wavread( myFile); end 解决方案您需要将变量t转换为字符串.您正在要求打开文件'path\t.wa ..

发布时间：2020-08-10 21:54:14 matlab audio-processing 其他开发

创建24位WAV文件有什么特别的事情吗?

我可以成功创建一个16位的wav文件，但是当创建一个24位的文件时，我听到的只是白噪声.我正在设置24位带符号整数数据块.我必须在wav文件头的字节20处设置一些特殊的音频格式吗?我当前正在使用格式1. 编辑#1 wBitsPerSample字段设置为24.wAvgBytesPerSec(字节速率)字段设置为 // 44100 * (2 * 3) sampleRate * blo ..

发布时间：2020-07-18 18:52:59 javascript wav audio-processing audioformat 前端开发

如何使用上下文窗口对整个日志梅尔频谱图进行分段(确保所有音频的分段数量相同)?

我有几个音频，音频的持续时间不同.因此，我不知道如何确保音频片段的N个相同.我正在尝试实施现有的论文，因此，据说首先使用25 ms的汉明窗和10 ms的重叠在整个音频中使用从20到8000 Hz的64个Mel滤波器组在整个音频中执行Log Mel-Spectrogram .然后，为了得到我有以下代码行: y, sr = librosa.load(audio_file, sr=None) #s ..

发布时间：2020-07-14 04:31:15 audio audio-processing spectrogram librosa windowing 其他开发

如何实时从麦克风或从iOS中保存的音频文件中获取原始音频帧?

我正在尝试从音频信号中提取MFCC向量作为输入到递归神经网络中.但是，我在弄清楚如何使用Core Audio在Swift中获取原始音频帧时遇到了麻烦.大概我必须低级获取数据，但是我在这方面找不到有用的资源. 如何使用Swift获取所需的音频信号信息? 编辑:此问题被标记为此问题如何转换WAV/将CAF文件的示例数据转换为字节数组?的方向更多.解决方案是用Objective-C编写的，我 ..

发布时间：2020-06-30 21:09:15 ios audio swift4 audio-processing mfcc 移动开发

如何播放和读取.caf PCM音频文件

我有一个应用程序，可以从iPod库中选择一首歌曲，然后将该歌曲作为".caf"文件复制到该应用程序的目录中.现在，我需要播放并同时从Accelerate框架将该文件读取到Apple FFT中，以便像频谱图一样可视化数据.这是FFT的代码: void FFTAccelerate::doFFTReal(float samples[], float amp[], int numSamples) { ..

发布时间：2020-06-26 12:54:03 ios fft audio-processing caf 移动开发

如何使用谐波积频谱获得基频?

我正在尝试从麦克风输入中获取音高.首先，我通过FFT将信号从时域分解到频域.在执行FFT之前，我已将汉明窗应用于信号.然后，我得到了FFT的复杂结果.然后，我将结果传递给谐波乘积谱，在此对结果进行降采样，然后将降采样的峰相乘，得出一个复数值.那我该怎么做才能得到基频呢? public float[] HarmonicProductSpectrum(Complex[] data) ..

发布时间：2020-06-26 12:48:22 c# signal-processing fft audio-processing pitch C#/.NET

音频比较库

我需要处理音频比较的软件或库，但不使用mp3内部的标签，它应该比较2个音频文件之间的相似性或置信度，或者如果我从音频文件中切出一个片段，则软件应指向主音频文件中的那个文件令牌在哪里（我希望我已经足够清楚了。）所以我怎么听说这种技术叫 Audio Acoustic Comparing em>，并基于一些音频样本文件，我们可以将其称为指纹。如果在文件中的某处找到了与输入样本或指纹等效的软件，则 ..

发布时间：2020-06-03 20:37:46 c# algorithm audio-processing audio-comparison C#/.NET

Python NumPy-FFT和逆FFT?

因此，我一直在使用FFT，目前我正在尝试使用FFT从文件中获取声音波形(最终对其进行修改)，然后将修改后的波形输出回文件中.我已经获得了声波的FFT，然后在其上使用了逆FFT函数，但是输出文件听起来根本不正确.我没有对波形进行任何滤波-我只是测试要获取频率数据，然后将其放回文件中-听起来应该一样，但是听起来却截然不同.有什么想法吗? -编辑- 此后我一直在从事这个项目，但尚未获得理想的 ..

发布时间：2020-05-18 21:05:42 python audio numpy fft audio-processing Python

在C#中实现FftPitchDetector

我已经将FftPitchDetector.cs添加到我的项目中，但是我不确定如何使用它. 我的代码: private void sourceStream_DataAvailable(object sender, NAudio.Wave.WaveInEventArgs e) { if (waveWriter == null) return; ..

发布时间：2020-05-16 21:37:05 c# fft naudio audio-processing C#/.NET

.wav文件的峰值频率

我有一个.wav文件，当我弹吉他音符时由我录制.然后，我使用下面的程序读取我的.wav文件数据.我使用了Naudio库. AudioFileReader readertest = new AudioFileReader(@"E:\song\music.wav"); int bytesnumber = (int)readertest.Length; var buffer = new float ..

发布时间：2020-05-16 21:35:08 c# wav naudio audio-processing C#/.NET

如何使用MFCC系数向量训练机器学习算法?

在我的最后一个项目中，我试图实时(通过录制声音片段)识别狗/树皮/鸟的声音.我正在使用MFCC作为音频功能.最初，我使用jAudio库从声音剪辑中总共提取了12个MFCC矢量. 现在，我正在尝试训练机器学习算法(目前我尚未确定算法，但很可能是SVM).声音片段的大小约为3秒.我需要澄清有关此过程的一些信息.他们是我是否必须使用基于帧的MFCC训练此算法(每帧12个) 还是基于整个剪辑的MF ..

发布时间：2020-05-04 09:58:11 machine-learning signal-processing audio-processing mfcc audio-fingerprinting AI人工智能

keras:如何将帧级预测汇总到歌曲级预测

我正在对歌曲类型进行分类.对于每首歌曲，我将它们切成小帧(5s)以生成频谱图，作为神经网络的输入特征，并且每帧都具有关联的歌曲类型标签. 数据如下: name label feature .... song_i_frame1 label feature_vector_frame1 song_i_frame2 label feature ..

发布时间：2020-04-25 11:04:09 python tensorflow keras deep-learning audio-processing Python

如何以编程方式比较2个音频文件？

我想以编程方式比较2个音频文件。例如：我的iPhone应用程序中有一个声音文件，然后我录制另一个。我想检查现有声音是否与录制的声音匹配（ - 类似于语音识别）。我该如何做到这一点？解决方案这就是所谓的音频指纹识别。存在一些开源项目，您可以从中获得一些想法。请看这里：音频指纹 - MusicBrainz 。 ..

发布时间：2018-09-26 15:33:08 iphone ipad audio-processing 移动开发

使用AVPlayer的MTAudioProcessingTap和远程URL进行AVFoundation音频处理

关于 AVAudioMix的文档很少和MTAudioProcessingTap，允许将处理应用于AVFoundation（在iOS上）的媒体资产的音轨（PCM访问）。这个文章和简短的提及WWDC 2012会议就是我所找到的。我已经设置了描述这里为本地媒体文件工作，但它似乎不适用于远程文件（即HLS流式URL）。预期这一点的唯一迹象是本 Technical Q& A ： AVAudio ..

发布时间：2018-09-19 13:36:54 ios ios6 avfoundation avplayer audio-processing 移动开发

用python将视频切成帧

我正在尝试编写一个程序，删除没有特定符号的视频帧。我的一般计划：从视频中分割音频将视频分割成帧通过查找符号的子例程来运行框架，通过检查应该是正确颜色的像素，并记录它们的颜色。删除这些框架和相应的音频秒数将其全部拼接在一起。我需要一些帮助，找到可以做到这一点的库。我想知道，如果 wxpython 可以对像素颜色进行检测。我不知道什么库可以分割音频和视频，哪个可以编辑音 ..

发布时间：2017-10-24 00:28:28 python ffmpeg wxpython video-processing audio-processing Python

音频转换为文本

我只是想知道是否存在这样让我拿一个音频文件，分析它，并从中提取出文本库，或在Java中的外部库或C＃任何构建。我需要提出申请，这样做，但我不从那里我可以开始知道了。解决方案下面是一些你的选择：微软语音 Lumenvox 龙自然谈到 sphinx4 ..

发布时间：2016-08-29 13:54:20 c# java speech-recognition audio-processing Java开发

加工用C音频WAV文件

我正在处理WAV文件的振幅和一些小数因素进行缩放。我想换我围绕如何读取和存储高效的方式重新写入文件，同时试图解决语言（我是新的C）的细微差别头。该文件可以是在任一个8位或16位的格式。我想这样做的方式是通过先读头数据的成一些pre定义的结构，然后处理在一个循环中的实际数据，我会读一大块数据到缓冲区中，做任何需要它，然后把它写入到输出。的#include＆LT;＆stdio.h中GT; ＃包括L ..

发布时间：2016-08-19 16:12:55 c wav audio-processing C/C++

Java的声音可视化

我试图做一个java声音可视化，但我对如何从提取的音频字节完全不知道，他们是在实时procressed之后。我想生成与程序的声音，然后播放，我可以同步与WAV文件的程序，但是这不是我想做的事情，而不会有任何保存它。感谢您的帮助！解决方案这篇文章可以帮助你理解的声音文件的结构： HTTP：//$c$cidol.com/爪哇/秋千/音频/内建的音频波形，显示/ ..

发布时间：2016-07-22 20:32:22 java audio audio-processing real-time-java Java开发

开源FSK德codeR库？

我在找一个库或工具以取消在wav文件，例如code FSK来电显示。目前使用带有VPB驱动为Voicetronix硬件通过于Debian / Ubuntu提供捆绑的工具。但是，这似乎有一个我试图调试错误 - 验证音频文件将是有益的第二个工具我的不可以寻找任何从调制解调器或其他硬件设备读取呼叫者ID数据的无数的工具 - 我需要纯软件解决方案尝试SpanDSP http://www ..

发布时间：2016-07-22 18:43:33 audio telephony audio-processing 其他开发

audio-processing相关内容