用于语音检测和识别的开源代码 [英] Open source code for voice detection and discrimination

查看:12
本文介绍了用于语音检测和识别的开源代码的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有15盘录音带,我相信其中一盘包含了我和祖母交谈的旧录音。快速地试图找到合适的地方,但没有找到。我不想听20个小时的磁带才能找到它。位置可能不在其中一盘磁带的开头。大多数内容似乎分为三类--按照总长度的顺序,最长的是:静音、语音广播和音乐。

我计划将所有磁带转换为数字格式,然后再次查找录音。最明显的方法是在我做其他事情的时候在背景中播放它们。这对我来说太直截了当了,所以:有没有什么开源库或其他代码,可以让我按照日益复杂和有用的顺序找到:

  1. 非静音区
  2. 包含人类语音的区域
  3. 包含我自己(和我祖母的发言)的区域

我更喜欢使用Python、Java或C。

如果回答失败,请提供有关搜索词的提示,因为我对该领域一无所知。

我知道我可以轻松地在这上面花费20多个小时。

推荐答案

扬声器双音转换可能为您节省了大部分时间。这是通过使用说话者ID对录音进行注释来实现的,然后您可以轻松地手动将其映射到真人。错误率通常在录音长度的10%-15%左右,这听起来很糟糕,但这包括检测太多的说话者和将两个ID映射到同一个人,这并不难纠正。

SHoUT toolkit(C++)就是这样一个很好的工具,尽管它对输入格式有点挑剔。请参阅此工具的用法from author。它输出语音/语音活动检测元数据和说话人二元数据,这意味着您会得到第一和第二点(VAD/SAD)和一点额外的分数,因为它会对录音中处于活动状态的同一说话者进行批注。

另一个有用的工具是LIUM spkdiarization(Java),它基本上也是这样做的,只是我还没有花足够的精力来弄清楚如何获取VAD元数据。它的特点是非常好的即用型downloadable package

稍加编译,一小时内即可完成。

这篇关于用于语音检测和识别的开源代码的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆