CommonVoice数据集

来自站酷网的图片

CommonVoice数据集Common Voice，是一个由Mozilla基金会发起的多语言开源语音学术数据集。

此数据集是音频数据和文本数据的混合。Common Voice数据集中包含超过9000小时的录音信息及其书面记录文本，除此之外还可以使用其他数据信息，例如说话者的年龄，性别和口音，可以帮助提高模型的语音检测性能。

该数据集可用于训练60多种语言的语音检测模型。无论是在Google Home、Alexa和Siri等常见应用中，都不可缺少这种语音检测模型，这些语音模型当然也需要具备多语言的处理能力，这时Common Voice数据集就派上用场了。

基本信息

Common Voice数据集最早于2017年发布，并持续更新至今。它已成为构建语音AI最有用的资源之一，数据集的下载量从2020年的38,500次跃升至最近的500万次。

该数据集通过Common Voice网站和移动应用进行70种语言的数据收集工作，目前已包括29种不同的语言，其中也包含汉语。数据集从4万多名贡献者那里收集了近2454小时的录音语音数据，其中1965小时已验证。

数据集特点

Common Voice数据集不仅在其大小和许可模型方面是独一无二的，而且在其多样性上也是独一无二的。它是一个由全球社区的语音贡献者组成的，贡献者可以选择提供他们的年龄、性别和口音等统计^[1]元数据，以便在训练语音引擎中使用这些有用的信息‌。

数据集包含了可应用于多种语言语音识别^[2]模型的训练集、开发集、测试集，为研究人员提供了丰富的资源来构建和评估他们的语音识别系统‌3。

数据集构成

Common Voice数据集的目录结构清晰，包含README.md项目说明文件、LICENSE开源许可证文件、data/存储数据集的主要目录等。其中，data/目录下还包含clips/存储音频剪辑文件，以及validated.tsv、invalidated.tsv、other.tsv等元数据文件。

使用与获取

Common Voice数据集是公开的，并且Mozilla基金会已做出开放的承诺，向初创公司、研究人员以及对语音技术感兴趣的任何人公开收集到的高质量语音数据。

用户可以通过Mozilla的官方渠道或其他指定的数据分享平台获取该数据集，并遵循相应的数据使用协议和隐私政策进行合法使用。

应用与影响

Common Voice数据集为AI语音技术带来了更多的透明性和多样性，有助于改变当前语音助手主要依赖英语和特定口音的现状‌。

该数据集的应用范围广泛，可用于训练语音识别模型、提升语音识别的准确性，并推动语音技术的普及和发展‌。

综上所述，Common Voice数据集是一个具有重要价值的多语言开源语音学术数据集，它为研究人员提供了丰富的资源来构建和评估语音识别系统，并有助于推动语音技术的创新和发展。

参考文献

跳转 ↑ 应用统计硕士就业方向，战马教育，2020-03-19
跳转 ↑ 语音识别：将语音转化为文字的技术和算法，搜狐，2024-01-07

[1] 跳转 ↑ 应用统计硕士就业方向，战马教育，2020-03-19

[2] 跳转 ↑ 语音识别：将语音转化为文字的技术和算法，搜狐，2024-01-07

[1]

[2]