Common Voice 语音数据集

Common Voice 是 Mozilla 的一个开放项目,主要目标是增强 Web 创造者的力量。而当今的公司拥有大量资源,却不分享(或者有限分享)这会使开发者的差距越来越大,Common Voice 其中的一个作用就是成为人人皆可使用的公共资源,所以许可协议也是 CC0 。

除了让更多的开发者能够使用这个庞大的数据集,也能让更多人参与进语音提交中,防止再次出现「面部识别对有色人种/女性的正确率较低」的情况,即防止样本范围过窄。

为了保证最终导出的语音数据集是 CC0 许可协议,所以阅读的示例文字也应该是 CC0,Mozilla 官方推荐将公共领域电影剧本的对话导入进来,不过这里还是有维基百科/文库的内容,应该是有人通过 上传页面 (entence collector) 提交了非公有领域的句子,这么做可能会损害该项目。

#网站 #原理
 
 
Back to Top