最好看的新闻,最实用的信息
05月08日 8.2°C-11.2°C
纽币 : 人民币=4.3251

Mozilla宣布Common Voice数据集已超2万小时 新增闽南语和粤语

2022-05-01 来源: cnBeta 原文链接 评论0条

本次更新中,英语数据集的容量达到了 71GB,而且支持更多的语言,包括Tigre、闽南语、Meadow Mari、Bengali、Toki Pona和粤语。

Mozilla宣布Common Voice数据集已超2万小时 新增闽南语和粤语 - 1

Mozilla 表示, Common Voice 项目非常重要,因为它允许任何人向该项目贡献他们的声音,这应该允许虚拟助手理解更多口音。此外,它确保大科技公司不是唯一拥有大型数据集的公司--这让小的开发者和公司有机会建立竞争性产品和服务。

Mozilla 表示最新发布的数据集具备以下优势:

● 新增 6 种 语言

新版本还具有六种新的语言。Tigre, 闽南语, Meadow Mari, Bengali, Toki Pona 和粤语。

● 扩容

现在有27种语言拥有至少100小时的语音数据。它们包括孟加拉语、泰语、巴斯克语和弗里斯兰语。

9 种语言现在至少有500小时的语音数据。它们包括基尼亚卢旺达语(2383小时)、加泰罗尼亚语(2045小时)和斯瓦希里语(719小时)。

● 女性语音

九种语言现在都有至少45%的性别标签为女性。它们包括马拉地语、迪维希语和卢甘达语。

● 社区推动

加泰罗尼亚语社区推动了主要的增长。加泰罗尼亚语社区的AINA项目--巴塞罗那超级计算中心和加泰罗尼亚政府之间的合作--动员了加泰罗尼亚语使用者为"共同声音"做出贡献。

支持社区参与决策然而。共同语音语言代表队(Common Voice language Rep Cohort)已经贡献了关于最佳句子收集、语言变体的纳入等方面的反馈和学习成果。

今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]