Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 32.6 до 33.1 тысячи часов речи, из которых 22.1 тысячи часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 129 до 133 - добавлены языки арагонский, исиндебеле, южный сото и тупури.