История изменений
Исправление Obezyan, (текущая версия) :
Подвох в том, что чтобы нейронная сеть уверенно распознавала человеческую речь необходимо, чтобы каждое распознаваемое слово произнесли, как минимум, сто человек с разной скоростью произношения, тембром, акцентом для качественного обучения сети. На подготовку данных даже с «Ютуба» уйдут месяцы.
Вы несете какую-то дичь, для достижения WER в 20% достаточно 10-100 часов аудио и одного спикера (количество часов зависит от языка).
Для того чтобы перенять ИНТОНАЦИЮ речи спикера на том же языке нужна запись от 15 минут! до 2-3х часов.
Готовых бесплатных датасетов куча, на русском например вот 20000 часов. Есть отличный проект от Mozilla на разных языках и тд. Эта сфера уже довольно хорошо обработана.
Исходная версия Obezyan, :
Подвох в том, что чтобы нейронная сеть уверенно распознавала человеческую речь необходимо, чтобы каждое распознаваемое слово произнесли, как минимум, сто человек с разной скоростью произношения, тембром, акцентом для качественного обучения сети. На подготовку данных даже с «Ютуба» уйдут месяцы.
Вы несете какую-то дичь, для достижения WER в 20% достаточно 10-100 часов аудио и одного спикера (количество часов зависит от языка).
Для того чтобы перенять ИНТОНАЦИЮ речи спикера на том же языке нужна запись от 15 минут! до 2-3х часов.
Готовых датасетов куча, на русском например вот 20000 часов. Есть отличный проект от Mozilla.