История изменений

Исправление Obezyan, 05.11.23 01:51 (текущая версия) :

Подвох в том, что чтобы нейронная сеть уверенно распознавала человеческую речь необходимо, чтобы каждое распознаваемое слово произнесли, как минимум, сто человек с разной скоростью произношения, тембром, акцентом для качественного обучения сети. На подготовку данных даже с «Ютуба» уйдут месяцы.

Вы несете какую-то дичь, для достижения WER в 20% достаточно 10-100 часов аудио и одного спикера (количество часов зависит от языка).

Для того чтобы перенять ИНТОНАЦИЮ речи спикера на том же языке нужна запись от 15 минут! до 2-3х часов.

Готовых бесплатных датасетов куча, на русском например вот 20000 часов. Есть отличный проект от Mozilla на разных языках и тд. Эта сфера уже довольно хорошо обработана.

Исходная версия Obezyan, 05.11.23 01:51:

Подвох в том, что чтобы нейронная сеть уверенно распознавала человеческую речь необходимо, чтобы каждое распознаваемое слово произнесли, как минимум, сто человек с разной скоростью произношения, тембром, акцентом для качественного обучения сети. На подготовку данных даже с «Ютуба» уйдут месяцы.

Для того чтобы перенять ИНТОНАЦИЮ речи спикера на том же языке нужна запись от 15 минут! до 2-3х часов.

Готовых датасетов куча, на русском например вот 20000 часов. Есть отличный проект от Mozilla.