Есть поток звука (моно или стерео, 44.1khz), иногда в нем бывает речь на русском языке. Концентрация речи - от 3-4 в час до 5 часовых лекций разными голосами. Именно поток, а не записи, потому алгоритм нужен реалтаймовый. Отсюда 2 задачи:
1. определить наличие речи (скипая музыку)
2. по возможности выжать что-то похожее на текст или хотя бы отдельные звуки, т.е. «молоко» как «мольёко» впринципе устроит.
Пытался искать библиотеки, но зачастую нарываюсь только на Voice Activation или системы телефонии.