LINUX.ORG.RU

Посоветуйте распознавалку речи

 ,


3

3

В общем, возникла необходимость распознавать достаточно длинные записи речи и перегонять их в текст, а текст уже затем в субтитры. Как делать субтитры я знаю, а вот с распознаванием речи есть трудности. Я плохо разбираю английский на слух, так что хорошо бы отдавать эту часть работы программе. Но какую программу использовать? Хотелось бы поменьше ошибок и отсутствие обязательной регистрации, но отсутствие ошибок в приоритете. Pocketsphinx работает очень так себе, судя по тому, что у меня получилось. Возможно, я просто не умею его готовить.



Последнее исправление: Mobutu_Sese_Seko (всего исправлений: 3)

К вечеру докатился до того, что начал неиллюзорно обмазываться openai, распознавалка речи у них тоже есть: https://platform.openai.com/docs/guides/speech-to-text. Накатил nodejs, зарегистрировался у них, вот это вот всё. Я сегодня погромист! Поправляет сварочную маску погромиста.

Mobutu_Sese_Seko
() автор топика
Последнее исправление: Mobutu_Sese_Seko (всего исправлений: 1)
Ответ на: комментарий от Mobutu_Sese_Seko

openai, распознавалка речи у них тоже есть

Это ж удалённо у дяди, с таким же успехом можно у яндекса какого-нибудь распознавать

TheAnonymous ★★★★★
()
Последнее исправление: TheAnonymous (всего исправлений: 1)
Ответ на: комментарий от TheAnonymous

Оно, кстати, сразу завелось. Ну почти, ставить его всё же лучше из-под рута, без рута оно ставится, но работать не хочет. Сейчас проверяю на сложной записи с дополнительным шумом. Проверил: с шумными записями – фигня на палочке, с чистыми – нормально, но иногда ошибается на похожих словах. Вообще неплохая штука, надо с другими словарями проверить.

А опенаишные что-то не отдают результат, хотя 35 центов с пробных пяти баксов списали, то есть именно обработка имела место быть, проблема с возвращением результата. Написал в спортлото им в поддержку.

Mobutu_Sese_Seko
() автор топика
Последнее исправление: Mobutu_Sese_Seko (всего исправлений: 3)
Ответ на: комментарий от Mobutu_Sese_Seko

Ну почти, ставить его всё же лучше из-под рута

Не лучше, даже наоборот, от рута лучше прикладной софт не запускать без необходимости, это ты что-то у себя намудрил

с шумными записями – фигня на палочке, с чистыми – нормально, но иногда ошибается на похожих словах

Ну, можешь попробовать делать предобработку, удалять шум (хоть тем же sox noiseprof/noisered).

Хотя могу предположить, что коммерческие SaaS решения всё равно будут эффективнее. Ну и если тебе всё равно оффлайн не нужно, можешь у яндекса попробовать (для пробы там тоже бесплатно вроде, и в ещё браузере прям демо)
https://cloud.yandex.ru/services/speechkit

TheAnonymous ★★★★★
()
Ответ на: комментарий от Mobutu_Sese_Seko

надо с другими словарями проверить

Кстати да, там по умолчанию вроде самая маленькая модель качается, попробуй полные скачать разных версий
https://alphacephei.com/vosk/models
Возможно, тебе вообще «Indian English» надо

TheAnonymous ★★★★★
()
Ответ на: комментарий от TheAnonymous

«Indian English»

Прикольно, конечно, что для родни нового начальника Микрософта особый язык придумали, но в той шумной записи именно носители из США, и это ещё хуже. Там дикция даже не негритянская, а реднековская.

попробуй полные скачать разных версий

Пробовал, не помогло.

А яндекс на халяву только в микрофон наговорить всякого предлагает, я проверил.

Mobutu_Sese_Seko
() автор топика
Последнее исправление: Mobutu_Sese_Seko (всего исправлений: 2)

Кстати, что вообще делать с вот этим кодом из опенаишных примеров? Я действительно ни разу не программист, питонический скрипт из из примеров распознал с трудом, а тут вообще первый раз вижу.

curl --request POST \
  --url https://api.openai.com/v1/audio/transcriptions \
  --header 'Authorization: Bearer TOKEN' \
  --header 'Content-Type: multipart/form-data' \
  --form file=@/path/to/file/openai.mp3 \
  --form model=whisper-1

Ага, разобрался. И оно работает на сложных записях гораздо лучше свободных решений, но всё равно не идеально.

Mobutu_Sese_Seko
() автор топика
Последнее исправление: Mobutu_Sese_Seko (всего исправлений: 1)
Ответ на: комментарий от Mobutu_Sese_Seko

А яндекс на халяву только в микрофон наговорить всякого предлагает, я проверил.

Ну так подсунь вместо микрофона устройство захвата с выхода, и воспроизведи файл.
Алсо, это из браузера, через API вроде тоже что-то на пробу есть, после регистрации

TheAnonymous ★★★★★
()

https://github.com/ggerganov/whisper.cpp

тут вообще народ не следит за новым что ли?

локально, на проце, может сразу делать субтитры.

работает близко к идеалу, в 3 раза лучше распознавалки гугла

baja
()
Последнее исправление: baja (всего исправлений: 2)
Ответ на: комментарий от baja

Прикольно, спасибо за ссылку.
Понеслось говно по трубам, полетели крошки с барского стола. То лама/альпака, то Stable Diffusion, то вот это, прям свои модели выкладывают. В интересное время живём, однако. Осталось ещё чтобы нормальный оффлайн переводчик кто-то выложил, такого вроде ещё не было?

TheAnonymous ★★★★★
()
Ответ на: комментарий от TheAnonymous

я качнул https://github.com/LibreTranslate/LibreTranslate

тут описано, как прикрутить перевод в firefox в аддоне lynguist: https://github.com/LibreTranslate/LibreTranslate/issues/55

вроде работает неплохо, но юзал мало и только на китайском>en

baja
()
Последнее исправление: baja (всего исправлений: 1)