LINUX.ORG.RU
ФорумTalks

Распознавание речи лектора с лекций

 


2

2

Дано: файл с записью речи лектора, голос чистый, профессиональное оборудование, шумов нет, свободная лицензия.

Пример: http://chemnitzer.linux-tage.de/2014/media/audio/sa_v3_2.ogg 128kbps, 31MiB

Нужно получить файл субтитров.

Уже пробовал загружать на youtube, но ему нужен видео файл, а не аудио.

Поэтому ищется клаудное решение, которое специализируется по полуавтоматическому переводу аудио в srt.

Фунцкии:

- Загрузка и автоматическое распознавание речи (англ, нем, рус) (движком гугла?) - Последующее редактирование результата мной и коммунити (элементы краудфандинга)

нужно видео

ну замути видос из картинки + звук.

Deleted
()

Вот, как-то так выходит видео:

ffmpeg -f lavfi -i smptebars=size=320x240:rate=15 -i sa_v3_2.ogg -c:v libx264 -preset fast -tune stillimage -crf 1 -refs 16 -c:a libfdk_aac -vbr 1 -ac 1 -shortest -t 01:00 sa_v3_2.mkv
Будет нужно - всё объясню.

Результ распознавания ютюбом:

0:00:00.000,0:00:03.770
der hochtief-vorstand ich führende
alpin-nation

0:00:03.770,0:00:07.060
Stelle der Fragezeichen wir wollen
hören das

0:00:07.060,0:00:10.939
sozusagen

0:00:10.939,0:00:14.399
gleich ob er tatsächlich nicht damit
gerechnet dass das Interesse doch so

0:00:14.399,0:00:16.349
voll sein um die Uhrzeit ich dachte

0:00:16.349,0:00:19.140
Aachen das wird ja gemütlich Prozent

0:00:19.140,0:00:22.189
aber freut mich dafür dass über das
Eintreffen

0:00:22.189,0:00:24.179
Armen

0:00:24.179,0:00:26.589
wenn der Makler im Internet Dr

0:00:26.589,0:00:32.730
das können wir besser Umgebung das mit
Metadaten wir gucken uns das mal an um

0:00:32.730,0:00:37.260
der Fahrplan Orhan denn wenn etwas so
aus

0:00:37.260,0:00:40.620
ich habe eine kurz vorher Leitung warum
warum

0:00:40.620,0:00:42.600
derzeit kämen sorgen

0:00:42.600,0:00:44.030
furchtbar anstrengende

0:00:44.030,0:00:45.400
Angelegenheit ist

0:00:45.400,0:00:48.350
dann der Grund dafür noch mal warum das
ein Problem ist

0:00:48.350,0:00:50.390
ein kleines bisschen aus dem Hintergrund

0:00:50.390,0:00:52.640
um sowohl der Bericht

0:00:52.640,0:00:57.400
und um dann kann ich es mir nicht
verkneifen ein kleiner entgegen das Geld

0:00:57.400,0:00:59.480
mit dem Begriff geistiges Eigentum
Prozent
Мде, мож язык не тот?

varchar
()

Но ведь это не очень практично. Все равно вручную все форматировать придется — знаки препинания, коррекция ошибок распознавания, расстановка больших букв и т.д.

Для какой цели собираешься использовать?

Plcmn
()

правильные лекторы оцифровывают свою речь сами заранее в виде книг, методичек и конспектов в худшем случае

Harald ★★★★★
()

Уже пробовал загружать на youtube, но ему нужен видео файл, а не аудио.

создать видеофайл, присобачив пустую видеодорожку

next_time ★★★★★
()

добавь картинку в каком нибудт avidemux и на трубу
Ну или yandex.speechkit

mystery ★★
()
Ответ на: комментарий от Plcmn

основная цель - поиск. Cttl+F по тексту SRT а потом ты слушаешь.

Кстати - какой плеер поддерживает эту фичу?

EnterpriseMobility
() автор топика
Ответ на: комментарий от EnterpriseMobility

Ссылки нет. Я не публиковал, решив, что это будет некрасиво, т.к. не мое.

Выше привёл команду, чтобы cделать видео. Из неё надо выкинуть минутное ограничение - "-t 01:00", убрать пережатие и сведение в моно - "-c:a libfdk_aac -vbr 1 -ac 1" => "-c:a copy". Останется только имена файлов менять.

Держи готовую:

for f in *.ogg; do ffmpeg -f lavfi -i smptebars=size=320x240:rate=15 -i "$f" -c:v libx264 -preset fast -tune stillimage -crf 22 -refs 16 -c:a copy -shortest "$f".mkv; done

Сделает из всех ".ogg" в директории видео ".ogg.mkv" на фоне тестовой таблицы.

varchar
()

Это ж надо додуматься писать аудио презентации с картинками. Что мешало сделать видео? Не понимат...

sudo
()
Ответ на: комментарий от sudo

Где ты узрел картинки? Нет их.

Аудио скорей всего писалось где-то с усилка. Видео выжать из которого, при всём желании...

Вполне нормальная практика отдельной (раздельной) записи.

varchar
()
Ответ на: комментарий от varchar

Где ты узрел картинки? Нет их.

Ты речь слушал? Там тётка проводит презентацию, а в ней картинки, по которым она что-то объясняет.

Вполне нормальная практика отдельной (раздельной) записи.

Нет, это не нормальная практика. Нормальные лекторы пишут видео и достаточно качественное. На их сайте же только аудио (много).

sudo
()
Ответ на: комментарий от sudo

Это нормально с технической стороны: записать отдельно аудио, чтобы после наложить его на видео или подогнать к слайдам. А то, что они такой сырец вывалили без слайдов, с которыми зритель мог бы сам синхронизировать - пусть остаётся на их совести.

varchar
()
Ответ на: комментарий от varchar

там видео live тоже было - со слайдами. Но не в записи. И слайды не для всех.

EnterpriseMobility
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.