LINUX.ORG.RU

Распознание речи на нескольких языках сразу

 , ,


0

2

Пример: https://t.me/dfzwe4/65269 Чередуются реплики на нескольких языках.

Правильно ли я понимаю, что Whisper и Whisper.cpp должны уметь такое обрабатывать? Для роликов на русском Whisper.cpp мне иногда выдавал смесь русского и английского :) Но здесь всё опознал как английский. Модель large-v3-turbo-q8_0. Пробовать другие модели?

★★★★★
Ответ на: комментарий от CrX

А есть другие варианты

Может оказаться, что другие модели whisper в принципе не могут делать это лучше или хуже, и их перебирать бесполезно. Или могут сразу предложить принципиальро другую модель, заточенную под такие задачи. Поэтому спросил.

question4 ★★★★★
() автор топика

С чередованием языков не приходилось сталкиваться

Попробуй принудительно выбрать русский язык (–language ru). Вставки на своем основном языке (en) он распознает с большей вероятностью

Ну и есть вариант с брутфорсом - разбить файл на отдельные куски с одним языком, и распознавать отдельно. Как разбить - хз, может вручную

router ★★★★★
()
Ответ на: комментарий от dataman

Типа «если вам нужно, сами скачивайте и конвертируйте в аудио»?

Если интересно поэкспериментировать, видео сохранить из Firefox или yt-dlp несложно. Из Chrome чуть сложнее. Куда выложить бинарник без регистрации, сходу не помню.

question4 ★★★★★
() автор топика

Интересный результат с суржиком. Первое слово было украинское, остальные — русские, частично с украинским произношением. Whisper.cpp опознал язык как украинский, и заменил русские слова украинскими, где эквиваленты сильно различаются (например вообще — взагалі).

question4 ★★★★★
() автор топика
17 декабря 2025 г.

Не знаю, насколько это штатное поведение, но whisper.cpp с параметрами -l auto и -p независимо автоматически определяет язык для каждого процессора. Но число фрагментов ограничено — ошибка сегментации, если слишком много — и если во фрагмент попадает больше одного языка, пытается перевести на выбранный.

А ещё сербский опознаёт то как хорватский, то как русский.

question4 ★★★★★
() автор топика
Ответ на: комментарий от One

А ты и через год турбо пользуешься? Так на мой взгляд large-v2 хороша для мультиязыковой дорожки, у меня и фоновые песни с дуру распознавала

И правильно распознавала разные языки? ggml-large-v3-q5_0 перевела всё на хорватский, если в 1 процесс.

question4 ★★★★★
() автор топика
Ответ на: комментарий от slackwarrior

Можно, а зачем?

Довольно часто попадаются видео с диалогами, где каждый говорит на своём языке, но понимают друг друга. Whisper такие переводит на один из языков, и не всегда верно.

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

Да нормально. В общении была смесь английского и русского, французского и русского

Я каким-то Whisper-WebUI пользуюсь, может там преднастройки были на многоязычное.

Ага, было https://github.com/SYSTRAN/faster-whisper/discussions/1263

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)