LINUX.ORG.RU

whisper.cpp 1.6.0

 , , , ,

whisper.cpp 1.6.0

7

4

15 мая состоялся выпуск 1.6.0 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI на языках C и C++, и распространяемой по лицензии MIT.

Список изменений:

  • добавлена опция --flash-attn для ускорения обработки данных на устройствах с CUDA и Metal;
  • более высокая производительность на архитектуре ppc64;
  • исправлена ошибка обработки регулярного выражения в консольной утилите-примере main.

>>> Подробности

★★★★★

Проверено: cetjs2 ()
Последнее исправление: cetjs2 (всего исправлений: 1)

Годная новость, хотя и не пользуюсь.

Лет 10 назад пытался использовать поделку под оффтоп от МДМ, да только не взлетело чот.

sparkie ★★★★★
()

А это уже интересно, надо поковырять

sparks ★★★★
()

Tensorbanana использует его, чтобы делать супер быстрых локальных агентов.

xor2003
()

сколько памяти требует, какой минимальный проц тебуется для распознания-отлавливания нескольких слов

s-warus ★★★
()

О, круто. Оно быстрее, чем оригинальная питоновская?

Часто ей распознаю какие-то записи митов…

Zhbert ★★★★★
()
Ответ на: комментарий от s-warus

сколько памяти требует

Зависит от модели. ggml-base.en.bin ~147.37 MB.

какой минимальный проц тебуется

У меня так:

system_info: n_threads = 4 / 8 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | METAL = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | CUDA = 0 | COREML = 0 | OPENVINO = 0```
dataman ★★★★★
() автор топика
Ответ на: комментарий от mittorn

Ну пусть Рабинович нашепчет.

dataman ★★★★★
() автор топика
Ответ на: комментарий от Vilicus

Нейросеть на крестах?

И на Си: https://github.com/ggerganov/ggml

Tensor library for machine learning

- Written in C
- 16-bit float support
- Integer quantization support (4-bit, 5-bit, 8-bit, etc.)
- Automatic differentiation
- ADAM and L-BFGS optimizers
- Optimized for Apple Silicon
- On x86 architectures utilizes AVX / AVX2 intrinsics
- On ppc64 architectures utilizes VSX intrinsics
- No third-party dependencies
- Zero memory allocations during runtime
dataman ★★★★★
() автор топика
Ответ на: комментарий от dataman
whisper ./samples_jfk.wav --model base  --model_dir models --output_dir results --output_format txt
100%|███████████████████████████████████████| 139M/139M [00:51<00:00, 2.83MiB/s]
/opt/homebrew/Cellar/openai-whisper/20231117_3/libexec/lib/python3.12/site-packages/whisper/transcribe.py:115: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
Detecting language using up to the first 30 seconds. Use `--language` to specify the language
Detected language: English
[00:00.000 --> 00:11.000]  And so my fellow Americans, ask not what your country can do for you, ask what you can do for your country.

Меньше минуты. macOS, MacBook Pro M1.

Zhbert ★★★★★
()
Последнее исправление: Zhbert (всего исправлений: 1)

Битва нейросеток – piper vs whisper.cpp. :)

echo 'Welcome to the world of speech synthesis!' | \
  ./piper/piper --model models/en/en_US/kristin/medium/en_US-kristin-medium.onnx --output_file welcome.wav

ffmpeg -i welcome.wav -ar 16000 -ac 1 -c:a pcm_s16le output.wav

./main --no-prints --no-timestamps output.wav

Welcome to the world of speech synthesis.

dataman ★★★★★
() автор топика

оказывается, ии есть и на плюсах
для меня это сюрприз
только кто этим будет пользоваться ?

kto_tama ★★★★★
()
Ответ на: комментарий от kto_tama

Те, кому важны скорость и возможность встраивания в свою программу без дополнительных зависимостей.

dataman ★★★★★
() автор топика
Ответ на: комментарий от EvilFox

Самое прикольное в родной модели. То, что она слышит русский и английский, и автоматически переводит на английский. Причём очень неплохо.

xor2003
()
Ответ на: комментарий от kto_tama

только кто этим будет пользоваться ?

Встроен в Kdenlive для генерирования субтитров из закадрового голоса.

AP ★★★★★
()

Хорошая штука, не требует гигабайтов питоновских зависимостей, может работать на CPU, не так быстро конечно, но вполне терпимо.

einhander ★★★★★
()
Ответ на: комментарий от ivanzotov

МДМ - это МежДелМаш, IBM - если по-буржуински. =)

sparkie ★★★★★
()

Есть ли возможность делать временные метки для слогов а не слов? типа параметра word_timestamps, только syllable_timestamps

ldabur
()
Ответ на: комментарий от kto_tama

Ии на плюсах самая тема. Ты ничего не понимаешь.

einhander ★★★★★
()
Ответ на: комментарий от ldabur

возможность делать временные метки для слогов а не слов?

Ничего похожего не нашёл.

dataman ★★★★★
() автор топика

В версию 1.6.1 один хороший человек добавил поддержку FFmpeg (опция -DWHISPER_FFMPEG=ON для CMake).
Но с FFmpeg 7.0 не собирается.
Поэтому новость писать не буду. :)

dataman ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.