LINUX.ORG.RU

whisper.cpp 1.7.4

 , , , ,

whisper.cpp 1.7.4

5

3

6 января состоялся выпуск 1.7.4 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI, написанной на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C и оптимизированная для использования различных бэкендов (CUDA, Vulkan, BLAS, SYCL, OpenCL и др.).

Список изменений:

  • Переименования исполняемых файлов:
main	   -> whisper-cli
bench	   -> whisper-bench
stream	   -> whisper-stream
command	   -> whisper-command
server	   -> whisper-server
talk-llama -> whisper-talk-llama
  • Удалены примеры talk и talk.wasm.
  • В whisper-server добавлена опция подавления неречевых лексем.
  • Параметр suppress_non_speech_tokens переименован в suppress_nst.
  • В API и утилиты добавлена опция no_speech_thold для задания вероятности отсутствия речи на уровне сегмента при транскрипции.
  • В whisper-cli добавлена опция --suppress_nst.
  • Другие улучшения и исправления ошибок.

>>> Список изменений версии 1.7.4 на GitHub

★★★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 2)
Ответ на: комментарий от question4

И какие значения доступны для GGML_BLAS_VENDOR помимо OpenBLAS?

https://cmake.org/cmake/help/latest/module/FindBLAS.html#blas-lapack-vendors

Если MKL — Intel Math Kernel Library

Да, она.

Gentoo оно не считается вариантом BLAS

А в Debian/Devuan считается, CMake именно MKL предлагает.

То есть выигрыш примерно на четверть.

Хорошо же.


Ещё я заметил, что сама GGML поддерживает OpenCL, но в сабже эти исходники почему-то отсутствуют.

dataman ★★★★★
() автор топика
Последнее исправление: dataman (всего исправлений: 1)
Ответ на: комментарий от serg002

А распознавать надо ~500gb

Какими командами делаешь?

dataman ★★★★★
() автор топика
Ответ на: комментарий от serg002

То есть всего 2 месяца распознавать. Приступай. Раньше начнёшь, раньше кончишь.

А если произношение чёткое и звук качественный, можно взять модель поменьше. Если у turbo с BLAS соотношение проигрывание:распознавание 1:3, то у tiny 2:1, у small 1:2.

Хотя при распознавании телесериалов она склонна излишне концентрироваться на «смехе зрителей».

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 1)
Ответ на: комментарий от dataman

Ещё я заметил, что сама GGML поддерживает OpenCL, но в сабже эти исходники почему-то отсутствуют.

Починили: https://github.com/ggerganov/whisper.cpp/pull/2737.

Можно попробовать с -DGGML_OPENCL=ON -DGGML_OPENCL_USE_ADRENO_KERNELS=OFF.

dataman ★★★★★
() автор топика
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.