whisper.cpp 1.7.4

c, c++, openai, whisper, распознавание речи

5

3

6 января состоялся выпуск 1.7.4 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI, написанной на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C и оптимизированная для использования различных бэкендов (CUDA, Vulkan, BLAS, SYCL, OpenCL и др.).

Список изменений:

Переименования исполняемых файлов:

main	   -> whisper-cli
bench	   -> whisper-bench
stream	   -> whisper-stream
command	   -> whisper-command
server	   -> whisper-server
talk-llama -> whisper-talk-llama

Удалены примеры talk и talk.wasm.
В whisper-server добавлена опция подавления неречевых лексем.
Параметр suppress_non_speech_tokens переименован в suppress_nst.
В API и утилиты добавлена опция no_speech_thold для задания вероятности отсутствия речи на уровне сегмента при транскрипции.
В whisper-cli добавлена опция --suppress_nst.
Другие улучшения и исправления ошибок.

>>> Список изменений версии 1.7.4 на GitHub

Ссылка

←	Glaze 4.3.0

nwipe 0.38

→

← 1 2 →

Ответ на: комментарий от question4 11.01.25 17:10:31 MSK

И какие значения доступны для GGML_BLAS_VENDOR помимо OpenBLAS?

https://cmake.org/cmake/help/latest/module/FindBLAS.html#blas-lapack-vendors

Если MKL — Intel Math Kernel Library

Да, она.

Gentoo оно не считается вариантом BLAS

А в Debian/Devuan считается, CMake именно MKL предлагает.

То есть выигрыш примерно на четверть.

Хорошо же.

Ещё я заметил, что сама GGML поддерживает OpenCL, но в сабже эти исходники почему-то отсутствуют.

dataman ★★★★★
(11.01.25 17:22:29 MSK) автор топика
Последнее исправление: dataman 11.01.25 17:49:24 MSK (всего исправлений: 1)

Ответ на: комментарий от question4 11.01.25 13:38:18 MSK

Всего-то в 4 медленней. На видео по 4 часа это прям мелочь. А распознавать надо ~500gb

serg002 ★★★
(12.01.25 12:26:47 MSK)

Ответ на: комментарий от serg002 12.01.25 12:26:47 MSK

Сколько часов? 500 гигабайт в IMAX — менее 3 суток.

question4 ★★★★★
(12.01.25 13:48:00 MSK)

Ответ на: комментарий от question4 12.01.25 13:48:00 MSK

500 часов

serg002 ★★★
(12.01.25 13:50:18 MSK)

Ответ на: комментарий от serg002 12.01.25 12:26:47 MSK

А распознавать надо ~500gb

Какими командами делаешь?

dataman ★★★★★
(12.01.25 14:05:24 MSK) автор топика

Ссылка

Ответ на: комментарий от serg002 12.01.25 13:50:18 MSK

То есть всего 2 месяца распознавать. Приступай. Раньше начнёшь, раньше кончишь.

А если произношение чёткое и звук качественный, можно взять модель поменьше. Если у turbo с BLAS соотношение проигрывание:распознавание 1:3, то у tiny 2:1, у small 1:2.

Хотя при распознавании телесериалов она склонна излишне концентрироваться на «смехе зрителей».

question4 ★★★★★
(12.01.25 15:40:20 MSK)
Последнее исправление: question4 12.01.25 15:41:33 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от dataman 11.01.25 17:22:29 MSK

Ещё я заметил, что сама GGML поддерживает OpenCL, но в сабже эти исходники почему-то отсутствуют.

Починили: https://github.com/ggerganov/whisper.cpp/pull/2737.

Можно попробовать с -DGGML_OPENCL=ON -DGGML_OPENCL_USE_ADRENO_KERNELS=OFF.

dataman ★★★★★
(15.01.25 15:04:48 MSK) автор топика

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

← 1 2 →

←	Glaze 4.3.0

Open Source

nwipe 0.38

→

Похожие темы