2 апреля состоялся выпуск 1.7.5 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI, написанной на языках C и C++ и распространяемой по лицензии MIT.
В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C и оптимизированная для использования различных бэкендов (CUDA, Vulkan, BLAS, SYCL, OpenCL и др.).
Это довольно большое обновление с различными улучшениями сборки и CI, особенно для iOS и WASM. Также есть некоторый прирост производительности, особенно для бэкенда Metal и, возможно, для устройств на базе Arm.
Список основных изменений:
- В API добавлена функция
whisper_full_get_segment_no_speech_prob_from_state
. - В примере
server.cpp
для конвертирования (вызовом FFmpeg) исходного файла в .wav реализовано генерирование уникального имени временного файла. - Обновлены библиотеки GGML и llama.cpp.
- Для декодирования flac, mp3, ogg и wav теперь используется библиотека miniaudio 0.11.22, без необходимости использования внешних конверторов, как было ранее.
- Улучшена документация.
- Улучшены скрипты загрузки моделей.
- Многочисленные исправления биндингов для других языков программирования.
- Исправлены найденные ошибки.