История изменений
Исправление Manhunt, (текущая версия) :
Спасибо за наводку!
Оставлю отчет о моём опыте, вдруг кому-то будет полезно.
Готового whisper в составе ОС у меня нет, поэтому начал со сборки и тестирования whisper.cpp. В итоге остановился на компиляции с поддержкой vulkan (все зависимости для сборки нашлись в составе ОС, поставились пакетным менеджером безо всякого пердолинга - vulkan-devel, shaderc).
Лаг в распознавании тестовой фразы измеряется в секундах или даже в десятках секунд, это неприятно, и есть смысл бороться за ускорение. Даже на старой и маломощной видеокарточке от AMD (radeon 570) ускорение за счет vulkan по сравнению с cpu очень заметное: на маленькой модели примерно в 2 раза, на большой примерно в 10 раз.
Далее попробовал запустить voice_typing. Тут пришлось немного попердолиться, сначала с запуском ydotool, затем с доведением скрипта voice_typing до работающего состояния. Ни форматы файлов (mp3 вместо wav, битрейт не 16 кГц), которые ванильный voice_typing использует, ни опции для запуска whisper, моей версией whisper.cpp не поддерживаются. В итоге скрипт получился такой:
#!/bin/bash
# Copyright (C) 2023 by Henry Kroll III, www.thenerdshow.com
#
# With code contributions by Matthew Rensberry
#
# This is free software. You may redistribute it under the terms
# of the Apache license and the GNU General Public License Version
# 2 or at your option any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public
# License along with this program; if not, write to the Free Software
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
#
# fifo queue to hold temporary audio file names
audio_fifo=$(mktemp --suffix=voice_typing_fifo); rm "$audio_fifo" ; mkfifo "$audio_fifo"
## create a trap to remove temp files on untimely exit
cleanup() {
rm -f /tmp/voice_typing.txt "$audio_fifo"
}
trap cleanup 0
# function to process audio files from queue
trans(){
while read audio; do
# transcribe audio
~/whisper.cpp/build/bin/whisper-cli "$audio" --language Russian\
--model ~/whisper.cpp/models/ggml-large-v3-turbo-q5_0.bin \
--output-txt --output-file /tmp/voice_typing
# remove temporary audio file
rm -f "$audio"
output="$(</tmp/voice_typing.txt)"; rm -f /tmp/voice_typing.txt
# Type text to terminal, in background
# Thanks for watching! seems to occur frequently due to noise.
if [[ ${#output} > 15 ]] || [[ "$output" != "Thanks for watching!" ]] \
&& [[ "$output" != *'['* ]]; then
ydotool type "$output"
fi &
done < "$audio_fifo"
#cleanup
rm -f "$audio_fifo"
}
# record audio in background
while true; do
# Make temporary files to hold audio
tmp=$(mktemp --suffix=voice_typing_wav)
# Remove it on exit
trap 'rm "$tmp" ; exit' INT
# Listen to the mic.
# The `1 0.2 4%` part of this command trims one clip of silence
# from the beginning. 4% of max volume is considered silence here.
# `1 1.0 2%` stops after a 1.0 second pause in speech.
# If recording never stops, increase sound threshold from 2%
# to 5% or more. This can happen with poor recording equipment
# or noisy environments with heaters and fans going.
rec -c 1 -r 16000 -t wav "$tmp" silence 1 0.2 4% 1 1.0 2%
# echo temporary audio file name to transcription queue
echo "$tmp"
done > "$audio_fifo" & #The `&` lets recording run in the background.
# run audio transciption handler
trans
Не смотря на то, что в скрипте я задал использование большой модели, качество распознавания мне не понравилось. Например, фразу "полезай из грязи в князи" оно распознаёт как "Полезая из грязи в князя,". Также, оно зачастую теряет первое слово фразы (не знаю, whisper это виноват, или это параметры/поведение у rec какое-то неправильное).
На всякий случай отмечу, что микрофон у меня хороший (fifine K669), произношение нормальное (в общении с людьми проблем оно не вызывает, логопедических дефектов нет). Ничего экстраординарного.
Сухой остаток состоит в том, что в моем случае клавиатурный ввод оно заменить не сможет. Слишком топорно.
Исправление Manhunt, :
Спасибо за наводку!
Оставлю отчет о моём опыте, вдруг кому-то будет полезно.
Готового whisper в составе ОС у меня нет, поэтому начал со сборки и тестирования whisper.cpp. В итоге остановился на компиляции с поддержкой vulkan (все зависимости для сборки нашлись в составе ОС, поставились пакетным менеджером безо всякого пердолинга - vulkan-devel, shaderc).
Лаг в распознавании тестовой фразы измеряется в секундах или даже в десятках секунд, это неприятно, и есть смысл бороться за ускорение. Даже на старой и маломощной видеокарточке от AMD (radeon 570) ускорение за счет vulkan по сравнению с cpu очень заметное: на маленькой модели примерно в 2 раза, на большой примерно в 10 раз.
Далее попробовал запустить voice_typing. Тут пришлось немного попердолиться, сначала с запуском ydotool, затем с доведением скрипта voice_typing до работающего состояния. Ни форматы файлов (mp3 вместо wav, битрейт не 16 кГц), которые ванильный voice_typing использует, ни опции для запуска whisper, моей версией whisper.cpp не поддерживаются. В итоге скрипт получился такой:
#!/bin/bash
# Copyright (C) 2023 by Henry Kroll III, www.thenerdshow.com
#
# With code contributions by Matthew Rensberry
#
# This is free software. You may redistribute it under the terms
# of the Apache license and the GNU General Public License Version
# 2 or at your option any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public
# License along with this program; if not, write to the Free Software
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
#
# fifo queue to hold temporary audio file names
audio_fifo=$(mktemp --suffix=voice_typing_fifo); rm "$audio_fifo" ; mkfifo "$audio_fifo"
## create a trap to remove temp files on untimely exit
cleanup() {
rm -f /tmp/voice_typing.txt "$audio_fifo"
}
trap cleanup 0
# function to process audio files from queue
trans(){
while read audio; do
# transcribe audio
~/whisper.cpp/build/bin/whisper-cli "$audio" --language Russian\
--model ~/whisper.cpp/models/ggml-large-v3-turbo-q5_0.bin \
--output-txt --output-file /tmp/voice_typing
# remove temporary audio file
rm -f "$audio"
output="$(</tmp/voice_typing.txt)"; rm -f /tmp/voice_typing.txt
# Type text to terminal, in background
# Thanks for watching! seems to occur frequently due to noise.
if [[ ${#output} > 15 ]] || [[ "$output" != "Thanks for watching!" ]] \
&& [[ "$output" != *'['* ]]; then
ydotool type "$output"
fi &
done < "$audio_fifo"
#cleanup
rm -f "$audio_fifo"
}
# record audio in background
while true; do
# Make temporary files to hold audio
tmp=$(mktemp --suffix=voice_typing_wav)
# Remove it on exit
trap 'rm "$tmp" ; exit' INT
# Listen to the mic.
# The `1 0.2 4%` part of this command trims one clip of silence
# from the beginning. 4% of max volume is considered silence here.
# `1 1.0 2%` stops after a 1.0 second pause in speech.
# If recording never stops, increase sound threshold from 2%
# to 5% or more. This can happen with poor recording equipment
# or noisy environments with heaters and fans going.
rec -c 1 -r 16000 -t wav "$tmp" silence 1 0.2 4% 1 1.0 2%
# echo temporary audio file name to transcription queue
echo "$tmp"
done > "$audio_fifo" & #The `&` lets recording run in the background.
# run audio transciption handler
trans
Не смотря на то, что в скрипте я задал использование большой модели, качество распознавания мне не понравилось. Например, фразу "полезай из грязи в князи" оно распознаёт как "Полезая из грязи в князя,". Также, оно зачастую проглатывает первое слово фразы (не знаю, whisper это виноват, или это параметры/поведение у rec какое-то неправильное).
Сухой остаток состоит в том, что в моем случае клавиатурный ввод оно заменить не сможет. Слишком топорно.
Исходная версия Manhunt, :
Спасибо за наводку!
Оставлю отчет о моём опыте, вдруг кому-то будет полезно.
Готового whisper в составе ОС у меня нет, поэтому начал со сборки и тестирования whisper.cpp. В итоге остановился на компиляции с поддержкой vulkan (все зависимости для сборки нашлись в составе ОС, поставились пакетным менеджером безо всякого пердолинга - vulkan-devel, shaderc).
Лаг в распознавании тестовой фразы измеряется в секундах или даже в десятках секунд, это неприятно, и есть смысл бороться за ускорение. Даже на старой и маломощной видеокарточке от AMD (radeon 570) ускорение за счет vulkan по сравнению с cpu очень заметное: на маленькой модели примерно в 2 раза, на большой примерно в 10 раз.
Далее попробовал запустить voice_typing. Тут пришлось немного попердолиться, сначала с запуском ydotool, затем с доведением скрипта voice_typing до работающего состояния. Ни форматы файлов (mp3 вместо wav, битрейт не 16 кГц), которые ванильный voice_typing использует, ни опции для запуска whisper, моей версией whisper.cpp не поддерживаются. В итоге скрипт получился такой:
#!/bin/bash
# Copyright (C) 2023 by Henry Kroll III, www.thenerdshow.com
#
# With code contributions by Matthew Rensberry
#
# This is free software. You may redistribute it under the terms
# of the Apache license and the GNU General Public License Version
# 2 or at your option any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public
# License along with this program; if not, write to the Free Software
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
#
# fifo queue to hold temporary audio file names
audio_fifo=$(mktemp --suffix=voice_typing_fifo); rm "$audio_fifo" ; mkfifo "$audio_fifo"
## create a trap to remove temp files on untimely exit
cleanup() {
rm -f /tmp/voice_typing.txt "$audio_fifo"
}
trap cleanup 0
# function to process audio files from queue
trans(){
while read audio; do
echo "======================================="
echo "$audio"
file "$audio"
echo "======================================="
# transcribe audio
~/whisper.cpp/build/bin/whisper-cli "$audio" --language Russian\
--model ~/whisper.cpp/models/ggml-large-v3-turbo-q5_0.bin \
--output-txt --output-file /tmp/voice_typing
# remove temporary audio file
rm -f "$audio"
output="$(</tmp/voice_typing.txt)"; rm -f /tmp/voice_typing.txt
# Type text to terminal, in background
# Thanks for watching! seems to occur frequently due to noise.
if [[ ${#output} > 15 ]] || [[ "$output" != "Thanks for watching!" ]] \
&& [[ "$output" != *'['* ]]; then
ydotool type "$output"
fi &
done < "$audio_fifo"
#cleanup
rm -f "$audio_fifo"
}
# record audio in background
while true; do
# Make temporary files to hold audio
tmp=$(mktemp --suffix=voice_typing_wav)
# Remove it on exit
trap 'rm "$tmp" ; exit' INT
# Listen to the mic.
# The `1 0.2 4%` part of this command trims one clip of silence
# from the beginning. 4% of max volume is considered silence here.
# `1 1.0 2%` stops after a 1.0 second pause in speech.
# If recording never stops, increase sound threshold from 2%
# to 5% or more. This can happen with poor recording equipment
# or noisy environments with heaters and fans going.
rec -c 1 -r 16000 -t wav "$tmp" silence 1 0.2 4% 1 1.0 2%
# echo temporary audio file name to transcription queue
echo "$tmp"
done > "$audio_fifo" & #The `&` lets recording run in the background.
# run audio transciption handler
trans
Не смотря на то, что в скрипте я задал использование большой модели, качество распознавания мне не понравилось. Например, фразу "полезай из грязи в князи" оно распознаёт как "Полезая из грязи в князя,". Также, оно зачастую проглатывает первое слово фразы (не знаю, whisper это виноват, или это параметры/поведение у rec какое-то неправильное).
Сухой остаток состоит в том, что в моем случае клавиатурный ввод оно заменить не сможет. Слишком топорно.