LINUX.ORG.RU

speech-to-text ввод с хорошей поддержкой русского языка

 ,


0

3

Подскажите пожалуйста приложение, которое будет захватывать голосовой сигнал с микрофона, распознавать, и имитировать клавиатурный ввод в активное окно X11. Язык для распознавания - русский.

Не хочется дописывать недостающую функциональность самому, перебирать разные модели методом тыка, и так далее. Хочется что-то готовое и работающее, требующее минимум усилий для начала использования.

Есть вообще такое в природе?

★★★★★

ИМХО, правильно сформулированный вопрос - половина дела уже сделана

Дальше небольшой шаг - гугл и изучение результатов поиска

https://github.com/openai/whisper/discussions/1259 WhisperWriter: A small, simple dictation tool!

Там 2 варианта

router ★★★★★
()
Ответ на: комментарий от router

Спасибо за наводку!

Оставлю отчет о моём опыте, вдруг кому-то будет полезно.

Готового whisper в составе ОС у меня нет, поэтому начал со сборки и тестирования whisper.cpp. В итоге остановился на компиляции с поддержкой vulkan (все зависимости для сборки нашлись в составе ОС, поставились пакетным менеджером безо всякого пердолинга - vulkan-devel, shaderc).

Лаг в распознавании тестовой фразы измеряется в секундах или даже в десятках секунд, это неприятно, и есть смысл бороться за ускорение. Даже на старой и маломощной видеокарточке от AMD (radeon 570) ускорение за счет vulkan по сравнению с cpu очень заметное: на маленькой модели примерно в 2 раза, на большой примерно в 10 раз.

Далее попробовал запустить voice_typing. Тут пришлось немного попердолиться, сначала с запуском ydotool, затем с доведением скрипта voice_typing до работающего состояния. Ни форматы файлов (mp3 вместо wav, битрейт не 16 кГц), которые ванильный voice_typing использует, ни опции для запуска whisper, моей версией whisper.cpp не поддерживаются. В итоге скрипт получился такой:

#!/bin/bash
# Copyright (C) 2023 by Henry Kroll III, www.thenerdshow.com
#
# With code contributions by Matthew Rensberry
#
# This is free software.  You may redistribute it under the terms
# of the Apache license and the GNU General Public License Version
# 2 or at your option any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public
# License along with this program; if not, write to the Free Software
# Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02110-1301  USA
#

# fifo queue to hold temporary audio file names
audio_fifo=$(mktemp --suffix=voice_typing_fifo); rm "$audio_fifo" ; mkfifo "$audio_fifo"

## create a trap to remove temp files on untimely exit
cleanup() {
    rm -f /tmp/voice_typing.txt "$audio_fifo"
}
trap cleanup 0

# function to process audio files from queue
trans(){
    while read audio; do
        # transcribe audio
        ~/whisper.cpp/build/bin/whisper-cli "$audio" --language Russian\
        --model ~/whisper.cpp/models/ggml-large-v3-turbo-q5_0.bin \
        --output-txt --output-file /tmp/voice_typing
        # remove temporary audio file
        rm -f "$audio"
        output="$(</tmp/voice_typing.txt)"; rm -f /tmp/voice_typing.txt
        # Type text to terminal, in background
        # Thanks for watching! seems to occur frequently due to noise.
        if [[ ${#output} > 15 ]] || [[ "$output" != "Thanks for watching!" ]] \
            && [[ "$output" != *'['* ]]; then
            ydotool type "$output"
        fi &
    done < "$audio_fifo"
    #cleanup
    rm -f "$audio_fifo"
}

# record audio in background
while true; do
    # Make temporary files to hold audio
    tmp=$(mktemp --suffix=voice_typing_wav)
    # Remove it on exit
    trap 'rm "$tmp" ; exit' INT

    # Listen to the mic.
    # The `1 0.2 4%` part of this command trims one clip of silence
    # from the beginning. 4% of max volume is considered silence here.
    # `1 1.0 2%` stops after a 1.0 second pause in speech.
    # If recording never stops, increase sound threshold from 2%
    # to 5% or more. This can happen with poor recording equipment
    # or noisy environments with heaters and fans going.

    rec -c 1 -r 16000 -t wav "$tmp" silence 1 0.2 4% 1 1.0 2%

    # echo temporary audio file name to transcription queue
    echo "$tmp"
done > "$audio_fifo" & #The `&` lets recording run in the background.

# run audio transciption handler
trans



Не смотря на то, что в скрипте я задал использование большой модели, качество распознавания мне не понравилось. Например, фразу "полезай из грязи в князи" оно распознаёт как "Полезая из грязи в князя,". Также, оно зачастую теряет первое слово фразы (не знаю, whisper это виноват, или это параметры/поведение у rec какое-то неправильное).

На всякий случай отмечу, что микрофон у меня хороший (fifine K669), произношение нормальное (в общении с людьми проблем оно не вызывает, логопедических дефектов нет). Ничего экстраординарного.

Сухой остаток состоит в том, что в моем случае клавиатурный ввод оно заменить не сможет. Слишком топорно.

Manhunt ★★★★★
() автор топика
Последнее исправление: Manhunt (всего исправлений: 2)
Ответ на: комментарий от Manhunt

В readme у voice_typing сказано

For heavier usage, instead of loading and unloading Whisper multiple times, we have added voice_client. It connects to a CUDA-accelerated Whisper.cpp server. The server runs continuously on the same machine, or somewhere across the network. Try it. Users might discover significant speedup. :)

но я пока не пробовал запускать whisper демоном

router ★★★★★
()