LINUX.ORG.RU

Как интегрировать vosk-tts в Speech dispatcher?

 


0

1

Судя по https://wiki.archlinux.org/title/Speech_dispatcher тот же piper-tts интегрируется модулем из скрипта. Пробую по-разному, например echo "привет мир" > vosk-tts -n vosk-model-tts-ru-0.7-multi -s 2 --output /…123.wav послать текст извне, но ему подавай -i "привет мир" в виде параметра, всякие "$DATA" в нём игнорируя. Если ничего не завести из вне, то ни не как его и не «интегрировать»… Вот весь его help:

vosk-tts --help
usage: vosk-tts [-h] [--model MODEL] [--list-models] [--list-languages] [--model-name MODEL_NAME] [--lang LANG] [--input INPUT] [--speaker SPEAKER]
                [--speech-rate SPEECH_RATE] [--output OUTPUT] [--log-level LOG_LEVEL]

Synthesize input

options:
  -h, --help            show this help message and exit
  --model, -m MODEL     model path
  --list-models         list available models
  --list-languages      list available languages
  --model-name, -n MODEL_NAME
                        select model by name
  --lang, -l LANG       select model by language
  --input, -i INPUT     input string
  --speaker, -s SPEAKER
                        speaker id for multispeaker model
  --speech-rate, -r SPEECH_RATE
                        speech rate of the synthesis
  --output, -o OUTPUT   optional output filename path
  --log-level LOG_LEVEL

ps На логичное «почему не piper-tts» — оно не устанавливается из-за ошибок с пакетами — это висит в гитхабе уже более года. И более года он не обновлялся вообще. Уже и через расширение Read Aloud для фф оно не работает…



Последнее исправление: luiswoo (всего исправлений: 2)

На логичное «почему не piper-tts» — оно не устанавливается из-за ошибок с пакетами

А скачать с https://github.com/rhasspy/piper/releases?

У меня работает:

$ echo "Привет, мир!" | ./piper --model voices/ru/ru_RU/irina/medium/ru_RU-irina-medium.onnx --output_file - | aplay

Может и в vosk-tts тоже будет работать --output -?

dataman ★★★★★
()
Последнее исправление: dataman (всего исправлений: 1)
Ответ на: комментарий от dataman

Цитата одного из авторов, насчёт echo:

Это плохая идея, слишком медленно. Нужно написать модуль вроде такого https://github.com/brailcom/speechd/blob/master/src/modules/pico.c

vosk-tts -i "привет мир" -n vosk-model-tts-ru-0.7-multi -s 2 --output - | aplay
INFO:root:Loading model from /home/user/.cache/vosk/vosk-model-tts-ru-0.7-multi
INFO:root:Text: привет мир
INFO:root:Phonemes: ['p', 'rj', 'i0', 'vj', 'e1', 't', ' ', 'mj', 'i1', 'r']
INFO:root:Real-time factor: 0.56 (infer=0.50 sec, audio=0.91 sec)
aplay: read_header:2964: read error

Насчет piper: не считаю хорошей идеей цепляться за некрософт (особенно установленный в обход ПМ) если есть какие-то приемлемые альтернативы, а они есть. С меня bomi плеера хватит.

luiswoo
() автор топика