Вопросы по nerd-dictation. Риторические?

0

2

В поисках оффлайн STT-транскрибатора для десктопа, я на неделе наткнулся на nerd-dictation https://github.com/ideasman42/nerd-dictation

Хоть он, как и все студенческие поделки, на тормозном питоне, но хоть с зависимостями у него попроще. И нет всякой бесполезной чухни, как у «сурьёзных» голосовых помощников, вроде заказа пиццы онлайн в какой-то амерской пицерии.

Вобщем есть парочка вопросов, может кто подскажет:

1. Транскрибация происходит с задержкой секунд в 10! Перепробовал разные комбинации input и input-tool. Работоспособными показались только приведенные ниже. Почему оно не начинает транскрибировать-то сразу? Проклятый pip ищет обновления?

2. Как подключить одновременно несколько словарей. Я могу сделать два алиаса, для рус и нагл языков, но хочу чтобы был один. По-дефолту, словари в nerd-dictation/model должны быть прямо расспакованы из своих родных «vosk-model-LANG-VER», иначе он их не видит.

3. Команды для управления компытором. Алгоритм вижу так: должен быть список ключевых голосовых фраз и соответствующих им CLI-комманд, выполняемых в отдельном скрытом экземпляре терминала. Как такое запилить?

Запускаю на Manjaro 6.1, zram 2Gb, wayland, pipewire.

nerd-dictation begin  --input=PAREC --simulate-input-tool=WTYPE

Ссылка

Похожие темы