Голосовой ассистент. Что доступно?

4

9

Не всегда есть возможность трогать клавиатуру и мышь (руки в масле\пыли\стружке). Нужен голосовой ассистент, который:

* Может быть активен в фоне, слушая команды и активируясь по заданному слову\фразе
* Иметь возможность выполнить кастомно заданную команду (типа «активируй узел 1443», где «активируй узел» выполнит скрипт node.sh, а 1443 пойдет в параметр.
* Работать автономно от сети. Хранилище для настроенного локального анализатора можно выделить до 100 ГБ.
* Давать аудиоподтверждение принятой команды (не всегда есть возможность посмотреть на экран).

Если надо будет долго обучать под распознавание своего голоса - норм.

Что есть из доступного? Если опенсорс - еще лучше.

В теги добавляю пистон, обычно по этим вопросам его долбят.

Ссылка

←	heads os загрузочная флэшка

После установки Debian 10 не запускается DE

→

← 1 2 →

Ответ на: комментарий от Strangeman 22.12.19 19:47:25 MSK

Есть легче?

Да я вообще альтернатив то не знаю. Так что хз.

anonymous
(22.12.19 19:48:59 MSK)

Ссылка

Ответ на: комментарий от Strangeman 22.12.19 03:33:34 MSK

А здесь какое-то колдунство!

Файл

./cvoicecontrol/mixer.c

строка 224

devices->name = malloc(sizeof ("mixer"));

тут и падает… какого черта? о_О

но , блин, если я вписываю следующей строкой проверку

devices->name = malloc(sizeof ("mixer"));
if(! devices->name) printf("err!\n");

оно ошибки не выдает, а тупо запускается!


Я даже не знаю как это так... это против правил... вот дак хрень... пошел спать...

anonymous
(23.12.19 01:02:14 MSK)

Если устроит библиотека и не боишься написать полсотни строк кода, то тебе нужен pocketsphinx. Штука простая, пробовал с английским.

t184256 ★★★★★
(23.12.19 01:12:54 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.12.19 01:02:14 MSK

if(! devices->name)

Какая то оптимизация в твоём компиляторе берёт на сабя слишком много, if её останавливает.

anonymous
(23.12.19 06:26:26 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.12.19 01:02:14 MSK

if(! devices->name)

Попробуй так же обратный вариант:

if(devices->name)
{
    ...
}

anonymous
(23.12.19 06:29:12 MSK)

Ответ на: комментарий от anonymous 23.12.19 06:29:12 MSK

Попробовал

if( devices->name) printf("ok!\n");

все работает

Более того, даже просто без проверки

 printf("ok!\n");

не падает и запускается…

Видимо задачка для олимпиады по программированию…

anonymous
(23.12.19 10:14:08 MSK)

Ответ на: комментарий от anonymous 23.12.19 10:14:08 MSK

Более того, даже просто без проверки

Не совсем. Это связано с комбинацией malloc+glob. Уже не первый раз натыкаюсь на «чудеса» при оптимизации.

anonymous
(23.12.19 12:01:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.12.19 10:14:08 MSK

не падает и запускается…

0.9.1

https://github.com/Sound-Linux-More/cvoicecontrol/releases

anonymous
(23.12.19 19:09:25 MSK)

Ответ на: комментарий от anonymous 23.12.19 19:09:25 MSK

отлично!

собитается и запускается «из коробки» :)

anonymous
(24.12.19 00:15:37 MSK)

Ответ на: комментарий от anonymous 24.12.19 00:15:37 MSK

Действительно, все заработало и это очень радует. Теперь вопрос, как прикрутить Кириллицу в команды?

Strangeman
(31.12.19 18:46:30 MSK)

Ответ на: комментарий от Strangeman 31.12.19 18:46:30 MSK

как прикрутить Кириллицу в команды?

Чего? Нахрена её прикручивать?

anonymous
(31.12.19 18:48:18 MSK)

Ответ на: комментарий от anonymous 31.12.19 18:48:18 MSK

Почему бы нет? Ну да хрен с ним, можно и без этого обойтись. Время сэмпла ограничено? При попытке записать фразу из нескольких слов пишется только конец.

Strangeman
(31.12.19 19:04:39 MSK)

Ответ на: комментарий от Strangeman 31.12.19 19:04:39 MSK

Время сэмпла ограничено?

Пока ковырял, никаких ограничений не встречал. Мож пропустил? Хз.

anonymous
(31.12.19 19:09:31 MSK)

Ссылка

Ответ на: комментарий от Strangeman 31.12.19 18:46:30 MSK

Мда… Как бы заработало, более того, при первом запуске почти исправно отрабатывало одну команду. Почти потому, что много ложных срабатываний. Но что-то пошло не так - с какого-то момента по непонятной причине вис после отработки команды. Т.е. первый раз срабатывает, после нет и курсор перестает моргать. Действительно с лёгкостью я погорячился - грузит одно ядро на 90%.

Strangeman
(31.12.19 21:10:10 MSK)

Ответ на: комментарий от Strangeman 31.12.19 21:10:10 MSK

грузит одно ядро на 90%.

И с распараллеливанием тоже лучше не играться. Я просто не представляю, как будет разруливаться доступ к /dev-ам при параллельном исполнении.

anonymous
(31.12.19 21:18:42 MSK)

Ссылка

Ответ на: комментарий от Strangeman 31.12.19 21:10:10 MSK

с лёгкостью я погорячился

Была идея пользовать dct (то бишь vorbis). Это вроде позволит сократить объем распознаваемых данных. Но здесь курить и курить не по-детски.

anonymous
(31.12.19 21:22:21 MSK)

Ответ на: комментарий от Strangeman 31.12.19 21:10:10 MSK

По-уму, он должен незначительно грузить одно ядро в idle state, и заметно нагружать лишь при повышении уровня сигнала выше «Silence Level». Попробуй Silence Level и Stop Level в config увеличить, может он пытается распознать всё подряд.

Я всё-же наверно потихоньку перепилю его под ALSA - https://github.com/stanson-ch/cvoicecontrol Вроде даже уже шевелится, кроме того всякие опции добавляю, для отладки verbose и пр. Пока для «искаробочного» пользования не готов, но если не терпится, то поддержка ALSA там в общем-то уже добавлена, правда без бубна будет default девайс использовать. По-хорошему, там дофига чего можно оптимизировать, а если вообще весь матан в GPU (OpenCL, например) вынести, то жрать процессор вообще не будет.

На самом деле, очень простая штуковина, и метод распознавания простой как 3 копейки - просто находит кратчайший вектор (по умолчанию - 16-тимерный) от сказанной команды до образцов в процессе dynamic time warping. Киллер-фича - оно реагирует только на твой голос, а не на всех подряд, как все эти модные облачные AI распознавалки.

Stanson ★★★★★
(31.12.19 22:02:10 MSK)
Последнее исправление: Stanson 31.12.19 22:05:10 MSK (всего исправлений: 1)

Ответ на: комментарий от Stanson 31.12.19 22:02:10 MSK

потихоньку перепилю его под ALSA

Ты еще от goto не избавился (https://github.com/stanson-ch/cvoicecontrol/search?q=goto&unscoped_q=goto), так что тебе ещё копать и копать. Но желаю удачи в добром пути.

anonymous
(31.12.19 22:15:36 MSK)

Ответ на: комментарий от anonymous 31.12.19 21:22:21 MSK

Была идея пользовать dct (то бишь vorbis). Это вроде позволит сократить объем распознаваемых данных.

Не получится. Там FFT и всё такое, а сжатие всё попортит. Кроме того, там wav сохраняется чисто для приличия, на самом деле для распознавания используются feature vectors для каждого фрейма полученные посредством FFT из аудиосигнала. Один фрейм (256 signed short) даёт 16 float. Так что там и так уже всё пожатое.

Stanson ★★★★★
(31.12.19 22:21:23 MSK)

Ответ на: комментарий от anonymous 31.12.19 22:15:36 MSK

Ты еще от goto не избавился

А я и не собираюсь от них избавляться. Более того, я уже добавил несколько и ещё добавлю по необходимости. Не вижу вообще ничего плохого ни в goto, ни в switch. Не нравится - флаг в руки, барабан на шею, сырцы есть, никто не запрещает запилить так, как хочется, да хоть на расте с го переписывай.

Stanson ★★★★★
(31.12.19 22:24:27 MSK)
Последнее исправление: Stanson 31.12.19 22:25:21 MSK (всего исправлений: 1)

Ответ на: комментарий от Stanson 31.12.19 22:21:23 MSK

Один фрейм (256 signed short) даёт 16 float.

= 88kbps. Для речи многовато. Хотелось бы поменьше.

anonymous
(31.12.19 22:25:37 MSK)

Ответ на: комментарий от anonymous 31.12.19 22:25:37 MSK

Для речи многовато. Хотелось бы поменьше.

А это не для минимального размера, это для распознавания.

Можно сделать меньше, передя на 8bit/8000kHz, но точность пострадает.

Stanson ★★★★★
(31.12.19 22:29:08 MSK)

Ответ на: комментарий от Stanson 31.12.19 22:24:27 MSK

Не вижу вообще ничего плохого ни в goto, ни в switch

Твоя правда. А мне не нравится. «В глазах раздваивается» от этих goto.

anonymous
(31.12.19 22:29:22 MSK)

Ответ на: комментарий от anonymous 31.12.19 22:29:22 MSK

А мне не нравится когда много вложенных if. Вкусовщина, ибо на выходе всё равно одно и то же получится. :)

Stanson ★★★★★
(31.12.19 22:31:17 MSK)

Ссылка

Ответ на: комментарий от Stanson 31.12.19 22:29:08 MSK

А это не для минимального размера, это для распознавания.

Так я о том и говорю. Что данных для распознавания многовато, а их значения маловато. Вопрос нагрузки же.

anonymous
(31.12.19 22:31:30 MSK)

Ссылка

Ответ на: комментарий от Stanson 31.12.19 22:29:08 MSK

передя на 8bit/8000kHz

Пробовал подобную дискретизацию. Не оправдывает себя ни по нагрузке, ни по «цена/качество».

anonymous
(31.12.19 22:36:31 MSK)

Ссылка

Ответ на: комментарий от Strangeman 31.12.19 19:04:39 MSK

Время сэмпла ограничено?

Таки да. Есть ограничение: https://github.com/Sound-Linux-More/cvoicecontrol/blob/28214850f4fd27aaf91de78ad9df16b69ac56765/src/audio.h#L45-L46

anonymous
(01.01.20 13:18:56 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	heads os загрузочная флэшка

General

После установки Debian 10 не запускается DE

→

Похожие темы