Распознавание русской речи в поточном режиме

1

4

Есть поток звука (моно или стерео, 44.1khz), иногда в нем бывает речь на русском языке. Концентрация речи - от 3-4 в час до 5 часовых лекций разными голосами. Именно поток, а не записи, потому алгоритм нужен реалтаймовый. Отсюда 2 задачи:

1. определить наличие речи (скипая музыку)

2. по возможности выжать что-то похожее на текст или хотя бы отдельные звуки, т.е. «молоко» как «мольёко» впринципе устроит.

Пытался искать библиотеки, но зачастую нарываюсь только на Voice Activation или системы телефонии.

Ссылка

←	Bash скрипт нужна помощь

Чем отличается [\S\D] от [^\s\d]?

→

← 1 2 →

бесплатно и даже за дешево - не будет

lazyklimm ★★★★★
(05.04.15 21:02:17 MSK)

Ответ на: комментарий от lazyklimm 05.04.15 21:02:17 MSK

бесплатно и даже за дешево - не будет

возможно для английского

dimon555 ★★★★★
(05.04.15 21:20:29 MSK)

Как человек, съевший собаку в этой теме, авторитетно заявляю: нет ничего хуже, чем распознавать славянскую речь.

slyjoeh ★★★
(05.04.15 22:06:31 MSK)

Ответ на: комментарий от slyjoeh 05.04.15 22:06:31 MSK

Хорошо что китайскую проще ;)

I-Love-Microsoft ★★★★★
(06.04.15 00:41:15 MSK)

Ответ на: комментарий от I-Love-Microsoft 06.04.15 00:41:15 MSK

Проще

slyjoeh ★★★
(06.04.15 00:55:52 MSK)

Ответ на: комментарий от dimon555 05.04.15 21:20:29 MSK

а теперь читай название темы :)

lazyklimm ★★★★★
(06.04.15 01:04:35 MSK)

Ссылка

Ответ на: комментарий от slyjoeh 06.04.15 00:55:52 MSK

Ни в коем случае не настаиваю на ответе, но если можно в двух словах - почему проще?

I-Love-Microsoft ★★★★★
(06.04.15 01:05:40 MSK)

Ссылка

Ответ на: комментарий от slyjoeh 06.04.15 00:55:52 MSK

Уверен? правда интересно. Судя по словам изучающих китайский язык(да и все азиатские родственные) там очень сложное произношение.

LiBer ★★★
(06.04.15 01:28:10 MSK)

Ответ на: комментарий от LiBer 06.04.15 01:28:10 MSK

Судя по словам изучающих китайский язык(да и все азиатские родственные) там очень сложное произношение.

Да, программы, обученные русскому языку, тоже очень плохо распознают китайскую речь. Программы, обученные китайскому языку, справляются гораздо лучше.

proud_anon ★★★★★
(06.04.15 01:33:20 MSK)

Ответ на: комментарий от proud_anon 06.04.15 01:33:20 MSK

Мысль понятна, но всё же речь не только и не столько о субъективных ощущениях, а скорее об объективных сложностях, различные иероглифы могут почти не отличаться в звучании и при этом быть очень короткими.

LiBer ★★★
(06.04.15 01:37:58 MSK)

Ссылка

Ответ на: комментарий от LiBer 06.04.15 01:28:10 MSK

Для человека сложное, комп как-нить справится :)

В китайском грамматика примитивная, порядок слов в предложениях стандартный, так что в этом плане проще

Harald ★★★★★
(06.04.15 03:08:57 MSK)

Ответ на: комментарий от Harald 06.04.15 03:08:57 MSK

интересно, может на нем и читать можно научиться за приемлемое количество времени? Думаю полезный навык в современном мире.

LiBer ★★★
(06.04.15 03:11:12 MSK)

Ответ на: комментарий от LiBer 06.04.15 03:11:12 MSK

ну главная проблема где-то около 1000 иероглифов запомнить и в голове держать, чтоб на каждый второй в словарь не лезть :)

Harald ★★★★★
(06.04.15 03:12:53 MSK)

Ответ на: комментарий от Harald 06.04.15 03:12:53 MSK

хм, ну 1000 это выполнимо, но сначала нужно английский до отличного довести :)

LiBer ★★★
(06.04.15 03:14:49 MSK)

Ссылка

Ответ на: комментарий от slyjoeh 05.04.15 22:06:31 MSK

Тсу надо просто детектировать для начала. ИМХО достаточно АЧХ распарсить. Не?

emulek ★
(06.04.15 13:44:20 MSK)

Ответ на: комментарий от LiBer 06.04.15 03:11:12 MSK

интересно, может на нем и читать можно научиться за приемлемое количество времени?

Технические тексты — не проблема. А вот всё околохудожественное или по чужой тематике — очень они любят писать в стиле: «кашу маслом не испортишь — в KDE добавили новых функций, что облы, озорны и стозевны». Плюс, отсутствие деления на слова — получаем ребус.

monk ★★★★★
(06.04.15 14:32:58 MSK)

Ссылка

Ответ на: комментарий от LiBer 06.04.15 03:11:12 MSK

Думаю полезный навык в современном мире.

Хочешь работать в подвале по 16 часов в день за миску риса?

anonymous
(06.04.15 14:37:15 MSK)

Ответ на: комментарий от emulek 06.04.15 13:44:20 MSK

А как «отделять от песен»?

feofan ★★★★★
(06.04.15 14:46:08 MSK)

Ответ на: комментарий от feofan 06.04.15 14:46:08 MSK

Анализатором темпа (бита), если не нашел, значит не музыка.

deep-purple ★★★★★
(06.04.15 14:53:19 MSK)

Ответ на: комментарий от deep-purple 06.04.15 14:53:19 MSK

А если музыка играет в фоне, и есть речь?

feofan ★★★★★
(06.04.15 15:00:27 MSK)

Ответ на: комментарий от feofan 06.04.15 15:00:27 MSK

антиминусовочка (:

anonymous
(06.04.15 15:10:23 MSK)

Ответ на: комментарий от feofan 06.04.15 15:00:27 MSK

Noise gate

deep-purple ★★★★★
(06.04.15 15:31:18 MSK)

1. анализ БПФ
2. кроме гугола, пожалуй, никто так не умеет...

~~Eddy_Em~~ ☆☆☆☆☆
(06.04.15 15:39:43 MSK)

Ответ на: комментарий от deep-purple 06.04.15 15:31:18 MSK

С несколькими микрофонами?

feofan ★★★★★
(06.04.15 16:40:50 MSK)

Ответ на: комментарий от anonymous 06.04.15 15:10:23 MSK

А как ты собрался речь от слов песни отделять?

feofan ★★★★★
(06.04.15 16:45:59 MSK)

Ссылка

Ответ на: комментарий от feofan 06.04.15 16:40:50 MSK

Зачем? У тебя есь одна дорожка, уже смиксованная. Ожидая музыку в фоне (предполагаемо где-то -12db, относительно голоса в +0db), голос обычно быстро меняется по амплитуде, можно повесить гейт с этим порогом срабатывания и выставить малые атаку и спад-релиз. Голос выцепит болемене. Ессно нужно тестировать и подбирать значения.

deep-purple ★★★★★
(06.04.15 17:26:53 MSK)

Ответ на: комментарий от deep-purple 06.04.15 17:26:53 MSK

А если у тебя не будет разницы между голосом и фоном в 12 децибел? А если фоновая музыка вообще будет громче?

feofan ★★★★★
(06.04.15 17:36:08 MSK)

Ответ на: комментарий от feofan 06.04.15 17:36:08 MSK

На данном этапе — это проблема исходных данных. Вообще можно дальше думать, например — изначально прогнать через фильтры спектра, а уже потом чесать гейтом, всеравно им чесать придется, т.к. тишину можно/нужно пропускать, ибо незачем гонять анализ речи на не корректных данных. Да, то понятно, что фильтры могут и ошибиться, но некоторую часть какашек они все-же отбросят.

Я представляю это примерно так:

source -> normalize -> filters -> normalize -> gate -> analyse

deep-purple ★★★★★
(06.04.15 17:41:15 MSK)
Последнее исправление: deep-purple 06.04.15 17:43:41 MSK (всего исправлений: 1)

Ответ на: комментарий от deep-purple 06.04.15 17:41:15 MSK

В принципе со схемой согласен, но я бы еще добавил активное шумоподавление с использованием, например, трех микрофонов и удалением одинакового сигнала (ака фона).

Схема усложняется, но надежность растет.

feofan ★★★★★
(06.04.15 17:46:51 MSK)
Последнее исправление: feofan 06.04.15 17:47:46 MSK (всего исправлений: 1)

Ответ на: комментарий от Eddy_Em 06.04.15 15:39:43 MSK

Распознаванием речи сейчас только ленивый не занимается. Кроме гугла есть еще M$, Apple, yandex и, например, Nuance.

feofan ★★★★★
(06.04.15 17:50:29 MSK)

Ответ на: комментарий от feofan 06.04.15 17:50:29 MSK

Но таки до сих пор ни одного более-менее работающего свободного решения нет.

~~Eddy_Em~~ ☆☆☆☆☆
(06.04.15 17:53:48 MSK)

Ответ на: комментарий от Eddy_Em 06.04.15 17:53:48 MSK

А ты напиши — будет ))

deep-purple ★★★★★
(06.04.15 17:57:03 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 06.04.15 17:53:48 MSK

Ты сфинкс щупал? Его хвалили, но русской модели не было. Сейчас посмотрел - есть русская модель от 29 марта 2015 года.

feofan ★★★★★
(06.04.15 17:59:02 MSK)

Ссылка

Ответ на: комментарий от feofan 06.04.15 17:46:51 MSK

трех микрофонов

Да, но у нас их нет изначально в условиях задачи, а есть только одна дорожка. Кстати если их две (стерео), то уже проще — есть на что опереться для твоего варианта.

deep-purple ★★★★★
(06.04.15 17:59:41 MSK)

Ответ на: комментарий от anonymous 06.04.15 14:37:15 MSK

Как ни печально это признавать, но китайская цивилизация так или иначе впереди планеты всей(тайвань, сингапур, кнр...) у них, конечно, свои проблемы, но чисто количеством они способны генерировать больше полезного контента чем условные «мы».

LiBer ★★★
(06.04.15 18:01:07 MSK)

Ответ на: комментарий от deep-purple 06.04.15 17:59:41 MSK

Согласен, стерео уже лучше, чем моно.

feofan ★★★★★
(06.04.15 18:04:01 MSK)

Ссылка

Ответ на: комментарий от LiBer 06.04.15 18:01:07 MSK

Это в какой отрасли народного хозяйства? В рамках моих профессиональных интересов практически весь уникальный контент на англиийском. Еще встречается немецкий, но реже. Другие европейские языки еще реже. Китайский исчезающе редко является источником уникального контента. Но один такой случай был, да. Google translate выручил тогда.

feofan ★★★★★
(06.04.15 18:07:54 MSK)

Ссылка

Ответ на: комментарий от LiBer 06.04.15 18:01:07 MSK

Это че за полезный контент? Одежда Abibas и токсичные игрушки для детей?

anonymous
(06.04.15 18:40:53 MSK)

Ответ на: комментарий от anonymous 06.04.15 18:40:53 MSK

Huawei has over 140,000 employees, around 46% of whom are engaged in research and development (R&D)
и это только одна компания(тут учитываются не только китайские сотрудники, но даже если только половина китайцы, то всё равно много. А где исследования и разработки, там и полезный контент в паблике, но возможно только на китайском.

LiBer ★★★
(06.04.15 19:12:19 MSK)

Программа передач?

Allakka ★★★★
(06.04.15 19:21:43 MSK)

Ссылка

Ответ на: комментарий от LiBer 06.04.15 19:12:19 MSK

Тут уже роботы по улицам разгуливают, люди колонизируют Марс в прямом эфире, а ты про какую-то вороватую компашку на рабском труде.

anonymous
(06.04.15 23:25:25 MSK)

Ответ на: комментарий от anonymous 06.04.15 23:25:25 MSK

Может это, в один прекрасный день китайцам надоест переводить даташиты на английский, скажут типа, учите нашу мову, всё равно вся электроника у нас производится :)

Harald ★★★★★
(06.04.15 23:33:08 MSK)

Ответ на: комментарий от LiBer 06.04.15 19:12:19 MSK

It has 21 R&D institutes in countries including China, the United States,[10] Canada,[11] UK,[12] Pakistan, France, Belgium, Germany, Colombia, Sweden, Ireland, India, Russia, and Turkey

Нет никаких сомнений, что все исследователи готовят полезный контент в паблике только на китайском, ведь это очень удобно для глобальной компании, больше половины r&d центров которой находятся вне Китая и 2/3 своей выручки получающей тоже не из поднебесной.

aedeph_ ★★
(06.04.15 23:41:14 MSK)

Ответ на: комментарий от aedeph_ 06.04.15 23:41:14 MSK

ну так это же только верхушка, кроме того китайские компании очень китайские, даже международные. Огромное количество компаний сосредоточено на внутренний рынок и плевать хотели на европейские языки.

LiBer ★★★
(06.04.15 23:46:53 MSK)

Ответ на: комментарий от LiBer 06.04.15 23:46:53 MSK

Кого волнуют биороботы, они «полезный контент в паблике» уж точно не производят.

Огромное количество шараг сосредоточено на внутренний рынок и плевать хотели на европейские языки.

Починил. Неясно правда, зачем ты привёл в пример Huawei, который как раз наоборот вполне успешно последние 15 лет свою зависимость от китайского рынка уменьшает.

aedeph_ ★★
(06.04.15 23:51:35 MSK)

Ответ на: комментарий от Harald 06.04.15 23:33:08 MSK

Тем быстрее этих оборванцев заменят на роботов.

anonymous
(06.04.15 23:51:59 MSK)

Ответ на: комментарий от Harald 06.04.15 23:33:08 MSK

Манямирок такой манямирок.

aedeph_ ★★
(06.04.15 23:52:26 MSK)

Ссылка

Ответ на: комментарий от anonymous 06.04.15 23:51:59 MSK

А роботов кто и где производить будет?

Harald ★★★★★
(06.04.15 23:54:23 MSK)

Ответ на: комментарий от Harald 06.04.15 23:54:23 MSK

Они уже есть, но дешевый хлам пока выгоднее оборванцами собирать.

anonymous
(06.04.15 23:57:06 MSK)

Ссылка

Ответ на: комментарий от aedeph_ 06.04.15 23:51:35 MSK

да, пример странный, объясняется легко, первая китайская компания, которую вспомнил, оказалась упорно добивающаяся успехов на внешних рынках.
Ну это очень категоричное отношение, советую съездить в Китай, посмотреть, возможно пообщаться, хотя без знания Китайского это будет зачастую не просто.

LiBer ★★★
(07.04.15 00:06:29 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Bash скрипт нужна помощь

Development

Чем отличается [\S\D] от [^\s\d]?

→

Похожие темы