LINUX.ORG.RU

Ситуация с распознаванием речи в Линуксе


0

0

Как бы это не было прискорбно, но, к сожалению, набор текста с распознаванием речи - это до сих пор больная тема в Линуксе. Наверное, не все помнят, что в операционной системе OS/2 от IBM, которая появилась более десяти лет назад, эта функция была уже встроена, и, как оказалось, корпорация Microsoft встроит эту возможность в Windows Vista. Самое грустное в этой истории это то, что ни IBM, ни компания Nuance, которая владеет системой распознавания речи Dragon, не желают переносить свои продукты под Линукс.

>>> Подробности

birdie, ты распи3дяй, хватит публику мутить всяким распознаванием, лучше иди улицу подмети ломом если так нравиться

anonymous
()
Ответ на: комментарий от Syncro

> ну главная проблема - это отличить site от sight например(анализ структуры предложения/контекста ?),

В свое вермя aist1 мне приводил пример, сравните два предложения: <<мне-же надо будет>> и <<мне жена добудет>>. И это еще достаточно простой пример.

sin_a ★★★★★
()
Ответ на: комментарий от sin_a

>В свое вермя aist1 мне приводил пример, сравните два предложения: <<мне-же надо будет>> и <<мне жена добудет>>. И это еще достаточно простой пример.

Велик и могуч ! :) Не вижу смысла в распознавании речи ... слова он всё равно не распознает ... вернее сможет но настраивать надо на каждого человека в отдельности .. а по буквам диктовать ...

robot12 ★★★★★
()
Ответ на: комментарий от sin_a

каков процент таких столкновений от всего текста? И каков процент текста усваивается при одном быстром прочтении? Я понимаю, что смысл может резко поменяться как в "казнить нельзя помиловать", но ведь радио мы слушаем без знаков пунктуаций без катастрофы, а устные лекции не несут меньше семантической информации чем книги со всеми их запятыми и даже разделёнными словами. Выходит - пунктуацция - эттотоллько траддицции блюдущие нашу возможность сделать grep.
Если же веб-культура будет продолжать вольно обращаться с языковыми правилами - то без преобразования символов в фонемы и обратно - не обойтись (при анализе текста) или в grep надо будет встраивать support vector machines :)
То-есть это к тому что читалка и распозновалка - это гораздо меньшая проблема чем классификация и анализ. А топик - про простую распознавалку (пусть пишет что слышит - как может - мы разберёмся), а не про SVM и machine learning (что уже другая задача имхо)

anonymous
()
Ответ на: комментарий от anonymous

... в случае же необходимости управления - то там всё равно - ограниченный набор команд и просто команды не будут выбираться похожими по звучанию. Где-же нужны разделители между не-коммандами-аргументами - то можно специально ввести спец-звук (явная тишина как между отдельными словами, можно притопнуть или прихлопнуть - если нравится) Короче - нет никакой проблемы

anonymous
()
Ответ на: комментарий от anonymous

> каков процент таких столкновений от всего текста?

В случае естественного текста, а не узкого набора команд, это будет достаточно часто.

> "казнить нельзя помиловать"

Запятая обозначается небольшой паузой, этот пример не совсем отсюда.

> а устные лекции не несут меньше семантической информации чем книги

Устныа речь распознается нашей нервной системой. Компьютеры .. причмокивая и ненагибаясь. А коллизии разрешаются контекстом, пониманием смысла. Когда компьютер начнет работать с текстом на уровне смысла - задача станет тривиальной.

sin_a ★★★★★
()
Ответ на: комментарий от anonymous

>Распозновалка нужна. Например для управления жпс из машины (руки типа заняты)

Не путайте вы распознавание и управление командами! Управление командами - есть и работает (хоть в телефонах). Распознавание - это перевод речи в осмысленный текст. С этим пока не очень дела обстоят, хотя, конечно, движение некоторое есть.

SySAlex
()
Ответ на: комментарий от anonymous

> А как следующая ситуация: Вы в пробке. Надо посмотреть какой путь > наименее загружен. Или выяснить - как доехать до улицы такой-то. > Грамматика может быть очень простой. Вначале команда, а потом - > аргументы ;)

Вы не поверите - в нормальных GPS-программах (в т.ч. для КПК) есть не только голосовые сообщения, но и распознавание голосовых команд.

Еще раз повторюсь - управление командами есть уже на всех платформах. Но это - не распознавание РЕЧИ!

SySAlex
()
Ответ на: комментарий от SySAlex

но улица (аргумент) - уже не команда! Её надо распознать и точно найти в списке улиц!

Причём как уже говорилось - есть коммерчесуие реализации делающие и такое распознавание.

anonymous
()
Ответ на: комментарий от anonymous

> А говорилка в линуксе (русская) есть?

IBM Viavoice. Только не уверен, что по-русски. :)

Skull ★★★★★
()
Ответ на: комментарий от SySAlex

я как-раз и пытаюсь сказать, что осмыслитель потом скушает что транслит, что неправильную пунктуацию, что написанный site вместо sight - это вторая задача. Это осмысление (разум).
Распознование же - преобразование из звуков в слова.
Слова можно подправить словарём (он - компактен, если даже есть контекст , пример - фразеологический словарь, т.е. мегабайтный хэш). Большие контексты пусть разбирает мыслитель (каждый индивидум - по-своему).

пошёл спать я, извиняюсь

anonymous
()
Ответ на: комментарий от mutronix

> Пока машины не воСстанут против людей - всё это жалкое зрелише, а не прогресс.

Когда машины всстанут - им речь человеческая нафиг не нужна будет. Будут общаться по протоколу типа Wi-Fi а ты будешь сидеть в глубоком бункере (шоб терминаторы не достали) и пытаться понять работу этого протокола :-)

anonymous
()
Ответ на: комментарий от anonymous

> Я так понимаю - эту задачу можно решить так (поправьте - кто >знает): 1) сделать FT, получив спектр; 2) найти соответствующий >известный спектр в базе (общие для любых произносящих спектры). Эта >задача классификации - может быть решена простой нейро-сетью; 3) >для каждого захардкоженного спектра - известен набор фонем и >постоить цепочку символов, которая пока - абракадабра (может >означать слово а может и фразу); 3) взяв как можно больший контекст >(но где слова явно разделены) - найти ему соответствующее слово или >фразу из словаря (задача классификации может быть решена и >нейро-сетью). Сложность здесь - могут встретиться незнакомые слова >которые отсутствуют в базе; Для фиксированной базы - всё проще. >Или всё гораздо сложнее?

Немного сложнее. Фонемы можено распознать по спектру, даже теми же нейросетями.

Затем используют цепи маркова, чтобы слепить из фонем буквы. Для каждой буквы есть соответсвующая цепь маркова. Выбирают ту цепочку, вероятность которой масимальна.

Затем используют таблицы вероятностей следования пар, троек, четверок и тд букв и маскимизируют их вероятность.

То же самое для слов в предложении.

Обучение осуществляется созданием прогаммой цепей маркова и таблиц вероятностей по заданному тексту и его произношению.

anonymous
()
Ответ на: комментарий от KRoN73

Там несколько по другому все работает.

Смарт записывает твою голосовую команду и просто сравнивает с тем что есть в базе...

catap ★★★★★
()

Вышла новая OPERA

А оно надо? Проги для аиндыв вроде есть. Видел 4-е года назад. Весело глючило. Кто реально пользовался этим в винде или полуоси? Хотя в определённых приложениях это используется, но по моему это реализуют на dsp процах и совсем на для desktop.

В общем ни чего мы не потеряет это отсутсвия этой фичи.

binr ★★
()

Я набираю со скоростью 360 символов в секунду. Речевой набор мне нужен, как рыбе зонтик.

anonymous
()
Ответ на: комментарий от anonymous

> _кем_ осмысленный?

Точно не тупыми (и потому скрывающими имя) анонимусами, пишущими всякие тупые "два словца" только ради того, чтобы вставить свое "я"...

SySAlex
()
Ответ на: комментарий от anonymous

> 360 символов в _секунду_

Офигеть...

eXOR ★★★★★
()
Ответ на: комментарий от anonymous

> Я набираю со скоростью 360 символов в секунду. Речевой набор мне нужен, как рыбе зонтик.

А я десять тысяч в день, зато осмысленные. :P

Evgueni ★★★★★
()
Ответ на: комментарий от klalafuda

>> А я десять тысяч в день, зато осмысленные. :P

>backspace считается за осмысленный символ? :)

нет - это читерство :)

Evgueni ★★★★★
()
Ответ на: комментарий от ugoday

Есть ещё одна бормоталка. Говорит хуже ru_tts, но для неё есть (в инете не найти) исходные коды. Когда-то я здесь предлагал занятся кому интересно её разработкой. Тогда, правда, появился занимающийся русскоязычной частью festival человек, и написал, что уже скоро festival заговорит по русски.

Никто не знает какой прогресс в этом деле?

AK

anonymous
()

- Здравствуй!
- Привет!
- Что это ты несешь?
- Несу разные вещи.
- Несуразные? Почему они несуразные-то?
- Сам ты несуразный, как я погляжу. Разные вещи я несу. Разные. Понял? Вот несу мел&#8230;
- Что не сумел?
- Отстань.
- Да ведь сам говоришь: "Не сумел". Что не сумел-то?
- Мел несу!!! Слушать надо. Несу мел Мишке. Ему же надо будет.
- Ну, если ему жена добудет, так зачем же ты несешь?
- Какая жена? Это у Мишки-то жена?! А ты шутник. Я сказал: "Ему же надо будет". Понадобится значит.
- Вот оно что&#8230;
- А еще новость у меня для Мишки приятная: нашлась та марка, которую он давно ищет.
- Тамарка?
- Ага.
- И ничего, симпатичная?
- Красивая! Зеленая такая.
- То есть как?
- Зеленого цвета.
- Постой, постой&#8230; Это что же: у нее волосы, что ли, зеленые?
- У кого волосы?
- Да у Тамарки-то.
- Что-о?!
- Ну ты же сам сказал: "Нашлась Тамарка"&#8230;
- Та! Марка! Марка, понимаешь? Та самая, которую Мишка давно ищет. Понял? Зеленая такая&#8230; Там арка нарисована.
- Ага, все-таки нарисована Тамарка, да? Так бы и говорил.
- Да отстань ты со своей Тамаркой, бестолковая голова! Там арка нарисована! Арка! Неужели ты даже этого не можешь понять? Прощай, некогда мне.
- Пока. Смотри, не растеряй свои несуразные вещи.
- А ну тебя&#8230;
- Да! Стой, стой!
- Ну, что еще?
- Привет передавай.
- Кому?
- Известно кому: Тамарке, Мишке и Мишкиной жене.

anonymous
()
Ответ на: комментарий от anonymous

>Я набираю со скоростью 360 символов в секунду.

Такая фигня получается (С)

Stranger_1100
()

А помоему чисто программных реализаций распознования речи не существует(покрайней мери не ввиде коммерческого продукта для PC)... Тот же Dragon, разработки IBM и MS в этом направлении смешны и дальше разпознования коротких голосовых команд из 1-2 слов(причем заранее проговоренных:)) негодятся.

TheMixa ★★★
()
Ответ на: комментарий от anonymous

Распознавание речи нужно не для речевого набора, а для преобразования звука в текст.

Например, журналистам, чтобы распознать интервью с диктофона. Текст, который пойдет в газету или журнал, конечно, будет написан самим журналистом по мотивам звукового интервью. Но иметь, пусть корявый, текстовый исходник перед глазами, удобнее, чем туда-сюда прокручивать звуковой файл.

zaregazza
()

OS/2 да да.. помню эту систему...

MiracleMan ★★★★★
()
Ответ на: комментарий от anonymous

похоже на бред

нет однозначного соответствия между буквами и звуками. даже приблизительного

cvv ★★★★★
()
Ответ на: комментарий от robot12

>В свое вермя aist1 мне приводил пример, сравните два предложения: <<мне-же надо будет>> и <<мне жена добудет>>. И это еще достаточно простой пример.

в этом месте для распознавалок проблем не будет, например звуки "же" в приведённых примерах с точки зрения распознавалок не имеют между собой ничего общего, хотя и запечатлеваются при письме той же комбинацией букв. тоже самое касается звуков "на" и "до".

cvv ★★★★★
()
Ответ на: комментарий от cvv

Скорее всего это сильно зависит от дикции. Опять-же вспомним про речь с "кашей во рту", человек ее достаточно сносно распознает, а это достаточно распространенное явление.

sin_a ★★★★★
()
Ответ на: комментарий от sin_a

Это ни от чего не зависит. Это - азы фонетики

наиболее проблемный момент в распознавании речи - практически полная декорреляция между звуками(фонемами) и соответствующими им буквами при письме

cvv ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.