LINUX.ORG.RU

Ситуация с распознаванием речи в Линуксе


0

0

Как бы это не было прискорбно, но, к сожалению, набор текста с распознаванием речи - это до сих пор больная тема в Линуксе. Наверное, не все помнят, что в операционной системе OS/2 от IBM, которая появилась более десяти лет назад, эта функция была уже встроена, и, как оказалось, корпорация Microsoft встроит эту возможность в Windows Vista. Самое грустное в этой истории это то, что ни IBM, ни компания Nuance, которая владеет системой распознавания речи Dragon, не желают переносить свои продукты под Линукс.

>>> Подробности

В венде оно вообще давно (в XP точно есть, вроде даже встроено) - только никому не нужно ;)

AiLr ★★
()

А нужно ли оно вообще, распознование речи? С таким низким КПД то... руками всяко и быстрее, и удобнее получается...

Ramen ★★★★
()
Ответ на: комментарий от AiLr

>В венде оно вообще давно (в XP точно есть, вроде даже встроено) - только никому не нужно ;)

Врешь косой, в винде есть только синтез, а с распознованием такая же херня, что и в линуксе, конечно когда-то во времена Win95 и PII-350 был Dragon Dictate... но толку от него было не очень много.

anonymous
()

На это распознавание положили уже давно, лишь отдельные конторы пытаются пеариться всякими "аппаратными ускорительями распознавания" и всем в этом роде. А ответ прост - хорошо вышколенная секретарша заменяет могучий кластер упичканный подобным софтом.

Gharik
()
Ответ на: комментарий от AiLr

Это не то. Сие умеет, насколько помню, только голосовое управление (и то отвратительно). Конвертить же речь в текст оно не может.

Да и вообще, с распознованием русской речи ситуация одинакова что в линухе, что в венде, что в досе, да хоть что в менует-оси :)

Ramen ★★★★
()
Ответ на: комментарий от AiLr

В венде есть Speech SDK, такой ужоснах, что ни приведи Аллах тебе его поставить. Он еще какой-то дополнительный голос в венду инсталлирует, напоминает "отрыжка из колонок в исполнении женщин и роботов".

Gharik
()

> как оказалось, корпорация Microsoft встроит эту возможность в Windows Vista

Обычно слова "как оказалось" употребляют по отношению к уже _прошедшим_ фактам. Мекрасовд в своём духе :)

pv4 ★★
()
Ответ на: комментарий от Ramen

> А нужно ли оно вообще, распознование речи? С таким низким КПД то... руками всяко и быстрее, и удобнее получается...

Ещё под виндой был когда пробовал эту фичу - мышкой быстрее, однозначно :)

los_nikos ★★★★★
()
Ответ на: комментарий от los_nikos

А вот, что удивительно, на смартфоне оно работает замечательно. Не буквальное распознавание, конечно, а голосовые метки. Хоть на номер телефона, хоть на ярлык программы.

Весьма удобно запускать часто используемые утилиты, чем добираться до них в несколько кликов.

Не отказался бы от такой фигни на десктопе.

KRoN73 ★★★★★
()
Ответ на: комментарий от Ramen

Распозновалка нужна. Например для управления жпс из машины (руки типа заняты)

А говорилка в линуксе (русская) есть?
Я хочу не тратя время прослушивать почту, новости прямо в машине, в пробках.
Пропарсить страничку не проблема. Надо нормалную читалку.

Anode

anonymous
()

> корпорация Microsoft встроит эту возможность в Windows Vista

Хе-хе. Ну мс никогда ничего толком нового сделать не могла. Обычно только стыренные вещи у них получаются хорошо.

Но вот ходят слухи, что новые iPod'ы будут с голосовым интерфейсом. Интересно будет посмотреть, смогут ли в Apple довести это до юзабельного состояния.

Cris
()
Ответ на: комментарий от anonymous

типа откриваешь лор и управляешь голосовыми командами: некст, некст, ап, некст (ну, можно и по-русски:)

anonymous
()
Ответ на: комментарий от schumen

Да, похоже на всех трубках Nokia работает на ура. Даже интонацию можно менять вызывая по метке - понимает в 90% случаев.

los_nikos ★★★★★
()

Вот в Mac OS X 10.4 Tiger у меня на MacBook Pro распознавание работает очень неплохо! Хотя фун-ия, чесно говоря мало востребованная.

dukenukem
()
Ответ на: комментарий от Metallic

а пробовали собирать его последними версиями gcc? У меня не получалось.

anonymous-III
()

С распознаванием речи в Линуксе плохо.

Говорят много, толку мало, еще меньше понимаю о чем говорят.

Бяда...

anonymous
()
Ответ на: комментарий от los_nikos

У телефонов упрощенная ситуация - трубка фиксирована (и близко) к источнику звука. Стоит чуть изменить и начинаются обнимки с монитором или микрофоном.

anonymous
()

AFAIK IBM выпускала Voice SDK под Linux, даже новость на LOR проскакивала, не знаю только для распознавания или произношения он.

saper ★★★★★
()
Ответ на: комментарий от schumen

>Почему на сматрфоне, на дешевой и древней Nokia-3410 распознавание голосовых меток тоже работает на ура.

У меня на 6310 - тоже. На смартфоне прикол в запуске программ :) "ЧИТАЛКА" - и у тебя книжка открыта. "МУЗЫКА" - запустился плеер :)

KRoN73 ★★★★★
()

Это не проблема Linux, это вообще проблема. Полноценно это еще не сделано не в одной ОС.

anonymous
()

Была такая байка: в одной конторе внедрили софт для управления голосовыми командами. И вот сидит в одной комнате ч-к 10, вдруг вбегает некий крендель громким и чётким голосом объявляет - "Выключить компьютер", все 10 компов отрубаются. Немая сцена.

достоверность еснно под сомнением, но очевидно что команды для управления компом - не юзабельны. Другое дело для какого-нибудь skype или google talk - распознавание речи самое то, допустим делаешь ты звонок по IP телефонии - а оно тебе на экран контекстный банер выводит ...

Кстати есть такая тема, что американцы ещё в период холодной войны, на территории Германие построили базу на которой перехватывали (и перехватывают) все разговоры, как через радио эфир, так и через кабели. И мол специальным фильтром это проходят и отбирают информацию которую используют в комерческих целях. И немцы их типа "попросили", мол холодная война закончилась. Но всё спустили на тормозах, за обещание делиться. Вроде по дискавери это видел.

vyv ★★★
()
Ответ на: комментарий от neksa

Зачем на Win, у нас и свои распознавалки есть, тот же sphinx. Кстати, для sphinx3 есть даже русская база.

welkam ★★
()
Ответ на: комментарий от anonymous

мне показывали ibm'овский коммерческий продукт, дык там было всё лучше (гораздо лучше чем показано на ролике). Повторять иногда приходилось, но в целом - получалось управлять программой голосом.

Вроде у AT&T тоже были библиотеки.

Я так понимаю - эту задачу можно решить так (поправьте - кто знает): 1) сделать FT, получив спектр; 2) найти соответствующий известный спектр в базе (общие для любых произносящих спектры). Эта задача классификации - может быть решена простой нейро-сетью; 3) для каждого захардкоженного спектра - известен набор фонем и постоить цепочку символов, которая пока - абракадабра (может означать слово а может и фразу); 3) взяв как можно больший контекст (но где слова явно разделены) - найти ему соответствующее слово или фразу из словаря (задача классификации может быть решена и нейро-сетью). Сложность здесь - могут встретиться незнакомые слова которые отсутствуют в базе; Для фиксированной базы - всё проще.

Или всё гораздо сложнее?

Anode

anonymous
()
Ответ на: комментарий от anonymous

Ну в целом да, за исключением мелких деталей. Но сказать-то легко, а сделать гораздо сложнее. Одно из основных препятствий - соответствия FT и фонем в принципе быть не может, должны использоваться другие характеристики. Разбивать задачу на подзадачи с одной стороны сложнее а с другой проще. Например, при проверке слова по словарю иногда нужно подправлять распознанные фонемы. И, наконец, отсутствуют базы для создания сетей :) Вобщем, работы хоть куда.

welkam ★★
()
Ответ на: комментарий от anonymous

смотрел как-то давно Philips'овскую рапознавалку, что должна была идти со специальным микрофоном. Диктовку набирала очень недурственно (особенно английский) и к тому же могла еще обучаться. Но тогда компьютеры были не те:) она хранила запомненное в каком-то музыкальном формате вроде mp3 и при обработке сказнного загружала CPU К6-2 % этак на 60-90%

Syncro ★★★★★
()
Ответ на: комментарий от welkam

>Одно из основных препятствий - соответствия FT и фонем в принципе быть не может, должны использоваться другие характеристики

А почему нельзя создать соответствие вручную?
Наговорить все сочетания слогов (немного, порядка квадрата алфавита, ну даже - если и больше не страшно) например 10 разными представителями чел. рода. Взять спектр. Взять самые главные особенности у каждой группы. Потом - разность между группами (для их классификации). То-есть любой будущий новый спектр будет всегда относиться к одной из групп (samples). Если получаеи ошибку больше допустимой - наш 'training set' был плохим.
Можно и без нейросетей даже.

anonymous
()
Ответ на: комментарий от anonymous

ну главная проблема - это отличить site от sight например(анализ структуры предложения/контекста ?), все отстальное уже давно придумано и работает. Вот еслибы все говорили на языке вроде эсперанто ..

Syncro ★★★★★
()
Ответ на: комментарий от anonymous

мдя, так как HTK не свободна - HMM (hidden markov model algorithms) надо видимо имплементировать по-хорошему... Да, вы правы - хешами кажется не обойтись :(

anonymous
()
Ответ на: комментарий от anonymous

К сведению - скоро выйдет и уже доступна для скачивания версия Festival 1.96 с ehmm - переписанным HTK под лицензией Fesitval (BSD).

Кстати, раз уж был вопрос про компиляторы, для сборки gcc 4.x нужно брать именно 1.96

welkam ★★
()
Ответ на: комментарий от Syncro

кстфти ашибак можут боть мого а всиравно изза реданданси чевелоковского зыяка мы понимать смыслу всеравно типа бум :)

Я к тому что если только-что выучивший английский индус или русский (или ребёнок) напишет sight вместо site - то в контексте - семантика до слушателя донесётся правильная. И вообще у 2 разных людей я подозреваю и восприятие фразы будет более разным чем разница между site and sight:) (типа один будет вообще о другом думать и прослушает 25% токенов).
Такие коллизии ведь редки (меньше того что мы пропускаем необработанным - я имею в виду токены).
А классификация всей статьи (то что ты усвоил после лекции - это уже совсем другое).

Или это - бред? :)

anonymous
()
Ответ на: комментарий от anonymous

то-есть задача построения классификатора - это уже другое. Можно писать все а-ля-эсперанто (только site итд) а правку орфографии оставить читателю. Но если текст будет воспроизводиться читалкой - то вообще никаких проблем! (ошибок никто не заметит)

anonymous
()
Ответ на: комментарий от KRoN73

Да, как-то оно на смартфоне не очень-то удобно. Держать в руках девайс и говорить ему, что делать, это как-то по даунски. По крайней мере, я настроил, побаловался и забросил эту фичу на своём смарте. Вот на компе, таки да. Орать на комп из другой комнаты "Заткнись урод, мне тут звонят!... Да не, это не вам, это я компу". Прям фантастический роман писать можно ;)

mutronix ★★★★
()
Ответ на: комментарий от mutronix

А как следующая ситуация: Вы в пробке. Надо посмотреть какой путь наименее загружен. Или выяснить - как доехать до улицы такой-то.
Грамматика может быть очень простой. Вначале команда, а потом - аргументы ;)
пример диалога за рулём
> computer tracker
tracker responds
> howto drive from Маркса, улица, to Энгельса, проспект
...
left, right, right, on light-left, 500 метров.

мало того - такие вещи уже делаются :)

anonymous
()
Ответ на: комментарий от welkam

да, работы много [попробовав lynx -dump http://linux.org.ru | html2text | festival --tts]
:)))

(Есть-ли более умные аналоги html2text на базе мозиллы или какого-нибудь современного движка, чтобы видимый текст не рендерить, а пайпить, или надо мозиллу ковырять?)

anonymous
()
Ответ на: комментарий от anonymous

> мало того - такие вещи уже делаются :)

Фигня это полная. Пока машины не востанут против людей, всё это жалкое зрелише, а не прогресс.

mutronix ★★★★
()
Ответ на: комментарий от anonymous

На сколько мне рассказывали люди FT плохо подходит для распознавания слов. Как по спектру речи людей определяют, даже если они голос меняют до неузнаваемости? Есть определенные особенности.По моему там делается типа вейвлет преобразований.Не знаю какие функции испольуются в качестве базиса, но говорят спектр этого получается периодический. И практически однозначное по этой функции определение букффф и соотвественно слов.

anonymous
()
Ответ на: комментарий от Syncro

Получается "ничиго не папишеш братетс" (с) Хайнлайн

dn2010 ★★★★★
()
Ответ на: комментарий от anonymous

> в лицензию зангляните и кто там владелец алгоритмов

пока что обсуждение чисто техническое - есть или нет и на этом этапе лицензия дело десятое. впрочем, мне бы было интересно узнать, кто "владельц" алгоритмов на базе скрытых Марковских сетей.

// wbr

klalafuda ★☆☆
()
Ответ на: комментарий от anonymous

>вейвлет преобразований

классно, спасибо.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.