birdie, ты распи3дяй, хватит публику мутить всяким распознаванием, лучше иди улицу подмети ломом если так нравиться

anonymous
(01.09.06 09:14:14 MSD)

Ссылка

Ответ на: комментарий от Syncro 01.09.06 03:35:53 MSD

> ну главная проблема - это отличить site от sight например(анализ структуры предложения/контекста ?),

В свое вермя aist1 мне приводил пример, сравните два предложения: <<мне-же надо будет>> и <<мне жена добудет>>. И это еще достаточно простой пример.

sin_a ★★★★★
(01.09.06 09:25:09 MSD)

Ответ на: комментарий от sin_a 01.09.06 09:25:09 MSD

>В свое вермя aist1 мне приводил пример, сравните два предложения: <<мне-же надо будет>> и <<мне жена добудет>>. И это еще достаточно простой пример.

Велик и могуч ! :) Не вижу смысла в распознавании речи ... слова он всё равно не распознает ... вернее сможет но настраивать надо на каждого человека в отдельности .. а по буквам диктовать ...

robot12 ★★★★★
(01.09.06 09:47:07 MSD)

Ответ на: комментарий от sin_a 01.09.06 09:25:09 MSD

каков процент таких столкновений от всего текста? И каков процент текста усваивается при одном быстром прочтении? Я понимаю, что смысл может резко поменяться как в "казнить нельзя помиловать", но ведь радио мы слушаем без знаков пунктуаций без катастрофы, а устные лекции не несут меньше семантической информации чем книги со всеми их запятыми и даже разделёнными словами. Выходит - пунктуацция - эттотоллько траддицции блюдущие нашу возможность сделать grep.
Если же веб-культура будет продолжать вольно обращаться с языковыми правилами - то без преобразования символов в фонемы и обратно - не обойтись (при анализе текста) или в grep надо будет встраивать support vector machines :)
То-есть это к тому что читалка и распозновалка - это гораздо меньшая проблема чем классификация и анализ. А топик - про простую распознавалку (пусть пишет что слышит - как может - мы разберёмся), а не про SVM и machine learning (что уже другая задача имхо)

anonymous
(01.09.06 10:15:20 MSD)

Ответ на: комментарий от anonymous 01.09.06 10:15:20 MSD

... в случае же необходимости управления - то там всё равно - ограниченный набор команд и просто команды не будут выбираться похожими по звучанию. Где-же нужны разделители между не-коммандами-аргументами - то можно специально ввести спец-звук (явная тишина как между отдельными словами, можно притопнуть или прихлопнуть - если нравится) Короче - нет никакой проблемы

anonymous
(01.09.06 10:23:47 MSD)

Ссылка

http://herpolhode.com/rob/movies/labscam.mpg 1989 год. Bell-Labs. Советую посмотреть. и ПОСЛУШАТЬ.

robot12 ★★★★★
(01.09.06 10:25:44 MSD)

Ответ на: комментарий от anonymous 01.09.06 10:15:20 MSD

> каков процент таких столкновений от всего текста?

В случае естественного текста, а не узкого набора команд, это будет достаточно часто.

> "казнить нельзя помиловать"

Запятая обозначается небольшой паузой, этот пример не совсем отсюда.

> а устные лекции не несут меньше семантической информации чем книги

Устныа речь распознается нашей нервной системой. Компьютеры .. причмокивая и ненагибаясь. А коллизии разрешаются контекстом, пониманием смысла. Когда компьютер начнет работать с текстом на уровне смысла - задача станет тривиальной.

sin_a ★★★★★
(01.09.06 10:47:40 MSD)

Ссылка

Ответ на: комментарий от anonymous 31.08.06 23:09:04 MSD

>Распозновалка нужна. Например для управления жпс из машины (руки типа заняты)

Не путайте вы распознавание и управление командами! Управление командами - есть и работает (хоть в телефонах). Распознавание - это перевод речи в осмысленный текст. С этим пока не очень дела обстоят, хотя, конечно, движение некоторое есть.

SySAlex ★
(01.09.06 10:47:46 MSD)

Ответ на: комментарий от anonymous 01.09.06 05:13:00 MSD

> А как следующая ситуация: Вы в пробке. Надо посмотреть какой путь > наименее загружен. Или выяснить - как доехать до улицы такой-то. > Грамматика может быть очень простой. Вначале команда, а потом - > аргументы ;)

Вы не поверите - в нормальных GPS-программах (в т.ч. для КПК) есть не только голосовые сообщения, но и распознавание голосовых команд.

Еще раз повторюсь - управление командами есть уже на всех платформах. Но это - не распознавание РЕЧИ!

SySAlex ★
(01.09.06 10:51:31 MSD)

Ответ на: комментарий от SySAlex 01.09.06 10:51:31 MSD

но улица (аргумент) - уже не команда! Её надо распознать и точно найти в списке улиц!

Причём как уже говорилось - есть коммерчесуие реализации делающие и такое распознавание.

anonymous
(01.09.06 10:56:57 MSD)

Ссылка

Ответ на: комментарий от SySAlex 01.09.06 10:47:46 MSD

>Распознавание - это перевод речи в осмысленный текст _кем_ осмысленный?

anonymous
(01.09.06 11:00:30 MSD)

Ответ на: комментарий от robot12 01.09.06 10:25:44 MSD

> http://herpolhode.com/rob/movies/labscam.mpg 1989 год. Bell-Labs. Советую посмотреть. и ПОСЛУШАТЬ.

посмотрел, послушал. hm.. ну и что в сущьности в этой зарисовке эдакого :-?

// wbr

~~klalafuda~~ ★☆☆
(01.09.06 11:04:51 MSD)

Ссылка

Ответ на: комментарий от anonymous 31.08.06 23:09:04 MSD

> А говорилка в линуксе (русская) есть?

IBM Viavoice. Только не уверен, что по-русски. :)

Skull ★★★★★
(01.09.06 11:07:51 MSD)

Ссылка

Ответ на: комментарий от SySAlex 01.09.06 10:47:46 MSD

я как-раз и пытаюсь сказать, что осмыслитель потом скушает что транслит, что неправильную пунктуацию, что написанный site вместо sight - это вторая задача. Это осмысление (разум).
Распознование же - преобразование из звуков в слова.
Слова можно подправить словарём (он - компактен, если даже есть контекст , пример - фразеологический словарь, т.е. мегабайтный хэш). Большие контексты пусть разбирает мыслитель (каждый индивидум - по-своему).

пошёл спать я, извиняюсь

anonymous
(01.09.06 11:08:20 MSD)

Ссылка

Ответ на: комментарий от mutronix 01.09.06 06:17:48 MSD

> Пока машины не воСстанут против людей - всё это жалкое зрелише, а не прогресс.

Когда машины всстанут - им речь человеческая нафиг не нужна будет. Будут общаться по протоколу типа Wi-Fi а ты будешь сидеть в глубоком бункере (шоб терминаторы не достали) и пытаться понять работу этого протокола :-)

anonymous
(01.09.06 11:11:42 MSD)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 02:35:51 MSD

> Я так понимаю - эту задачу можно решить так (поправьте - кто >знает): 1) сделать FT, получив спектр; 2) найти соответствующий >известный спектр в базе (общие для любых произносящих спектры). Эта >задача классификации - может быть решена простой нейро-сетью; 3) >для каждого захардкоженного спектра - известен набор фонем и >постоить цепочку символов, которая пока - абракадабра (может >означать слово а может и фразу); 3) взяв как можно больший контекст >(но где слова явно разделены) - найти ему соответствующее слово или >фразу из словаря (задача классификации может быть решена и >нейро-сетью). Сложность здесь - могут встретиться незнакомые слова >которые отсутствуют в базе; Для фиксированной базы - всё проще. >Или всё гораздо сложнее?

Немного сложнее. Фонемы можено распознать по спектру, даже теми же нейросетями.

Затем используют цепи маркова, чтобы слепить из фонем буквы. Для каждой буквы есть соответсвующая цепь маркова. Выбирают ту цепочку, вероятность которой масимальна.

Затем используют таблицы вероятностей следования пар, троек, четверок и тд букв и маскимизируют их вероятность.

То же самое для слов в предложении.

Обучение осуществляется созданием прогаммой цепей маркова и таблиц вероятностей по заданному тексту и его произношению.

anonymous
(01.09.06 11:37:29 MSD)

Ссылка

http://forum.sources.ru/index.php?showforum=35 вам в руки...

RaD ★
(01.09.06 12:13:29 MSD)

Ссылка

Ответ на: комментарий от KRoN73 31.08.06 22:59:13 MSD

Там несколько по другому все работает.

Смарт записывает твою голосовую команду и просто сравнивает с тем что есть в базе...

catap ★★★★★
(01.09.06 12:14:57 MSD)

Ссылка

Вышла новая OPERA

А оно надо? Проги для аиндыв вроде есть. Видел 4-е года назад. Весело глючило. Кто реально пользовался этим в винде или полуоси? Хотя в определённых приложениях это используется, но по моему это реализуют на dsp процах и совсем на для desktop.

В общем ни чего мы не потеряет это отсутсвия этой фичи.

binr ★★
(01.09.06 12:20:43 MSD)

Ссылка

Ответ на: комментарий от anonymous 31.08.06 23:09:04 MSD

>А говорилка в линуксе (русская) есть?

Тут http://lleo.aha.ru/what_voice.htm погляди

anonymous
(01.09.06 12:45:43 MSD)

Ссылка

Я набираю со скоростью 360 символов в секунду. Речевой набор мне нужен, как рыбе зонтик.

anonymous
(01.09.06 13:01:33 MSD)

Ответ на: комментарий от anonymous 01.09.06 11:00:30 MSD

> _кем_ осмысленный?

Точно не тупыми (и потому скрывающими имя) анонимусами, пишущими всякие тупые "два словца" только ради того, чтобы вставить свое "я"...

SySAlex ★
(01.09.06 13:11:26 MSD)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 13:01:33 MSD

> 360 символов в _секунду_

Офигеть...

eXOR ★★★★★
(01.09.06 13:14:07 MSD)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 13:01:33 MSD

> Я набираю со скоростью 360 символов в секунду. Речевой набор мне нужен, как рыбе зонтик.

А я десять тысяч в день, зато осмысленные. :P

Evgueni ★★★★★
(01.09.06 13:20:23 MSD)

Ответ на: комментарий от Evgueni 01.09.06 13:20:23 MSD

> А я десять тысяч в день, зато осмысленные. :P

backspace считается за осмысленный символ? :)

// wbr

~~klalafuda~~ ★☆☆
(01.09.06 13:37:48 MSD)

Ответ на: комментарий от anonymous 31.08.06 23:09:04 MSD

>А говорилка в линуксе (русская) есть?

Есть ru_tts

ugoday ★★★★★
(01.09.06 15:54:31 MSD)

Ответ на: комментарий от klalafuda 01.09.06 13:37:48 MSD

>> А я десять тысяч в день, зато осмысленные. :P

>backspace считается за осмысленный символ? :)

нет - это читерство :)

Evgueni ★★★★★
(01.09.06 16:47:14 MSD)

Ссылка

Ответ на: комментарий от ugoday 01.09.06 15:54:31 MSD

Есть ещё одна бормоталка. Говорит хуже ru_tts, но для неё есть (в инете не найти) исходные коды. Когда-то я здесь предлагал занятся кому интересно её разработкой. Тогда, правда, появился занимающийся русскоязычной частью festival человек, и написал, что уже скоро festival заговорит по русски.

Никто не знает какой прогресс в этом деле?

AK

anonymous
(01.09.06 16:50:51 MSD)

Ссылка

- Здравствуй!
- Привет!
- Что это ты несешь?
- Несу разные вещи.
- Несуразные? Почему они несуразные-то?
- Сам ты несуразный, как я погляжу. Разные вещи я несу. Разные. Понял? Вот несу мел…
- Что не сумел?
- Отстань.
- Да ведь сам говоришь: "Не сумел". Что не сумел-то?
- Мел несу!!! Слушать надо. Несу мел Мишке. Ему же надо будет.
- Ну, если ему жена добудет, так зачем же ты несешь?
- Какая жена? Это у Мишки-то жена?! А ты шутник. Я сказал: "Ему же надо будет". Понадобится значит.
- Вот оно что…
- А еще новость у меня для Мишки приятная: нашлась та марка, которую он давно ищет.
- Тамарка?
- Ага.
- И ничего, симпатичная?
- Красивая! Зеленая такая.
- То есть как?
- Зеленого цвета.
- Постой, постой… Это что же: у нее волосы, что ли, зеленые?
- У кого волосы?
- Да у Тамарки-то.
- Что-о?!
- Ну ты же сам сказал: "Нашлась Тамарка"…
- Та! Марка! Марка, понимаешь? Та самая, которую Мишка давно ищет. Понял? Зеленая такая… Там арка нарисована.
- Ага, все-таки нарисована Тамарка, да? Так бы и говорил.
- Да отстань ты со своей Тамаркой, бестолковая голова! Там арка нарисована! Арка! Неужели ты даже этого не можешь понять? Прощай, некогда мне.
- Пока. Смотри, не растеряй свои несуразные вещи.
- А ну тебя…
- Да! Стой, стой!
- Ну, что еще?
- Привет передавай.
- Кому?
- Известно кому: Тамарке, Мишке и Мишкиной жене.

anonymous
(01.09.06 16:52:31 MSD)

Ответ на: комментарий от anonymous 01.09.06 13:01:33 MSD

>Я набираю со скоростью 360 символов в секунду.

Такая фигня получается (С)

Stranger_1100
(01.09.06 17:56:13 MSD)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 16:52:31 MSD

Класс!

anonymous
(01.09.06 21:31:20 MSD)

Ссылка

А помоему чисто программных реализаций распознования речи не существует(покрайней мери не ввиде коммерческого продукта для PC)... Тот же Dragon, разработки IBM и MS в этом направлении смешны и дальше разпознования коротких голосовых команд из 1-2 слов(причем заранее проговоренных:)) негодятся.

TheMixa ★★★
(02.09.06 06:12:54 MSD)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 13:01:33 MSD

Распознавание речи нужно не для речевого набора, а для преобразования звука в текст.

Например, журналистам, чтобы распознать интервью с диктофона. Текст, который пойдет в газету или журнал, конечно, будет написан самим журналистом по мотивам звукового интервью. Но иметь, пусть корявый, текстовый исходник перед глазами, удобнее, чем туда-сюда прокручивать звуковой файл.

zaregazza
(02.09.06 12:17:51 MSD)

Ссылка

OS/2 да да.. помню эту систему...

MiracleMan ★★★★★
(02.09.06 23:15:10 MSD)

Ссылка

Ответ на: комментарий от anonymous 01.09.06 08:26:23 MSD

похоже на бред

нет однозначного соответствия между буквами и звуками. даже приблизительного

cvv ★★★★★
(03.09.06 00:01:18 MSD)

Ссылка

Ответ на: комментарий от robot12 01.09.06 09:47:07 MSD

>В свое вермя aist1 мне приводил пример, сравните два предложения: <<мне-же надо будет>> и <<мне жена добудет>>. И это еще достаточно простой пример.

в этом месте для распознавалок проблем не будет, например звуки "же" в приведённых примерах с точки зрения распознавалок не имеют между собой ничего общего, хотя и запечатлеваются при письме той же комбинацией букв. тоже самое касается звуков "на" и "до".

cvv ★★★★★
(03.09.06 00:13:23 MSD)

Ответ на: комментарий от cvv 03.09.06 00:13:23 MSD

Скорее всего это сильно зависит от дикции. Опять-же вспомним про речь с "кашей во рту", человек ее достаточно сносно распознает, а это достаточно распространенное явление.

sin_a ★★★★★
(03.09.06 10:19:23 MSD)

Ответ на: комментарий от sin_a 03.09.06 10:19:23 MSD

Это ни от чего не зависит. Это - азы фонетики

наиболее проблемный момент в распознавании речи - практически полная декорреляция между звуками(фонемами) и соответствующими им буквами при письме

cvv ★★★★★
(04.09.06 00:30:18 MSD)

Ссылка

Вышла новая OPERA

Похожие темы