Евросоюз финансирует проект открытой системы автоматического перевода

Ответ на: комментарий от xkitenz 26.01.10 15:27:28 MSK

> Раньше, был ведь всего один прото-язык на всю Европу...

Это не единственная гипотеза. Есть мнение, что пришлые индоевропейцы частично заимствовали языки коренных жителей, в каждой местности — разных. Ищи, например, по словам «прото-германский субстрат».

А кроме того, весьма вероятно, что когда индоевропейцы были одним народом, они жили не в Европе :)

question4 ★★★★★
(26.01.10 18:29:10 MSK)

Ответ на: комментарий от KRoN73 26.01.10 15:37:00 MSK

> Нах.я дох.я нах.ячили?! Ух.ячивайте нах.й!

Все вышеперечисленные однокоренные слова тоже можно добавить в словарь. А по многозначности каждое из них сильно уступает английским get, go, put, come, set... Которые вполне успешно переводят.

question4 ★★★★★
(26.01.10 18:29:16 MSK)

Ответ на: комментарий от xkitenz 26.01.10 16:15:37 MSK

> покажите реальную теорию, ... за конечное время это перевести

Комбинаторика. Число слов конечно, число комбинаций конечно :)

Учитывая, что большая часть слов на определение контекста не влияют, задача становится реализуемой за разумное время. Если правильно составить словари, получится, имхо, от сотен до сотен тысяч комбинаций.

question4 ★★★★★
(26.01.10 18:29:20 MSK)

Ответ на: комментарий от shty 26.01.10 14:19:56 MSK

> где видели

В рекламе ABBYY и ПРОМТ :)

и что значит работает?

Тексты Шекспира переводит вполне читаемо: http://www.promt.ru/press/news/10389/ , хоть на Пастернака и не тянет. Их даже издали :)

question4 ★★★★★
(26.01.10 18:29:27 MSK)

Ответ на: комментарий от xkitenz 26.01.10 16:10:27 MSK

> native speakers(без понятия как это на русском написать)

Носителей.

question4 ★★★★★
(26.01.10 18:29:31 MSK)

Ссылка

Ответ на: комментарий от namezys 26.01.10 16:16:58 MSK

> Основная проблема - это словари

Если ты в теме, можешь ли оценить объём работы по описанию русского языка (созданию базы) в человеко-годах?

Какие-то же базы уже существуют у разных издательств вроде «Мира» и «Русского языка». Естественно, небесплатные.

question4 ★★★★★
(26.01.10 18:29:39 MSK)

Ссылка

Ответ на: комментарий от shty 26.01.10 16:11:18 MSK

> пока для машинного перевода не было создано приемлемого анализатора контекста

Какие проблемы? На каждое значение многозначного слова составляется список слов, с которыми максимальна вероятность его встретить. Естественно, объём словаря возрастает до безобразия.

question4 ★★★★★
(26.01.10 18:29:43 MSK)

Ответ на: комментарий от ubuntulover 26.01.10 18:16:14 MSK

> Активный словарь человека - 10-15 тыщ слов. Пассивный - 20-30 тыщ слов.

Откуда данные? Мне казалось, чуть ли не на порядок меньше.

question4 ★★★★★
(26.01.10 18:31:07 MSK)

Ответ на: комментарий от question4 26.01.10 18:29:16 MSK

>Которые вполне успешно переводят.

Успешно?? :D

~~KRoN73~~ ★★★★★
(26.01.10 18:31:36 MSK)

Ответ на: комментарий от namezys 26.01.10 18:26:30 MSK

> для одного слова может быть от 10 до несколькольких тысяч связей с разными групами

Мы создаём упрощённую модель, минимально сконфигурированную, чтобы иметь более-менее качественный перевод. Несколько тысяч связей — это уже для создания полноценного ИИ с мышлением, никто не ожидает такой дотошности. Физика в играх, например, сносная, хотя и расчитывается не по всей строгости физического закона — иначе бы компьютер много думал. И тут, кстати, проблема не в самой базе (подумаешь, статья с 10.000 ссылок на другие статьи), а в производительности.

Например, можно установить «глубину». В шахматах наивная реализация брутфорсит ходы, и для проихводительности ставят глубину, дальше которой не идётся. И брутфорсит, кстати сказать, успешно. Простого человека победит, гроссмейстера может не победить, но здесь и не идёт речи о том, чтобы машина-переводчик победила человека-переводчика. Нужен просто более-менее адекватный перевод. С минорными ошибками, которые можно подправить вручную, нежели современное «Дядя васе колю зубными ходил».

ubuntulover
(26.01.10 18:37:10 MSK)

Ссылка

Ответ на: комментарий от question4 26.01.10 18:29:10 MSK

> А кроме того, весьма вероятно, что когда индоевропейцы были одним народом, они жили не в Европе :)

где-то на ближнем востоке, всяко

ubuntulover
(26.01.10 18:37:58 MSK)

Ссылка

Ответ на: комментарий от question4 26.01.10 18:29:27 MSK

> и что значит работает?
Тексты Шекспира переводит вполне читаемо: http://www.promt.ru/press/news/10389/ , хоть на Пастернака и не тянет. Их даже издали :)

бгг... выбрали маленький кусочек, работает у них, ололо :)

работает это когда взять Шекспира, Байрона, <любого тех времён чувака по выбору> и во всех трёх случаях на полном тексте сработает :)

а в обратную, кстати, сторону чего постеснялись?

shty ★★★★★
(26.01.10 18:58:58 MSK)

Ответ на: комментарий от question4 26.01.10 18:31:07 MSK

> Активный словарь человека - 10-15 тыщ слов. Пассивный - 20-30 тыщ слов.
Откуда данные? Мне казалось, чуть ли не на порядок меньше.

меняй круг общения :)

shty ★★★★★
(26.01.10 18:59:53 MSK)

Ответ на: комментарий от question4 26.01.10 18:29:20 MSK

> покажите реальную теорию, ... за конечное время это перевести
Комбинаторика. Число слов конечно, число комбинаций конечно :)

ну-ну, комбинатор в треде детектед :)

большая часть слов на определение контекста не влияют,

конечно не влияют, а вот контекст на слова - ещё как

shty ★★★★★
(26.01.10 19:01:26 MSK)

Ссылка

Я так понимаю, что будут пытатся сделать не переводчик бытового текста, а толмача самой извращенной формы языка - бюрократическо-юридического. Очень сомневаюсь, что затея увенчается успехом, особенно, когда бюрократы специально пытаются сделать текст непонятным.

Выход вижу только в изучении какого-то одного общего языка, которым сейчас является de'facto английский. И сейчас, а тем более следующему поколению придется его выучить, как альтернатива - подвизатся на рынке дешевой, неквалифицированой рабочей силы.

CrownRU ★
(26.01.10 19:07:57 MSK)

Ответ на: комментарий от question4 26.01.10 18:29:43 MSK

> пока для машинного перевода не было создано приемлемого анализатора контекста
Какие проблемы? На каждое значение многозначного слова составляется список слов, с которыми максимальна вероятность его встретить. Естественно, объём словаря возрастает до безобразия.

какие проблемы? да почти никаких - всё тип-топ... осталось только построить алгоритм определения какой именно контекст используется (Вы не указали как это сделать), придумать алгоритм разрешения неоднозначностей, да убедить пользователя что подождать пару дней пока там чё ищется - это совсем недолго :) может ещё чего забыл

shty ★★★★★
(26.01.10 19:08:28 MSK)

Ответ на: комментарий от shty 26.01.10 19:08:28 MSK

да, иными словами, осталось всего ничего - «придумать» пресловутый анализатор контекста с придумывания которого наш с Вами диалог и начался

shty ★★★★★
(26.01.10 19:12:20 MSK)

Ссылка

Ответ на: комментарий от shty 26.01.10 19:08:28 MSK

> осталось только построить алгоритм определения какой именно контекст используется

Разжёвываю: каждое слово в сочетании с переводимым многозначным может придавать больший вес одному из его значений. Увеличивать вероятность, что это значение является правильным. Например, слово «башенный» в одном предложении с «краном» повышает вероятность того, что кран строительный, а не водопроводный. Если синтаксический анализатор показывает, что «башенный» по отношению к «крану» является определением, то вероятность ещё выше. Заметь, только повышает вероятность, однозначно водопроводный не отбрасывает.

Как анализировать: посадить человека, показывать ему абзац текста, одно слово выделено, рядом список значений этого слова, человек выбирает, в котором (или которых) значениях оно употреблено. По большому числу абзацев, надёрганных из естественных текстов, набрать статистику.

Как этот процесс полностью автоматизировать — не знаю. Имхо, для полной автоматизации составления базы необходимо уже иметь готовую базу, то есть это невозможно. С какого-то этапа можно пользоваться неполной базой и помечать наиболее вероятное значение для данного абзаца, но не знаю, как это скажется на качестве работы оператора.

question4 ★★★★★
(26.01.10 19:27:01 MSK)

Ответ на: комментарий от question4 26.01.10 18:29:20 MSK

> Комбинаторика. Число слов конечно, число комбинаций конечно :)

В теории (состоящей из пары параграфов), конечно, ничего сложного, а вот на практике? ОК, допустим, у вас словарь из 10,000 слов (не так уж и много для человека) и 10 слов в одном(!) предложении. Сколько получается комбинаций? Но это еще не все: вам нужна еще функция которая проверит эти комбинации если они верны синтаксически и ... тадам! семантически. Интересно, сколько вам на это времени потребуется я уж молчу про семантическую информацию, которая простым маппингом не кодируется. Т.е. хотя бы объясните мне глупому в какой форме вы ее собрались хранить?

xkitenz ★
(26.01.10 19:27:36 MSK)

Ответ на: комментарий от shty 26.01.10 18:59:53 MSK

>>> Активный словарь человека - 10-15 тыщ слов. Пассивный - 20-30 тыщ слов.

Откуда данные?

меняй круг общения :)

А более весомые доказательства, будут? Помимо «я сбился со счёта, подсчитывая свой словарный запас».

question4 ★★★★★
(26.01.10 19:30:05 MSK)

Ответ на: комментарий от question4 26.01.10 19:27:01 MSK

> Например, слово «башенный» в одном предложении с «краном» повышает вероятность того, что кран строительный, а не водопроводный.

А если, например, «открыть кран»? Как крутиться будете? Заметьте очень простой пример. ;)

xkitenz ★
(26.01.10 19:37:13 MSK)

Ответ на: комментарий от question4 26.01.10 19:30:05 MSK

Вот, нашел свой миниатюрный словарь называется «Карманный англо-русский словарь» авторы Бенюх и Чернов 1974 года выпуска (сфотографировать могу если хотите :)) 7600 слов. Частенько не мог найти нужные мне слова в следствии чего приходилось пользоваться более крупным. Вот и оценивайте сами сколько слов в словарном запасе человека...

xkitenz ★
(26.01.10 19:49:52 MSK)

Ответ на: комментарий от CrownRU 26.01.10 19:07:57 MSK

> Я так понимаю, что будут пытатся сделать не переводчик бытового текста, а толмача самой извращенной формы языка - бюрократическо-юридического. Очень сомневаюсь, что затея увенчается успехом, особенно, когда бюрократы специально пытаются сделать текст непонятным.

Выход вижу только в изучении какого-то одного общего языка, которым сейчас является de'facto английский. И сейчас, а тем более следующему поколению придется его выучить, как альтернатива - подвизатся на рынке дешевой, неквалифицированой рабочей силы.

английский сильно распространён (благодаря своей сложности не очень сильно), но говорить о дэфакто... гляньте пожалуйста статистику по испанскому (кол-во носителей и геораспространение, и не забудьте включить с небольшой натяжкой португальский) + оцените насколько он проще английского (отнюдь не только в произношении)... Если правительство ЕС волевым решением примет эсперанто как официальный «дэюре», то вот вам и введение общего демократичного языка, который таковым за 10 лет в европе станет дэфакто - учить его испанцам, французам, итальянцам и немцам на порядок легче нежели американский английский

anonymous
(26.01.10 19:55:07 MSK)

Ссылка

Ответ на: комментарий от question4 26.01.10 19:27:01 MSK

осталось только построить алгоритм определения какой именно контекст используется
Разжёвываю: каждое слово в сочетании с переводимым многозначным может придавать больший вес одному из его значений. Увеличивать вероятность, что это значение является правильным. Например, слово «башенный» в одном предложении с «краном» повышает вероятность того, что кран строительный, а не водопроводный. Если синтаксический анализатор показывает, что «башенный» по отношению к «крану» является определением, то вероятность ещё выше. Заметь, только повышает вероятность, однозначно водопроводный не отбрасывает.

дорогой мой, Вы ни черта в предмете не смыслите, ну зачем Вы хотите спорить?

Как анализировать: посадить человека, показывать ему абзац текста, одно слово выделено, рядом список значений этого слова, человек выбирает, в котором (или которых) значениях оно употреблено. По большому числу абзацев, надёрганных из естественных текстов, набрать статистику.

ога, только через 10.000 лет уже изобретут автоматическую трансляцию и к тому времени как Вы закончите Ваши труды потеряют актуальность немного

shty ★★★★★
(26.01.10 20:00:30 MSK)

Ответ на: комментарий от xkitenz 26.01.10 19:49:52 MSK

возможно, тысячи три, просто не обязательно попадающие в этот словарь.

boo32 ★
(26.01.10 20:00:47 MSK)

Ссылка

Ответ на: комментарий от question4 26.01.10 19:30:05 MSK

>>> Активный словарь человека - 10-15 тыщ слов. Пассивный - 20-30 тыщ слов.
Откуда данные?
меняй круг общения :)
А более весомые доказательства, будут?

даю слово пионера - это была шутка :)

shty ★★★★★
(26.01.10 20:02:37 MSK)

Ссылка

Ответ на: комментарий от xkitenz 26.01.10 19:37:13 MSK

> А если, например, «открыть кран»?

Надо считать.

Как крутиться будете?

Давайте посчитаем вместе. Найдите ссылок на тексты, чтобы там оба крана встречались в общей сложности 100 раз. Ещё лучше не меньше 100 на каждое значение. Я посчитаю соседние слова грепом и скажу с чем лучше коррелирует «открыть». Имхо, с водопроводным.

Если текстов о кранах нет, можно выбрать другие слова. Можно английский язык — там легче т.к. флективность почти утрачена.

question4 ★★★★★
(26.01.10 20:17:13 MSK)

Ссылка

Ответ на: комментарий от xkitenz 26.01.10 19:27:36 MSK

> допустим, у вас словарь из 10,000 слов (не так уж и много для человека) и 10 слов в одном(!) предложении.

Большая часть слов на значение данного заметно не влияет.

Что можно сделать: берём сто предложений с анализируемым словом и пытаемся найти корреляцию между его значениями и присутствием других слов. Коррелирует — добавляем в базу, не достигает определённого порога — игнорируем. Мало ста — берём тысячу.

Чтобы пронумеровать 10000 слов хватит 14 бит. Меньше 2 байт. Сколько значений у слова? Имхо, для английского языка не больше 100, чаще в пределах 5. Сколько слов необходимо найти из корреляций? Вот тут у меня надёжных данных нет, подозреваю, что хватит нескольких десятков, пусть 100 (1% словаря). Итого на служебную информацию для большинства слов надо не более 5*3*100=1500 байт, (для тяжёлых случаев 100*3*100=30000, но таких крайне мало). Итого на словарь из 10000 слов понадобится всего мегабайта полтора. Даже если я недооценил долю многозначных слов, получатся сотни мегабайт. Много, но осуществимо на десктопах. Кроме того, оценка в 1% словаря тоже сильно завышена; если я правильно понимаю закон Ципфа, вероянтости вхождения слов падают по экспоненте.

Единственная проблема — объём работ по анализу такого количества текста. Если на предложение тратить 5 минут и исходить из 100 на слово, нужно 5 миллионов человеко-минут, то есть более 10000 8-часовых смен. 10 операторов в 1 смену за 2,5 года. И это не считая подготовительных работ — сбор электронных текстов, либо оцифровка печатных, приобретение словарной базы...

question4 ★★★★★
(26.01.10 20:21:32 MSK)

Ссылка

Ответ на: комментарий от shty 26.01.10 20:00:30 MSK

> через 10.000 лет

В соседнем ответе посчитал. В одиночку без выходных — лет 28. Если посменно круглосуточно при одновременной работе 100 человек — месяц. Хватит 2000000 евро на месячную зарплату 400-500 человек?

question4 ★★★★★
(26.01.10 20:26:22 MSK)

Ответ на: комментарий от KRoN73 26.01.10 18:31:36 MSK

> Успешно?? :D

Издание на бумаге и постановку в театре я считаю успехом.

question4 ★★★★★
(26.01.10 20:28:36 MSK)

Ответ на: комментарий от shty 26.01.10 18:58:58 MSK

> выбрали маленький кусочек, работает у них, ололо :)

По ссылке «Короля Лира» поставили в театре целиком. А потом издали несколько пьес на бумаге (ссылку ищу).

работает это когда взять Шекспира, Байрона, <любого тех времён чувака по выбору> и во всех трёх случаях на полном тексте сработает :)

Язык Байрона уже отличался от шекспировского. Подозреваю, что система цепляется за какие-то особенности английского конца 16 века, которые позже отмерли, поэтому на Байроне результат будет хуже. Опять же, для языка Шекспира значительная часть работы проведена до них.

а в обратную, кстати, сторону чего постеснялись?

Имхо, спрос на перевод с русского на архаичный английский невелик, поэтому не разрабатывали :)

question4 ★★★★★
(26.01.10 20:37:53 MSK)

Ссылка

Ответ на: комментарий от xkitenz 26.01.10 19:49:52 MSK

> «Карманный англо-русский словарь» авторы Бенюх и Чернов 1974 года выпуска (сфотографировать могу если хотите :)) 7600 слов. Частенько не мог найти нужные мне слова

Словарь может включать больше слов, чем в активном словарном запасе, но не включать весь активный запас.

Как-то со скуки всей группой читали карманный словарь (5000 слов в русско-английской части, если не ошибаюсь). Слово «оценка» отсутствовало. Зато нашли несколько слов, которые не знал никто в группе, одно из них помню до сих пор — тростИть (ударение было проставлено).

question4 ★★★★★
(26.01.10 21:00:07 MSK)

Ссылка

Ответ на: комментарий от CrownRU 26.01.10 19:07:57 MSK

> будут пытатся сделать не переводчик бытового текста, а толмача самой извращенной формы языка - бюрократическо-юридического

Не исключено, что переводить его окажется легче, чем более разнообразный живой язык :)

question4 ★★★★★
(26.01.10 21:07:49 MSK)

Ссылка

Ответ на: комментарий от question4 26.01.10 20:26:22 MSK

> через 10.000 лет
В соседнем ответе посчитал. В одиночку без выходных — лет 28. Если посменно круглосуточно при одновременной работе 100 человек — месяц. Хватит 2000000 евро на месячную зарплату 400-500 человек?

ога, а если нанять 1000 человек они всю работу сделают за час :) сказочник

shty ★★★★★
(26.01.10 21:42:14 MSK)

Ссылка

Ответ на: комментарий от question4 26.01.10 20:26:22 MSK

Вы вообще кем работаете, уважаемый? если не секрет, канешна

а то читаю я Ваши посты и мне видится дедушка-партработник под 50 лет всю жизнь трудившийся в большом НИИ среднего размера начальником и никогда белого света не видывавший

shty ★★★★★
(26.01.10 21:55:45 MSK)

Ответ на: комментарий от shty 26.01.10 21:55:45 MSK

А мне видится 16-летний юный гений. Сообразительный, но поверхностный. Ни хрена ни о чём не знающий и прячущий неосведомлённость под нигилизмом.

А если без перехода на личности? Попробуйте каждый пункт объективно количественно оценить. Сколько получится?

question4 ★★★★★
(26.01.10 22:11:05 MSK)

Ответ на: комментарий от xkitenz 26.01.10 15:27:28 MSK

Христианские хитрецы тебя обманули. Не было никогда общего языка.

anonymous
(26.01.10 22:13:12 MSK)

Ответ на: комментарий от namezys 26.01.10 13:34:06 MSK

> На словари нужны тысячи человеко-лет

Тысяча человеколет - это всего лишь один год тысячи человек.

anonymous
(26.01.10 22:20:07 MSK)

Ответ на: комментарий от anonymous 26.01.10 22:13:12 MSK

> Христианские хитрецы тебя обманули. Не было никогда общего языка.

Многие лингвисты считают, что был. По крайней мере, что все существующие языки происходят от единого языка, существовавшего 40 000 лет назад. Правда, пока реконструировали не дальше 12 000 лет.

question4 ★★★★★
(26.01.10 22:30:15 MSK)

Ответ на: комментарий от question4 26.01.10 22:11:05 MSK

Попробуйте каждый пункт объективно количественно оценить.

попробуем:

1) Что можно сделать: берём сто предложений с анализируемым словом и пытаемся найти корреляцию между его значениями и присутствием других слов. Коррелирует — добавляем в базу, не достигает определённого порога — игнорируем. Мало ста — берём тысячу.

ничем не мотивированное действие - 10 кубов

1) Чтобы пронумеровать 10000 слов хватит 14 бит. Меньше 2 байт.

за антинаучный экзорцизм сразу 100 кубов

2) Сколько значений у слова? Имхо, для английского языка не больше 100, чаще в пределах 5.

без пруфа - 0,5 куба

3) Сколько слов необходимо найти из корреляций? Вот тут у меня надёжных данных нет, подозреваю, что хватит нескольких десятков, пусть 100 (1% словаря).

неизвестное науке ничем не мотивированное действие - 10 кубов

4) Итого на служебную информацию для большинства слов надо не более 5*3*100=1500 байт, (для тяжёлых случаев 100*3*100=30000, но таких крайне мало). Итого на словарь из 10000 слов понадобится всего мегабайта полтора.

подсчёты в сферическом ваккууме - 5 кубов

5) Даже если я недооценил долю многозначных слов, получатся сотни мегабайт.

неуверенность в собственных подсчётах - 1 куб

6) Много, но осуществимо на десктопах.

непонятно к чему приведённая величина - 0,5 куба

7) Кроме того, оценка в 1% словаря тоже сильно завышена; если я правильно понимаю закон Ципфа, вероянтости вхождения слов падают по экспоненте.

сомнения в исходных данных для расчёта - 20 кубов

8) Единственная проблема — объём работ по анализу такого количества текста.

вопиющая неправда - 10 кубов

9) Если на предложение тратить 5 минут и исходить из 100 на слово, нужно 5 миллионов человеко-минут, то есть более 10000 8-часовых смен. 10 операторов в 1 смену за 2,5 года. И это не считая подготовительных работ — сбор электронных текстов, либо оцифровка печатных, приобретение словарной базы...

не посчитаны ошибки операторов и контроль над ними - 20 кубов

10) ручной способ обработки текстов - 20 кубов

11) не учтены производственные средства - 20 кубов

12) не учтены затраты на собственно создание и отладку системы - 50 кубов

итого, считаем: 267 кубометров чистого природного газа под названием «метан», ура товарищи... жаль только газпром не обогнать

ещё раз Вам повторяю: Вы не представляете себе с чем имеете дело - посему Ваши расчёты выглядят очень наивно, да и рассуждения в общем тоже

и да, я на Вас не наезжаю, не подумайте - просто подтруниваю... тем не менее помните (!) о том что человек когда что-то пишет то он в предмете должен быть не только уверен, но и разбираться

shty ★★★★★
(26.01.10 22:35:35 MSK)

Ответ на: комментарий от question4 26.01.10 22:30:15 MSK

Вот тут торсионщик и спалился. Человеческая цивилизация насчитывает порядка 10-120 тысяч лет. 40 тыс. лет не было ни цивилизации, ни языка в нынешнем виде. Человек был простой обезъяной и общался жестами и криками. к примеру, у макак-резус в словаре порядка 30 слов, и они могут различаться от племени к племени, потому как у обезъян даже между 2 племенами есть культурные различия. Посему не могло быть общего языка 40 тыс лет назад, у каждой стаи людей были свои договоренности, что считать языком.

anonymous
(26.01.10 22:40:22 MSK)