LINUX.ORG.RU

Евросоюз финансирует проект открытой системы автоматического перевода

 


0

0

ЕС в ближайшие годы собирается около 2 300 000 EUR на написание СПО для автоматического перевода — Molto (Multi-lingual Online Translation). Планируется, что система будет поддерживать 23 языка (в том числе русский язык). Бета-версия должна выйти в этом году, а полнофункциональный релиз — в 2013.

Лицензия LGPLv2.1

Новость взята с opennet.ru

>>> Подробности

★★★★★

Проверено: Shaman007 ()
Последнее исправление: alexsaa (всего исправлений: 2)
Ответ на: комментарий от hobbit

>>>Я случайно около 2 300 000 EUR.

где?

Я бы ещё спросил - когда?

Поскольку долго такие деньги на дороге не.

За такие деньги могут и.

registrant ★★★★★
()
Ответ на: комментарий от KRoN73

Постановка роботами по машинному переводу:-)

anonymous
()
Ответ на: комментарий от jackill

Я о том и говорю, только не вместо попила, а вместе с попилом ;)

Просто эти ребята познали мудрость кота Матроскина: «Корова, конечно, государственная. А все, что она дает....». Доводилось с европейскими активистами-общественниками общаться. Бабло они крутят, но дело делают.

sabbakka ★★
()
Ответ на: комментарий от shty

>> пытаемся найти корреляцию между его значениями и присутствием других слов

ничем не мотивированное действие

Требовалось предложить алгоритм — предложил. Либо обосновывайте неправильность алгоритма, либо дайте ссылку на исследования, показавшие его неправильность.

Чтобы пронумеровать 10000 слов хватит 14 бит. Меньше 2 байт.

антинаучный экзорцизм

Почему антинаучный, и при чём тут экзорцизм?

Сколько значений у слова?

без пруфа

slovari.yandex.ru и перебирать слова пока не надоест. Имхо, рекорд: http://lingvo.yandex.ru/en?text=set&lang=en

Сколько слов необходимо найти из корреляций?

неизвестное науке ничем не мотивированное действие

Так сколько?

подсчёты в сферическом ваккууме

Потеряли нить рассуждений — перечитайте.

осуществимо на десктопах.

непонятно к чему приведённая величина

Это для того, кто считал, что современных компьютеров не хватит.

неуверенность в собственных подсчётах ... сомнения в исходных данных для расчёта

Всего лишь оценки сверху и снизу.

Единственная проблема — объём работ по анализу такого количества текста.

вопиющая неправда

Которые из слов в приведённом предложении вопят? «Единственная»? Тогда какие ещё есть проблемы?

не посчитаны ошибки операторов и контроль над ними

Первое дельное замечание. Простой, но затратный способ — прогонять каждый случай через нескольких операторов и устраивать голосование. Можно провести эксперимент с небольшой выборкой, для которой можно всё тщательно перепроверить, оценить из него вероятности ошибок операторов, из этого вывести необходимое количество экспериментов для надёжного установления корреляций и нивелирования случайных ошибок.

Сколько нужно будет экспериментов — не знаю. Но в областях, не связанных с филологией, существует эмпирическое правило, что достаточно 20 измерений на определяемый параметр.

ручной способ обработки текстов

Как его автоматизировать, если задача — создать такое средство автоматизации? Выше я писал, что получается замкнутый круг. Есть предложения лучше.

не учтены производственные средства

Что нужно?

По маломощному компьютеру каждому оператору — лишь бы умел выводить текст, скачивать сотни килобайт текстов каждый день и отправлять несколько килобайт результатов. В ценах первой попавшейся московской фирмы это получается от 120 евро за рабочее место-нетбук, и от 240, если неттоп.

Сервера, которые им эти данные раздают и собирают результаты. Если правильно организовать раздачу, чтобы не ломились все сразу, тоже хватит чего-нибудь маломощного и древнего, но рассчитывать на это не стоит; сервера должны быть способны раздать (с запасом) сотни мегабайт в течении нескольких секунд в начале рабочего дня, а большую часть времени простаивать. Ещё несколько сотен евро каждый.

Помещения, где всем этим людям работать. Раз это — правительственная программа, то под это должны были что-то выделить. Если не выделили, то аренда и инфраструктура (опять в первых попавшихся московских ценах) обойдётся от 1500 евро на человека в год.

Одноязычный словарь, в котором приведены все значения многозначных слов. По одному на каждый язык. Урезанные версии продаются по несколько сотен, и этого может хватить.. За полную могут взять десятки тысяч (данные 2000 года).

Программы — ниже.

не учтены затраты на собственно создание и отладку системы

Просто надеялся, что найдётся человек, который с ходу назовёт эти затраты :)

В принципе, систему для поиска и подсчёта соседних слов можно собрать за несколько десятков минут из баша и юниксовых утилит: grep, sed, sort... Интерфейс неудобный и так просто английские фразовые глаголы, и вообще словосочетания, к ней не прикрутишь. Сколько нужно времени, чтобы написать то же, но с красивым и удобным интерфейсом и универсальное — не знаю.

Вы не представляете себе с чем имеете дело

Неспособность читать написанный текст вы уже продемонстрировали, незнание предмета тоже. Я надеялся узнать что-то о применимости статистических методов к анализу языка, получил только общие рассуждения об организации труда. Неинтересно.

да, я на Вас не наезжаю, не подумайте - просто подтруниваю...

Примитивно и неоригинально. Метан, «вы ничего не понимаете». Нет бы придумать свою шутку, раз уж по филологической части сказать нечего.

question4 ★★★★★
()
Ответ на: комментарий от KRoN73

>> Тысяча человеколет - это всего лишь один год тысячи человек.

Угу. А девять беременно-месяцев это всего один беременно-месяц у девяти женщин! :)

Что не нравится? Механическую работу, состоящую из большого числа независимых мелких заданий, вполне можно распараллелить :)

question4 ★★★★★
()
Ответ на: комментарий от anonymous

> Человеческая цивилизация насчитывает порядка 10-120 тысяч лет.

Так 10 или 120? :)

40 тыс. лет не было ни цивилизации, ни языка в нынешнем виде. Человек был простой обезъяной и общался жестами и криками.

40 тысяч лет назад жили не слишком отличающиеся от нас органами речи и развитием мозга кроманьонцы. Говорить они, наверняка, умели.

у макак-резус в словаре порядка 30 слов, и они могут различаться от племени к племени

И что с того? Сколько миллионов лет эволюции между макаками и людьми?

Посему не могло быть общего языка 40 тыс лет назад, у каждой стаи людей были свои договоренности, что считать языком.

Необоснованное утверждение. Даже если оно верно, это не исключает возможности, что большинство таких языков исчезли без следа, а несколько диалектов дали начало всем современным языкам.

question4 ★★★★★
()
Ответ на: комментарий от zapruder

> Назовите имена этих лингвистов

Педерсен, Бернал, Старостин, Иллич-Свитыч, Долгопольский, Дыбо, Старостин, Гринберг, Бомхард, Старостин-младший, Ренфрю, Кайзер, Шеворошкин, Бенгтсон, Кернс, Дыбо. Это только по ностратической гипотезе, а существуют и другие. Тебе эти имена о чём-нибудь говорят? :)

Беда с подобными гипотезами, что людей способных аргументированно её подтверждать либо опровергать в мире всего десятки, остальным просто не хватает знаний :)

question4 ★★★★★
()
Ответ на: комментарий от question4

Современному человеку порядка 100 тыс лет. Явно недостаточно, чтобы сильно отличаться от макак. «Даже если оно верно, это не исключает возможности, что большинство таких языков исчезли без следа, а несколько диалектов дали начало всем современным языкам.» Все-таки согласны, что одного языка не было.

anonymous
()
Ответ на: комментарий от anonymous

> или там fish fish fish fish

If a doctor is doctoring a doctor, does the doctor doing the doctoring doctor the doctor being doctored the way the doctor being doctored wants to be doctored, or does the doctor doctoring the doctor doctor the doctor being doctored the way the doctoring doctor usually doctors?

sjinks ★★★
()
Ответ на: комментарий от anonymous

да чепуха это всё. Какой автоматический перевод с/на 23 языка? Где взять людей которые в совершенстве знают их все и ещё разбираются в программировании? Будет или подстрочник или перевод каких-то стандарных фраз, типо разговорника. Алгоритмически проще всего переводить всё в какую-то промежуточную форму типа искусственного языка с примитивной грамматикой или вообще к «дереву синтаксического разбора», а по нем генерить 22 перевода на другие языки. Ни о каком литературном переводе речи в принципе идти не может.

anonymous
()
Ответ на: комментарий от anonymous

> Все-таки согласны, что одного языка не было.

Я не говорил ни «да» ни «нет». Ни у кого из присутствующих нет достаточного знания современных и мёртвых языков, чтобы что-то доказывать. Одни эмоции. Сомневаюсь, что здесь найдутся люди, знающие больше 4 языков.

question4 ★★★★★
()
Ответ на: комментарий от anonymous

> Какой автоматический перевод с/на 23 языка? Где взять людей которые в совершенстве знают их все и ещё разбираются в программировании?

Программы-переводчики либо включают по модулю перевода для каждой пары языков и каждого направления, либо переводят на какой-то промежуточный язык, а с него — на любой другой. Вроде, второй подход используют Google Translate (промежуточный язык — английский) и Promt (промежуточный язык — какой-то искусственный). В первом случае нужно по 1 специалисту на каждую пару языков, специалист должен знать соответствующие 2 языка. Во втором — по специалисту на язык, специалист должен знать соответствующий 1 язык и выучить промежуточный язык (который сам по себе достаточно прост). Итого получается, что нужно не менее 22+21+20+...+1=253, либо не менее 23 лингвистов-программистов. Можно больше, но не знаю, насколько эта задача распараллеливается.

Где их взять? У каждого из этих 23 языков — от миллионов до десятков миллионов носителей, плюс их изучает немало иностранцев. Филолог-программист достаточно редкое сочетание, но не уникальное. Один только МГУ выпускает таких несколько десятков в год.

question4 ★★★★★
()
Ответ на: комментарий от question4

Побойтесь черта, на ЛОРе большинство аналитегов русский не знает!

anonymous
()
Ответ на: комментарий от question4

Нерентабельно разрабатывать переводчик для языка, на котором говорит миллион людей. Они все равно не заплатят достаточно.

anonymous
()
Ответ на: комментарий от anonymous

> Современному человеку порядка 100 тыс лет. Явно недостаточно, чтобы сильно отличаться от макак.

Вообще-то ветви людей, шимпанзе и бонобо разделились несколько миллионов лет назад (от 4 до 8 по разным оценкам). Человекообразные отделились от мартышковых порядка 25 миллионов лет назад. Прекрати пороть чушь.

question4 ★★★★★
()
Ответ на: комментарий от anonymous

> Нерентабельно разрабатывать переводчик для языка, на котором говорит миллион людей. Они все равно не заплатят достаточно.

А это не для частных лиц. Это для органов власти. Как сказали выше, чтобы все носители основных языков ЕС могли читать распоряжения органов власти ЕС.

question4 ★★★★★
()
Ответ на: комментарий от question4

>>>>> Тебе эти имена о чём-нибудь говорят? :)

1. а почему мы с вами на ты? 2. не говорят, но лингвистику в инязе нам преподавали 3. к сожалению получается что лингвистов в мире всего чуть больше 16 человек. при этом, чтобы наскрести «большинство» - вам пришлось притащитъ за уши лингвистов - которых уже 60 лет как нет вживых

zapruder
()
Ответ на: комментарий от question4

>>>>> Ни у кого из присутствующих нет достаточного знания современных и мёртвых языков, чтобы что-то доказывать

вы опросили всех присутствующих?

zapruder
()
Ответ на: комментарий от question4

>>>>> Даже если оно верно, это не исключает возможности, что большинство таких языков исчезли без следа, а несколько диалектов дали начало всем современным языкам.

ага, а все современные языки програмирования берут начало от Алгола %))))))

zapruder
()
Ответ на: комментарий от zapruder

1. а почему мы с вами на ты?

Кто-то предпочитает «ты», кто-то «вы». Прошу прощения, перепутал.

чтобы наскрести «большинство»

Где я говорил про большинство? Я говорил про «много» :)

вы опросили всех присутствующих?

Об этом говорит уровень дискуссии :)

лингвистику в инязе нам преподавали

Отлично, хоть один специалист сюда забрёл.

Итак, вопросы:

  1. Насколько Grammatical Framework пригодна для поставленной задачи?
  2. Учитывая имеющиеся у GF наработки, реально ли 20-30 сотрудникам за 3 года достигнуть поставленных MOLTO целей? То есть:
    1. Создать автоматические переводчики для математических упражнений, биомедицинских патентов, и описаний музейных экспонатов.
    2. Создать инструментарий для изготовления переводчиков, которому достаточно будет на вход дать словарь и несколько предложений-примеров, и на выходе будет переводчик для соответствующей области знаний («domain» в терминах MOLTO). Кстати, как этот термин переводить на русский: «домен», «область знаний» или как-то ещё?
  3. Насколько реалистично опознавать к какой области знаний относится текст по статистике близко встречающихся слов?
  4. Что в ваших учебниках было написано про ностратическую гипотезу?
  5. Как сейчас положено писать: «иняз» или «инъяз»?
question4 ★★★★★
()
Ответ на: комментарий от question4

1. не пригодна 2. нет 3. не реалистично 4. что это гипотеза 5. Кто-то предпочитает «иняз», кто-то «инъяз». Прошу прощения, перепутал.

zapruder
()
Ответ на: комментарий от question4

Вот только почему-то социальное устройство человеческого стада от макак-резусного или шимпанзейного не отличается до сих пор. Сюрприз? Не говоря уж о теориях, что человек произошел от вымершего вида лемуров.

anonymous
()
Ответ на: комментарий от anonymous

> социальное устройство человеческого стада от макак-резусного или шимпанзейного не отличается

Вообще-то устройство макак-резусного стада сильно отличается от шимпанзейного :)

question4 ★★★★★
()
Ответ на: комментарий от question4

Требовалось предложить алгоритм — предложил.

нет, вменяемого алгоритма Вы не предложили (то что Вы предложили, а именно посчитать и перенумеровать - это просто смешно), а так же нет и обоснования достоверности - говорить не о чём

shty ★★★★★
()
Ответ на: комментарий от zapruder

> так все-таки специалист или липовый?

Утверждаете, что получили соответствующее образование, но продемонстрировать соответствующую подготовку не хотите или не можете. Ну и кто вы после этого? :)

question4 ★★★★★
()
Ответ на: комментарий от anonymous

> ДНК человека отличается от ДНК шимпанзе лишь на 2%: «Вот в них-то и разница».

Неверно :) Отличающихся активных генов пока нашли всего 3 штуки, остальные отличия в «мусорной» части. Ожидают ещё порядка 20. С макаками отличий будет в несколько раз больше.

Другое дело, что пока не ясно, как гены связаны с речью и социальной организацией.

question4 ★★★★★
()
Ответ на: комментарий от shty

> Вы предложили, ... посчитать

Есть более простой способ узнать частоту употребления определённого значения многозначного слова?

перенумеровать

Просто способ кодирования результатов. Чем не нравится?

нет и обоснования достоверности

Вот его я и прошу! :) Внятное обоснование или опровержение.

question4 ★★★★★
()
Ответ на: комментарий от question4

социальная организация определяется гормональной системой, отрабатывающей реакции существа на внешние воздействия, соответственно искать надо в тех генах, которые за нее отвечают. Речь в генах налтчествует только в генах, кодирующих голосовые связи, способные к ее произношению. сам язык человек изучает, подражая родителям, посему к генам речь не имеет отношения. Дети-маугли не умеют говорить.

anonymous
()
Ответ на: комментарий от question4

> Вы предложили, ... посчитать

Есть более простой способ узнать частоту употребления определённого значения многозначного слова?

дело в том что частота употребления слова ничего не скажет Вам о контексте в котором оно используется, например встретился Вам пресловутый «кран», вы знаете что наиболее часто это слово употребляется как кухонный крана... и что? разве не может встретившийся Вам кран быть строительным?

но если считать частоту употребления слова в тексте то, в данном случае, Вы - правы, действительно путём статистического анализа это и делается

> перенумеровать

Просто способ кодирования результатов. Чем не нравится?

Не нравится тем что это ничего хорошего не принесёт. Почему? Вот, например, у Вас есть такая таблица и Вы встречаете в тексте слово «стекло», как Вы будете искать номер этого слова?

> нет и обоснования достоверности

Вот его я и прошу! :) Внятное обоснование или опровержение.

это, вобще-то, задача разработчика алгоритма :)

shty ★★★★★
()
Ответ на: комментарий от anonymous

Дети-маугли не умеют говорить.

и шанса научить говорить их уже нет

shty ★★★★★
()
Ответ на: комментарий от shty

> но если считать частоту употребления слова в тексте то, в данном случае, Вы - правы,

Частоту употребления не одного слова, а сочетаний слов в определённом контексте.

Вот, например, у Вас есть такая таблица и Вы встречаете в тексте слово «стекло», как Вы будете искать номер этого слова?

Заранее составить список слов для данного языка. Пополнять по мере необходимости.

question4 ★★★★★
()
Ответ на: комментарий от question4

> но если считать частоту употребления слова в тексте то, в данном случае, Вы - правы,

Частоту употребления не одного слова, а сочетаний слов в определённом контексте.

так, опять 25, ну ладно поиграем ещё...

допустим что составили, но что это даёт?

пример: вы знаете что словосочетание открыть кран в 80% случаев используется в контексте открытии кухонного крана, в 18% - в контексте открытия кабины башенного крана на стройке, а так же в 2% неведомых случаев

вы встречаете это словосочетание в тексте... опишите алгоритм

> Вот, например, у Вас есть такая таблица и Вы встречаете в тексте слово «стекло», как Вы будете искать номер этого слова?

Заранее составить список слов для данного языка. Пополнять по мере необходимости.

уже составлен, как будете осуществлять поиск?

shty ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.