LINUX.ORG.RU

Евросоюз финансирует проект открытой системы автоматического перевода

 


0

0

ЕС в ближайшие годы собирается около 2 300 000 EUR на написание СПО для автоматического перевода — Molto (Multi-lingual Online Translation). Планируется, что система будет поддерживать 23 языка (в том числе русский язык). Бета-версия должна выйти в этом году, а полнофункциональный релиз — в 2013.

Лицензия LGPLv2.1

Новость взята с opennet.ru

>>> Подробности

★★★★★

Проверено: Shaman007 ()
Последнее исправление: alexsaa (всего исправлений: 2)
Ответ на: комментарий от Lighting

Я случайно около 2 300 000 EUR. Это опасно?


Подыграю: случайно что?

Alsvartr ★★★★★
()
Ответ на: комментарий от namezys

> это не задача словаря, словарь - хранит словоформы - морфологию, если хотите, не больше

А как называется то, что хранит семантику

та как угодно, но только не «словарь» :)

shty ★★★★★
()
Ответ на: комментарий от namezys

> где видели и что значит работает?

видел когда там работал

прикольно :) а почему ушёл, если не секрет?

и таки что значит работает?

shty ★★★★★
()
Ответ на: комментарий от shty

> и таки что значит работает?

компилирует. ну я не в этой области работал

прикольно :) а почему ушёл, если не секрет?

много причин. в компании поменьше климат получше (ИМХО)

namezys ★★★★
()

По правде говоря, меня терзают сомнения по поводу того, что автоматический перевод в ближайшие N лет станет достаточно осмысленным, чтобы удовлетворять потребности человека.

SpeedyWizard
()
Ответ на: комментарий от namezys

> и таки что значит работает?

компилирует.

не, ну это процесс, процесс есть много у кого, а нужен результат :)

shty ★★★★★
()
Ответ на: комментарий от SpeedyWizard

>терзают сомнения по поводу того, что автоматический перевод в ближайшие N лет станет достаточно осмысленным, чтобы удовлетворять потребности человека.

Если гора не идёт к Магомету... то человеки становятся достаточно тупыми, чтобы быть довольными машинным переводом.

massimus ★★★
()
Ответ на: комментарий от Lighting

> Я случайно около 2 300 000 EUR. Это опасно?

тебя посчитали!

dilmah ★★★★★
()
Ответ на: комментарий от SpeedyWizard

меня терзают сомнения по поводу того, что автоматический перевод в ближайшие N лет станет достаточно осмысленным, чтобы удовлетворять потребности человека

обоснованность Ваших сомнений сильно зависит от того к чему стремится N

shty ★★★★★
()
Ответ на: комментарий от namezys

Бред. Дело в сложном семантическом анализе, который не всегда под силу даже человеку, а не в лексическом наполнении...

xkitenz
()
Ответ на: комментарий от anonymous

> во-вторых, ликвидирует языковое неравенство, когда англоязычные изначально получают преимущество перед другими людьми.

IMHO, но лучше взять уже существующий, устоявщийся язык, чем какой-нибудь другой, который начнут трансформировать разные сообщества по разному. Кстати, почему, думаете, у нас сейчас в Европе целый ворох языков? Раньше, был ведь всего один прото-язык на всю Европу...

xkitenz
()
Ответ на: комментарий от xkitenz

> Дело в сложном семантическом анализе, который не всегда под силу даже человеку, а не в лексическом наполнении...

Приведенный пример про косу конечно даже человек не с ходу понимает

но вариант типа: Человек сидит на стуле. Он читает газету, купленную им вчера.

namezys ★★★★
()
Ответ на: комментарий от shty

>усложняем: косой косой косой косой :))

Нах.я дох.я нах.ячили?! Ух.ячивайте нах.й! (перевод: Зачем привезли так много? Увозите назад!)

KRoN73 ★★★★★
()
Ответ на: комментарий от Black_Shadow

>Подозреваю, что не под LGPL будут словари

Я один охреневаю, что словари (и шрифты до кучи) вообще лицензируются?

Как насчёт алфавита, ещё не запатентован? А что, «последовательность кодирующих символов для передачи информации в графической форме» - хороший патент.

А что насчёт речи? «Способ акустического воспроизведения графических символов для передачи информации в воздушной среде» - тоже неплохо.

anonymous
()
Ответ на: комментарий от namezys

>Приведенный пример про косу конечно даже человек не с ходу понимает

Понимает, если воспринимает фразу целиком и в контексте, ибо значение идиом не выводимо из значений составляющих его компонентов. Для идиом не нужен парсер. http://ru.wikipedia.org/wiki/Фразеологизм

quickquest ★★★★★
()
Ответ на: комментарий от xkitenz

> > во-вторых, ликвидирует языковое неравенство, когда англоязычные изначально получают преимущество перед другими людьми.

IMHO, но лучше взять уже существующий, устоявщийся язык, чем какой-нибудь другой, который начнут трансформировать разные сообщества по разному.

Эсперанто существует уже более 120 лет, вполне устоялся, при этом от национальных языков выгодно отличается простотой и лёгкостью в изучении. Там нет каких-то исключений, различий чтения-написания, сложных произношений и т.д., всего того чем буквально напичканы национальные языки. По приблизительным оценкам выучить Эсперанто в 10 раз легче, чем английский. Т.е. через 1 месяц регулярного изучения Эсперанто, у вас будет такой же прогресс, какой был бы в английском через 10 месяцев занятий.

Кстати, почему, думаете, у нас сейчас в Европе целый ворох языков? Раньше, был ведь всего один прото-язык на всю Европу...

Если ответить очень кратко, то латынь очень сложный язык, поэтому естественный для людей процесс упрощения языка, протекавший в разных регионах несогласованно, привёл к нынешней солянке.

anonymous
()
Ответ на: комментарий от quickquest

>Элементарно, Ватсон!

Машинным переводом? :)

KRoN73 ★★★★★
()
Ответ на: комментарий от namezys

>по частям речи скажите что есть где

Задача перевода не в разложении фразы на части речи, а адекватный перевод смысла т.е. «целиком и в контексте». А программы-переводчики не умеют использовать фразеологические словари, что приводит к «корявым» переводам.

P.S. http://ru.wikipedia.org/wiki/Фразеологический_словарь Двуязычный фразеологический словарь даёт не только эквиваленты, но и перевод однозначных словосочетаний, представляющих собой самодовлеющее предложение (напр., пословицу, цитату, афоризм и т. д.).

quickquest ★★★★★
()
Ответ на: комментарий от irq

> Попробуйте перевести это, допустим, немцу: «косарь косой косил косой»

Немец, проживший в России 10 лет, знающий русский язык и преподающий немецкий в ВУЗе - выпал в осадок.

А нахера вообще переводить этот языковой онанизм? Реальная потребность в переводе документов и документации, вот её и надо решать.

anonymous
()
Ответ на: комментарий от quickquest

что вы хотите этим сказать?

и так очевидно что предложение анализируется сложным образом, выделяются части речи и известные тебе куски

программа работает так же

namezys ★★★★
()
Ответ на: комментарий от namezys

Вот вам простой пример, он даже несколько тривиален: если бы вы были машинным транслятором(переводчиком) как бы вы перевели русское слово «кран» на английский? Естественно, два значения одновременно не принимаются. Не знаете? И я, потому что чтобы выбрать подходящий вариант нужно провести анализ внутри самой фразы, а иногда даже предшествующей ей фраз, и иногда даже это не поможет, и нужно будет знать формы предметов их характеристики и т.п. Я уж молчу про то, что маппинг 1:1 между двумя очень редко можно встретить. Слышали/видели когда-нибудь «это слово/словосочетание/фраза на русский не переводятся»? Очень много нетривиальных вещей в этой области и сомневаюсь что будет достаточно просто написать горстку-другую алгоритмов или составить словарь побольше чтобы решить их...

xkitenz
()
Ответ на: комментарий от xkitenz

> Естественно, два значения одновременно не принимаются.

В зависимости от контекста

это не просто. но реализуемо с достаточной точностью

namezys ★★★★
()
Ответ на: комментарий от anonymous

>Эсперанто существует уже более 120 лет, вполне устоялся Я с вами согласен насчет его простоты, но, честно говоря, когда слышу английский, которым сейчас заполнены интернеты становиться как-то противно на душе, а что будет если все начнут учить язык у которого нет даже native speakers(без понятия как это на русском написать), где каждый будет придумывать свой вариант произношения? Б-р-р.

Если ответить очень кратко, то латынь очень сложный язык

Речь шла не о латыне а о PIE, плюс латынь не намного не сложнее русского.

xkitenz
()
Ответ на: комментарий от namezys

В зависимости от контекста

и теперь, внимание, загадка века: как проанализировать контекст?

это не просто. но реализуемо с достаточной точностью

ну, насколько мне известно, пока для машинного перевода не было создано приемлемого анализатора контекста

shty ★★★★★
()
Ответ на: комментарий от namezys

Это человек может сказать «в зависимости от контекста», а машине подавай конкретный набор инструкций и данных. Плюс то что это реализуемо, не означает что оно реально может существовать. Вы мне лучше покажите реальную теорию, которая могла бы недвусмысленно и за конечное время это перевести. :P

xkitenz
()
Ответ на: комментарий от namezys

>выделяются части речи

Лексический анализатор может выделить части речи, но не умеет выделять идиомы.

программа работает так же

Чтобы приблизится к человеческому переводу программе нужен контекстно-зависимый парсинг. Нужна не только большая фразеологическая база данных, но и http://ru.wikipedia.org/wiki/База_знаний В программах перевода это пока не реализовано.

quickquest ★★★★★
()
Ответ на: комментарий от shty

> ну, насколько мне известно, пока для машинного перевода не было создано приемлемого анализатора контекста

насколько мне известно - идеи доступный, информация открыта. Да, детали реализации, какие точности и тд - этого не кто не откроет.

Основная проблема - это словари (то есть так информация, которая используется для анализа контекста). Когда-то в СССР были работы на эту тему. Но делали их лингвисты, и полагались больше на бумагу. Описание одного глагола при этом занимала десятки страниц

namezys ★★★★
()
Ответ на: комментарий от quickquest

> Лексический анализатор может выделить части речи, но не умеет выделять идиомы.

лексический парсер не может это сделать. Пример: глагол и существиетльно стекло.

В программах перевода это пока не реализовано.

Я не говорил о законченных проектах

namezys ★★★★
()
Ответ на: комментарий от namezys

идеи доступный, информация открыта

вот это вот я не понял, буду трактовать «идеи доступны, информация открыта»

насколько мне известно - идеи доступный, информация открыта. Да, детали реализации, какие точности и тд - этого не кто не откроет.

я не видел ни одного работающего вменяемого продукта который бы осуществлял машинный перевод, нигде, ни в интернете, ни в анонсах... нет такого продукта, есть анализаторы морфологий, системы машинной трансляции имён и названий, анализаторы новостей всяких, поисковые индексаторы и ещё over 9k наименований всевозможных лингвистических продуктов, но задача полноценного машинного перевода не решена по причине как раз того что для вменяемого перевода требуется анализатор контекста...

причём учтите, что контекст штука не статичная, меняется со временем и обстоятельствами

Основная проблема - это словари (то есть так информация, которая используется для анализа контекста).

для чего там словари-то? в словаре хранятся слова, это очевидно из названия... и как Вы собираетесь по отдельным словам анализировать контекст? для анализа, и Вам на это уже указывали, требуется база знаний

Когда-то в СССР были работы на эту тему. Но делали их лингвисты, и полагались больше на бумагу. Описание одного глагола при этом занимала десятки страниц

это миф

shty ★★★★★
()
Ответ на: комментарий от shty

> для чего там словари-то? в словаре хранятся слова, это очевидно из названия... и как Вы собираетесь по отдельным словам анализировать контекст? для анализа, и Вам на это уже указывали, требуется база знаний

Будем называть: база знаний о возможном участии слова в контексте

я не видел ни одного работающего вменяемого продукта который бы осуществлял машинный перевод, нигде, ни в интернете, ни в анонсах...

Почему же вы считаете, что анализ контекста невозможен?

от это вот я не понял, буду трактовать «идеи доступны, информация открыта»

Сейчас существует много разработок в этой области. Местами довольно успешных. Но это не коммерческие продукты. Это вообще не продукты

namezys ★★★★
()

как было сказано ранее, для адекватного перевода машина должна учитывать контекст

адекватный перевод будет возможен только после появления ИИ, сопоставимого человеческому...

хотя у меня раньше была идея контекстного переводчика: каждое слово в базе входит в некоторое количество семантических групп (ассоциаций). Напр. «кран» принадлежит группе «строительство» и группе «бытовая техника». По мере анализа текста строится некоторая карта-абстракция, и в зависимости от того, к какой из групп ближе предложение (что-то типа fuzzy logic), и выбирается вариант.

но лом реализовывать

ubuntulover
()
Ответ на: комментарий от namezys

> для чего там словари-то? в словаре хранятся слова, это очевидно из названия... и как Вы собираетесь по отдельным словам анализировать контекст? для анализа, и Вам на это уже указывали, требуется база знаний

Будем называть: база знаний о возможном участии слова в контексте

оке... но такой словарь не самое «страшное-и-непонятное», самое страшное, в данном контексте (уж простите за тавтологию), - это то что контекст может меняться по ходу действия и что контекст зависит от субъекта который его воспринимает и субъекта который его излагает, которые в свою очередь опираются на свой жизненный опыт и как это анализировать пока ни разу не понятно... например средний читатель читая описание заката в прериях не сможет его себе представить никакими иными способами как через те закаты которые он видел и получится: «ну летом мы с друзьями квасили вотку на закате на берегу пруда, типа похоже» понятно что данный пример утрирован чуть более чем полностью, но для описания проблемы сгодится :)

можно упереться, потратить кучу мозга сделать и анализатор и базу наполнить, но как научить их понимать какой контекст использовать и в какой момент он меняется? а без этого будет получатся «гуртовщик мыши», раз за разом или придётся специальную контекстную вёрстку делать

> я не видел ни одного работающего вменяемого продукта который бы осуществлял машинный перевод, нигде, ни в интернете, ни в анонсах...

Почему же вы считаете, что анализ контекста невозможен?

я не считаю что он не возможен, просто я не видел никого кто бы приблизился к решению данной проблемы

Сейчас существует много разработок в этой области. Местами довольно успешных. Но это не коммерческие продукты. Это вообще не продукты

возможно, но мы, даже если и слышали, подробностей не знаем, соответственно мы не знаем насколько успешно они решают ту или иную задачу, не так ли?

и таки да, это косвенный показатель что пока ещё никто не приблизился вплотную к решению данной проблемы

shty ★★★★★
()
Ответ на: комментарий от xkitenz

>Эсперанто существует уже более 120 лет, вполне устоялся Я с вами согласен насчет его простоты, но, честно говоря, когда слышу английский, которым сейчас заполнены интернеты становиться как-то противно на душе, а что будет если все начнут учить язык у которого нет даже native speakers(без понятия как это на русском написать), где каждый будет придумывать свой вариант произношения? Б-р-р.

Если ответить очень кратко, то латынь очень сложный язык
Речь шла не о латыне а о PIE, плюс латынь не намного не сложнее русского.

В чём преимущества PIE перед эсперанто (единственным широко распространённым плановым языком)? Русский кстати довольно сложный язык для изучения, навскидку посчитайте сколько значений у слова «его» - таких и обратных примеров множество - язык то национальный...

anonymous
()
Ответ на: комментарий от ubuntulover

> каждое слово в базе входит в некоторое количество семантических групп (ассоциаций).

да, сами группы должны иметь между собой тоже некоторые нелинейные отношения, напр., группа «выпечка» входит в группу «еда».

Технически нифига сложного в этом нет.

И в составлении базы сложного тоже, кстати нет — достаточно создать коммьюнити и повесить на базу wiki-подобный движок.

ubuntulover
()
Ответ на: комментарий от ubuntulover

> но лом реализовывать

Лом ибо нетривиально. :) Как вы правильно сказали, эта задача - где-то рядом с задачей по построению почти полноценного «кремнего-медного» человека. ;)

xkitenz
()
Ответ на: комментарий от ubuntulover

> да, сами группы должны иметь между собой тоже некоторые нелинейные отношения, напр., группа «выпечка» входит в группу «еда».

Вот вам еще идея: составьте лексико-грамматический парсер, и собираете информацию с интернетов, например с википедии. Проблема, естественно, в том чтобы создать такой парсер.

xkitenz
()
Ответ на: комментарий от ubuntulover

ну в том то и дело, что основная идея простая. В общем то именно отсюда это и пляшется

а вот база - это сложно. все учеться

namezys ★★★★
()
Ответ на: комментарий от xkitenz

>но лучше взять уже существующий, устоявщийся язык, чем какой-нибудь другой, который начнут трансформировать разные сообщества по разному.

Не лучше ибо все языки имеют костыли. Особенно побитые переселением народов и исковерканные варварами языки западно-европейские. Официальные документы лучше составлять на искусственном языке и лишь затем переводить на естественные. Допустим английский на роль посредника при переводе не годится ВООБЩЕ

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от xkitenz

можете не волноваться, «нейтив спикерс» в эсперанто есть и давно и не мало + произношение регулируется правилами языка и никто его не придумывает для себя(хотя акценты присутствуют конечно)...

sunafajro
()
Ответ на: комментарий от namezys

> а вот база - это сложно.

Почему сложно-то? Ладно там википедия с 10-миллионым количеством статей. Активный словарь человека - 10-15 тыщ слов. Пассивный - 20-30 тыщ слов. Такую базу построить на основе технологии wiki способно одно небольшое комьюнити (не за один день, но всё же)! И такая база сможет покрыть 95% обычных текстов (разговорный, публицистический стили). Это раз.

Два это то, что в случае с научным и официально-деловым стилями основую часть слов вне «базового словаря обычного человека» составляют специализированные терминами/научные термины/профессионализмы/интернационализмы. В 99% случаев они моносемичны (имеют одно чёткое значение, потому что термин) и в контекстном переводе не нуждаются (контекст словосочетания, однако, игнорировать не следует).

Сложный случай - художественная литература, где полно лексики, которую всю со всей её полисемией не описать. Но никто в здравом уме и не расчитывает в обозримом будущем прогонять худлит через машинный переводчик.

Т.е., качественный контекстный переводчик в контексте нужд ЕС (каламбур, типа) реализуем 1) на основе контекстной базы, пополняемой через wiki-подобный движок (есть же wiktionary) 2) сам алгоритм выборки абсолютно прост

Можно потеребить викимедиа

ubuntulover
()
Ответ на: комментарий от namezys

раньше (будучи амбициозным школьником), интересовался ИИ и лингвистическим ПО, как частным приложением концепций ИИ. пытался реализовать примерно следующее. алгоритм оперирует некими неделимыми сущностями, которые однозначно и полно определяют некий объект, они были названы в моей терминологии «иероглифами» (примерный аналог в естественных языках - лексема, только иероглиф обладает более глубоким семантическим наполнением). важно, что однозначность они имеют для алгоритма ИИ, а не для человека или конкретного естественного языка. к примеру, иероглиф 0x34FF5211 мог иметь примерное значение «собака, домашнее животное, преданное существо, излучающее радость и любовь», иероглиф 0x34FF523 - «собака, вид животного, термин биологии», иероглиф 0x7712520 - «бег, быстрое перемещение, движение с помощью ног по поверхности». также есть некоторый набор видов связей, взаимодействия иероглифов (аналог предложений в естественных языках, только гораздо более примитивные, очень похожие на арифметические действия над числами). к примеру, связь 0x000450A1 могла описывать совершение объектом действия: 0x34FF5211 (0x000450A1) 0x34FF520 = «собака бежит». при этом в результате получалось новое семантическое значение, отдельная сущность, которой присваивался новый иероглиф. безусловно, нужно было ограничивать бесконечный рост числа новых сущностей, к примеру, статистическими методами (редко используемые иероглифы со временем «умирали» в сознании ИИ). таким образом, перевод текста я пытался свести (тогда безуспешно, надо сказать) к статистическому анализу и выделению из текста иероглифов (т.е., некое промежуточное машинное представление), которые затем преобразовывались в слова другого языка, так же примерно, вероятностными методами.

ах да, к чему я всё это. хотел узнать, близок ли я был к коммерческим направлениям разработки (спрашиваю как у человека, упомянувшего ABBYY Nature Language Compiler), или всё выше написанное - скорее всего наивный бред?

boo32
()
Ответ на: комментарий от irq

> Попробуйте перевести это, допустим, немцу: «косарь косой косил косой»

Я эту шутку услышал от русскоговорящего американца :) Достаточно хорошо говорил, только «уголь» и «угол» в его произношении не различались.

question4 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.