LINUX.ORG.RU
ФорумTalks

Вот как бывает.. Или как найти наставника для GSoC?


0

0

Добрый день!
Совершенно неожиданно выяснилась проблема -- оказывается для участия в GSoC иногда вправду сложно найти mentor'а.

Имею предложение в GNU Project следующего содержания:
======
Hello!

I have been try to write own OCR System already for 4 years.
I have been try many approaches to recognition and now I want to use the next idea for it:

I think to use potrace to convert raster image to vector and then handle vector, not raster.
The general problem to recognize cursive text is the splitting of symbols one from ones.
My idea is that we don't need to do it. We can to handle the joined characters. And then we need to recognize split high and low parts of symbols (high part is part which upper than joint line, low part is part which lower joint line).

Now I have taken Title of my qualification project in my university: "The cross-platform handwritten Optical Character Recognition System".

I have written short code in Prolog to try how my idea will work. I hard-code two russian letters and try to find it on the image. The results was wholly satisfactory for me.
But now I study Lisp and I want to use Lisp for my future project.

In bounds of my qualification project I think to have OCR tool for russian texts with hard-coded symbols.

But in GSoC bounds I think to write the editor for symbols and then they will not hard-coded -- they will easy edited.
It will comfortable that we will not need to train the system, but we will only edit it's "fonts" for recognition new symbols.

Also there will feature to recognize math formulas and many comfortable features to easy document input.

I want, the project would be part of The GNU Project. So I select The GNU Project as mentoring organization.

I know, the project idea is insane, so I have another proposal: "Parted. Universal repartition tool for parted."

I hope that at least one of these project will interesting for GNU-society and then I will glad to work for it.

I think that before 1 april I present for you my first simple Lisp code to demonstrate future features of my system. So you would decide what from my two projects will better.

[PLAN]
So, in bounds of my qualification project in university I must to realize OCR tool for russian texts with hard-coded russian symbols. I will write my qualification project until end of May.
At the end of May I continue work for the project in GSoC bounds.
At mid-term I plan to have the OCR for russian-english texts with symbols coded through special "fonts"-files.
So as I will handle image as vector there are will be used paths splitting for separating image over words.
Only after that I can merge my code to the Ocrad. I think it's will good idea to use Ocrad's algorithms of layout analyser, image/frame detections..
So at the end of August I assume to have improved Ocrad which may use two algorithms for character recognizing -- old and new.
The new algorithm will used when old algorithm has bad results.

Advantages of new algorithm:
- It doesn't sense to rotating, scaling of symbols and many other non-linear typical for cursive transformations.
- It is easy to add new symbols for recognizing.

Disadvantages of new algorithm:
- It sense to symbols tears or extra links in symbols. Maybe later there will be algorithms to avoid this problems.

Thanks for attention.
Sorry for bad english
======

Связываюсь с разработчиком Ocrad -- единственного кто мог бы реально быть там наставником и узнаю, что он просто не имеет времени для этого (чтобы быть наставником надо быть доступным несколько чаще чем, просто переписываться по почте раз в сутки). Кроме того он сетует на своё незнание Lisp'а.

Итого получаю ответ:
"Hi Nikolaj Krivchenkov -- mentors have to have more time than Antonio does. So that won't work out. I don't know of anyone else in GNU could mentor you with an OCR project. So I can only encourage you to look at the other SoC organizations."

Пытаюсь найти другую организация.. Взгляд мой падает на LispNYC.. Выбор логичный так как всё же на Lisp пишем..

Только что в чате имею диалог:
- I don't know who could mentor it. submit an application, and if we can find a mentor, it should have a good chance of being accepted
- And if you can't?
- well, then we can't :) but at least you know you tried

В результате.. такая вот дилема..
Понимаю что мой английский плох, но оставляю основной текст на английском, так как меня интересует ответ людей всё же знающих английский, которые реально могли бы быть mentor'ом GSoC.

★★★★★

> Sorry for bad english

Типичное примечание от русских. Можно посоветовать не писать подобные извинения, у многих английский ещё хуже :) а что пишет не нэйтив видно и так.

anonymous_incognito ★★★★★
()

Английский, действительно, совсем плохой. Даже русскоязычному это трудно понять, а native speaker'ы наверно вообще в ступор впадают на каждой фразе.

По тексту - сумбур и каша ужасные. Ни цели проекта, ни методы их достижения не ясны. какой-то поток сознания, я как в топик зашел думал это у vilfred'а субботний выход. Напиши вначале на 2-3 строчки abstract, затем более подробное описание что будешь делать, затем как, затем понедельное расписание работ.

По проекту - я думаю, тебе отказывают потому, что вероятность успеха твоего начинания близка к нулю. Под успехом понимаем производство реально работающей, полезной хоть кому-то программы. я про OCR имею только общие представления, но имхо что один человек просто не в состоянии в рамках SoC написать полную OCR (а если ты пишешь не полную, то какого черта этого не ясно из твоего пропозала?). Тем более если он одновременно с этим будет осваивать Lisp.

> I know, the project idea is insane, so I have another proposal: "Parted. Universal repartition tool for parted."

Ну так и сабмить его отдельно. С деталями и всем прочим. Это похоже что-то более приземленное будет? Имеющее даже шансы дойти до чего-то юзабельного? я думаю тут больше шансов получить ментора будет. Cреди тех кто делает инсталляторы к дистрибутивам поискать можно, может заинтересуются...

gods-little-toy ★★★
()
Ответ на: комментарий от gods-little-toy

Я думаю что как раз носители языка с меньшими проблемами понимают :-)
Во всяком случае, виду того что ничего не поняли не показывают :-)

> Ну так и сабмить его отдельно.

Его я засубмитил. Там даже основа есть -- anyfs-tools.sf.net.. Что называется рабочий инструмент..
Но про него как-то вообще тихо.. Один комментарий был.. Я ответил.. Ну и более я не слышал ничего :-/
Т.е. OCR всё ж по-интереснее проект будет :-)

unDEFER ★★★★★
() автор топика

- It doesn't sense to rotating, scaling of symbols and many other non-linear typical for cursive transformations.

это ещё почему? волшебство?

anonymous
()
Ответ на: комментарий от true

> Вообще-то назначение ментора - дело организации.

Вообще говоря -- да. Но если организация не находит ментора -- то либо ищешь другую организацию, либо если нет подходящих организаций, просто выбираешь организацией Google, но даёшь все контакты своего ментора, которого ты должен найти САМ.

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от anonymous

> это ещё почему? волшебство?

Нет, просто простая идея :-)
Так как рассматриваем вектор и описание каждого символа не как не включает ни его ориентацию в пространстве, ни тем более масштаба.. Всё сравнивается только между собой.. в пропорциях..
В общем если мне удасться до завтра простешую прогу хотя бы одну-две буквы выделяющую в тексте написать, то обязательно покажу как это работает.

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от unDEFER

> Я думаю что как раз носители языка с меньшими проблемами понимают :-)

не-а. русскоязычные runglish понимают лучше американцев, проверено.

> Во всяком случае, виду того что ничего не поняли не показывают :-)

да. но их сильно напряжет общаться с человеком, пишущем на этом языке.. имей ввиду, что амеры и вообще европейцы реже посылают прямым текстом. обычно это в какое-то высказывание типа "да, но ...." заворачивают.

gods-little-toy ★★★
()
Ответ на: комментарий от unDEFER

>не как не включает ни его ориентацию в пространстве

тогда векторы лишние, ибо они ориентированы в пространстве

>ни тем более масштаба

можно слишком много мусора превратить в части букв

anonymous
()
Ответ на: комментарий от unDEFER

Вообще, если было время нафлудить на три звезды на лоре, значит компьютерного времени и трафика дофига, и тогда стыдно иметь такой английский.

gods-little-toy ★★★
()
Ответ на: комментарий от anonymous

> можно слишком много мусора превратить в части букв

Добавить-то отсечение мелкого мусора не проблема.
Самое главное, что для распознавания правильных букв масштаб по-барабану.

> тогда векторы лишние, ибо они ориентированы в пространстве

Векторы -- это опора. Обычно берут опорой растр.. Результаты известны.. А здесь другая опора.. И результаты будут другими.

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от gods-little-toy

>и тогда стыдно иметь такой английский.

русский тоже можно улучшить ;)

anonymous
()
Ответ на: комментарий от gods-little-toy

Да, нет, у меня довольно мало постов. Просто я был зарегистрирован до ввода системы очков и тогда всем уже зарегистрированным довольно много накинули.

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от unDEFER

У меня за 4,5 года постов меньше чем у Вас за год :-)

unDEFER ★★★★★
() автор топика
Ответ на: комментарий от anonymous

> а это... персекающиеся буквы оно распознает?

Изначально скорее нет, чем да. Но была бы хоть какая-то реализация, а над подобными желаемыми свойствами можно ещё поработать.

unDEFER ★★★★★
() автор топика

на самом деле OCR не очень надо... вот никто и не хочет поддерживать

anonymous
()
Ответ на: комментарий от gods-little-toy

> но имхо что один человек просто не в состоянии в рамках SoC написать полную OCR

Глупости, в институте за неделю (оставалось до сдачи) писал обучающийся OCR для распознавания символов с вебкамеры (распознавал нейросетью). За GSOC FineReader, конечно, не написать, но если есть время и хороший руководитель, то можно сделать серьезный проект.

anonymous
()

Идея хорошая. Хотя где-нибудь через год уже все будут пользоваться нативным cuneiform под linux.

Deleted
()
Ответ на: комментарий от anonymous

>на самом деле OCR не очень надо...

может хватит бредить?

stave ★★★★★
()
Ответ на: комментарий от unDEFER

> Так как рассматриваем вектор и описание каждого символа не как не включает ни его ориентацию в пространстве, ни тем более масштаба.. Всё сравнивается только между собой.. в пропорциях..

Кажущуюся интересной, даже если только самому себе, идею проверить всегда полезно.

Однако касательно OCR замечу, что сейчас основная проблема состоит не столько в распознавании отдельных алфавитных символов, сколько в распознавании структуры документа: его стиля, форматирования, отделения текста от фона, в том числе цветного текста на цветном фоне, старых документов на неоднородном фоне и т.п., а также распознавании не алфавитных символов, например, иероглифов и сложносоставленных объектов, вроде математических или химических формул.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от acheron

Спасибо. Но на самом деле данный текст требует гораздо более глубокой поправки чем грамматический.
Сейчас он уже переписан. А человек, который насколько я понимаю является главным в LispNYC, обещал помочь поправить грамматику и найти руководителя. Новый текст заявки ему понравился ("this is perfect") :-)

unDEFER ★★★★★
() автор топика

> Понимаю что мой английский плох

Потому никто и не читает. Об это дело глаза сломать можно. Какие уж там менторы? Тот, кто русский знает, может ещё и поймёт, что ты там имел в виду под "realize", а для англофонов это всё просто лишено смысла.

Бесплатный совет - найди девочку с ин. яза, попроси её перевести грамотно, это всё же research proposal, документ формальный, должен красиво выглядеть.

ЗЫ: нет, я тоже ментором быть не могу. Времени на это надо чуть многим больше чем я могу себе позволить потратить.

anonymous
()
Ответ на: комментарий от unDEFER

>Так как рассматриваем вектор и описание каждого символа не как не включает ни его ориентацию в пространстве, ни тем более масштаба..

А как это ты такой вектор получишь, который включать не будет? Руками тыкать придётся, что куда повернуть, что как растянуть и тд.

То есть в лучшем случае можно будет задать трансформацию для всего текста, поглядев на кусок.

Простой пример: V и >. Они по-твоему одинаковое описание получат, да?

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.