История изменений
Исправление peregrine, (текущая версия) :
Лично мне OCR пилить интересно, например, но я через ML хочу, а значит мне датасет нужен для начала, поди его найди в опенсорсе и для разных языков с разными шрифтами. На английском и немецком есть, а на русском уже всё плохо, а опенсорс это значит что и данные должны быть не серые или вообще ворованные, а белые, на которые в явном виде есть разрешение. А таких в природе нету. Вот и выходит что наукоёмкий опенсорс писать сложно.
ЗЫ
Для начала с сегментацией текста хотя бы.
Исходная версия peregrine, :
Лично мне OCR пилить интересно, например, но я через ML хочу, а значит мне датасет нужен для начала, поди его найди в опенсорсе и для разных языков с разными шрифтами. На английском и немецком есть, а на русском уже всё плохо, а опенсорс это значит что и данные должны быть не серые или вообще ворованные, а белые, на которые в явном виде есть разрешение. А таких в природе нету. Вот и выходит что наукоёмкий опенсорс писать сложно.