История изменений

а на русском уже всё плохо, а опенсорс это значит что и данные должны быть не серые или вообще ворованные, а белые, на которые в явном виде есть разрешение.

Зачем? Никто не требует раскрывать датасет. Просто помалкивай, что использовал, например, книжки с электронных библиотек для тренировок ML. А еще лучше, чтобы кто-то другой (реальный или мнимый) тестировал на как бы своем датасете, а тебе только коэффициенты давал.

А то с такой моралью с ML энтузиастам вообще нечего делать, потому что не только с текстами для OCR, фактически вообще ни для чего нет возможности полностью белый большой датасет найти, если ты не крупная компания.

а на русском уже всё плохо, а опенсорс это значит что и данные должны быть не серые или вообще ворованные, а белые, на которые в явном виде есть разрешение.

Зачем? Никто не требует раскрывать датасет. Просто помалкивай, что использовал, например, книжки с электронных библиотек для тренировок ML. А еще лучше, чтобы кто-то другой (реальный или мнимый) тестировал на как бы своем датасете, а тебе только коэффициенты давал.

А то с такой моралью с ML энтузиастам вообще нечего делать, потому что не только с текстами для OCR, фактически вообще ни для чего нет возможности полностью белый большой датасет найти

а на русском уже всё плохо, а опенсорс это значит что и данные должны быть не серые или вообще ворованные, а белые, на которые в явном виде есть разрешение.

Зачем? Никто не требует раскрывать датасет. Просто помалкивай, что использовал, например, книжки с электронных библиотек для тренировок ML. А еще лучше, чтобы кто-то другой (реальный или мнимый) тестировал на как бы своем датасете, а тебе только коэффициенты давал.