Задача — определить, что на изображении. Текст (например, скрин твиттера или фейсбука — в основном задача стоит отделять их), фото, диаграммы?
Есть такое в открытом виде?
В плане велосипедов — пока в голову приходит только оценка доли чисто белых пикселей, если она выше критической — то это текст. Работать будет грубо, но изображения с текстом можно будет как-то отфильтровать от фото.
Кстати, а какие методы есть для быстрой оценки числа белых пикселей? В голову пока приходит только ресайз до каких-то средних размеров и тупая проверка цвета в цикле. Но это будет либо медленно, если размер после ресайза большой, или совсем грубо, если маленький.