История изменений

Исправление praseodim, 26.01.25 15:33 (текущая версия) :

На rsdn хороший практический пример применения ИИ есть https://rsdn.org/forum/ai/8786048

На фриланс есть (был) заказ https://freelance.habr.com/tasks/588562

На фрилансе интересная задачка попалась: Преобразовать данные с изображений.
В теории понятно как делать: 1. Находим таблицу на изображении 2. Распознаем текст 3. Переводим 4. Формируем новую таблицу транспонируя матрицу
Как это можно реализовать вообще? Искать какую-то нейросеть для поиска таблиц? И как лучше сделать нарезку изображений для распознавания и перевода? Перевести можно используя Tesseract OCR или что хорошо умеет в китайский. Дальше уже имея распознанную таблицу сформировать новую не проблема.

Как я понял есть какой-то одежный китайский сайт с описанием шмоток и таблицей их размеров. Надо было выдрать эти размеры с описаний и предоставить в виде изображения таблицы с ними.

Основная сложность, что эти таблицы носят достаточно произвольный характер.

Автор сообщения предполагал что-то мутить с тессерактом или еще какой OCR.

Вместо этого запросик к чатгопоте с просьбой найти таблицу размеров и выдать результат в Json https://rsdn.org/forum/ai/8888152

Мне кажется ты сильно недооцениваешь современные LLM. Ниже пример для Chat GPT. Никого тренировать не надо, все уже натренеровано. Цена за 1 картинку 1000х1000 GPT будет около $0.002

Хренак-хренак и готово. Еще конечно Json надо в картинку превратить, но это уже обычная задача, которую думаю даже не самый опытный программист осилит. А то может и на это правильный промпт получится составить.

Нужен конечно платный доступ к API от OpenAI. Но может даже локальные LLM справятся, это проверять надо.

Исходная версия praseodim, 26.01.25 15:32:

На rsdn хороший практический пример применения ИИ есть https://rsdn.org/forum/ai/8786048

На фриланс есть (был) заказ https://freelance.habr.com/tasks/588562

На фрилансе интересная задачка попалась: Преобразовать данные с изображений.
В теории понятно как делать: 1. Находим таблицу на изображении 2. Распознаем текст 3. Переводим 4. Формируем новую таблицу транспонируя матрицу
Как это можно реализовать вообще? Искать какую-то нейросеть для поиска таблиц? И как лучше сделать нарезку изображений для распознавания и перевода? Перевести можно используя Tesseract OCR или что хорошо умеет в китайский. Дальше уже имея распознанную таблицу сформировать новую не проблема.

Основная сложность, что эти таблицы носят достаточно произвольный характер.

Автор сообщения предполагал что-то мутить с тессерактом или еще какой OCR.

Мне кажется ты сильно недооцениваешь современные LLM. Ниже пример для Chat GPT. Никого тренировать не надо, все уже натренеровано. Цена за 1 картинку 1000х1000 GPT будет около $0.002

Нужен конечно платный доступ к API от OpenAI