История изменений
Исправление praseodim, (текущая версия) :
На rsdn хороший практический пример применения ИИ есть https://rsdn.org/forum/ai/8786048
На фриланс есть (был) заказ https://freelance.habr.com/tasks/588562
На фрилансе интересная задачка попалась: Преобразовать данные с изображений.
В теории понятно как делать: 1. Находим таблицу на изображении 2. Распознаем текст 3. Переводим 4. Формируем новую таблицу транспонируя матрицу
Как это можно реализовать вообще? Искать какую-то нейросеть для поиска таблиц? И как лучше сделать нарезку изображений для распознавания и перевода? Перевести можно используя Tesseract OCR или что хорошо умеет в китайский. Дальше уже имея распознанную таблицу сформировать новую не проблема.
Как я понял есть какой-то одежный китайский сайт с описанием шмоток и таблицей их размеров. Надо было выдрать эти размеры с описаний и предоставить в виде изображения таблицы с ними.
Основная сложность, что эти таблицы носят достаточно произвольный характер.
Автор сообщения предполагал что-то мутить с тессерактом или еще какой OCR.
Вместо этого запросик к чатгопоте с просьбой найти таблицу размеров и выдать результат в Json https://rsdn.org/forum/ai/8888152
Мне кажется ты сильно недооцениваешь современные LLM. Ниже пример для Chat GPT. Никого тренировать не надо, все уже натренеровано. Цена за 1 картинку 1000х1000 GPT будет около $0.002
Хренак-хренак и готово. Еще конечно Json надо в картинку превратить, но это уже обычная задача, которую думаю даже не самый опытный программист осилит. А то может и на это правильный промпт получится составить.
Нужен конечно платный доступ к API от OpenAI. Но может даже локальные LLM справятся, это проверять надо.
Исходная версия praseodim, :
На rsdn хороший практический пример применения ИИ есть https://rsdn.org/forum/ai/8786048
На фриланс есть (был) заказ https://freelance.habr.com/tasks/588562
На фрилансе интересная задачка попалась: Преобразовать данные с изображений.
В теории понятно как делать: 1. Находим таблицу на изображении 2. Распознаем текст 3. Переводим 4. Формируем новую таблицу транспонируя матрицу
Как это можно реализовать вообще? Искать какую-то нейросеть для поиска таблиц? И как лучше сделать нарезку изображений для распознавания и перевода? Перевести можно используя Tesseract OCR или что хорошо умеет в китайский. Дальше уже имея распознанную таблицу сформировать новую не проблема.
Как я понял есть какой-то одежный китайский сайт с описанием шмоток и таблицей их размеров. Надо было выдрать эти размеры с описаний и предоставить в виде изображения таблицы с ними.
Основная сложность, что эти таблицы носят достаточно произвольный характер.
Автор сообщения предполагал что-то мутить с тессерактом или еще какой OCR.
Вместо этого запросик к чатгопоте с просьбой найти таблицу размеров и выдать результат в Json https://rsdn.org/forum/ai/8888152
Мне кажется ты сильно недооцениваешь современные LLM. Ниже пример для Chat GPT. Никого тренировать не надо, все уже натренеровано. Цена за 1 картинку 1000х1000 GPT будет около $0.002
Хренак-хренак и готово. Еще конечно Json надо в картинку превратить, но это уже обычная задача, которую думаю даже не самый опытный программист осилит. А то может и на это правильный промпт получится составить.
Нужен конечно платный доступ к API от OpenAI