LINUX.ORG.RU

Поиск в интернет через локальный ИИ

 , , ,


0

3

Доброго времени суток!

Ищу пути решения вопроса: Необходимо по описанию объекта (название, производитель, фасовка и прочее) выводить примерные размеры объекта или упаковки. Код пишется на питоне, данные хранятся локально.

Вижу решение через использование ИИ в командной строке. Периодически появляется объекты для которых нужно найти размеры. Запускается скрипт и выдаёт размеры в виде сообщения: длина, ширина, высота.

Конечно, хочется что бы это было бесплатно, но как пойдет) Данные максимально хранятся локально, в т.ч. движок ИИ.

Запросы проверял через HuggingFace. С использованием статистический обработки ответов нескольких ИИ точность получается около 11%. Но тут мало токенов в день. Например, у меня студенты 3 группы по 20 человек, каждый пробует запросы и это быстро заканчивается.

Примерно так. Спасибо!


Вижу решение через использование ИИ в командной строке

не вижу для рандомных объектов. ИИ это не телепат чтоб угадывать что у тебя за размеры и у каких объектов

peregrine ★★★★★
()
Ответ на: комментарий от peregrine

Запрос: Наименование: Кофе растворимый Jacobs Monarch Код: 4607001776499 Бренд Jacobs

Даёт вполне нормальный ответ. Длина, ширина, высота, вес.

длина: 40 мм. ширина: 155 мм. Высота: 210 мм. Вес: 150 гр.

stslit
() автор топика

Данные максимально хранятся локально, в т.ч. движок ИИ.

А данные для движка? Или надеемся, что вытянем несколько страниц из поисковиков, скормим их ИИ и он найдет ответ в этих данных?

blex ★★★
()
Ответ на: комментарий от blex

Это главный вопрос, что в ИИ должен быть доступ к сети, как это сделано HuggingFace.

ИИ развернуть локально не проблема. Проблема найти страницы и скормить. Их может быть очень много. Так что ИИ сам должен искать их в сети)

stslit
() автор топика

Ты хочешь поисковую систему на LLM.

Зайди "анонимно" (сбрось куки или через приватный браузинг) в гугл и посмотри как работает их поиск (без всяких финтов ушами со скобочками и прочим, простой дефолтный поиск). Ты найдёшь что угодно, только не то что тебе нужно.

Модель у тебя будет суммаризировать (причём не всегда корректно) и искать то что она "поняла", а не то что ты запросил. И выдавать не то что написано, а то как оно это "поняло". Может вообще бред нести, если превысить размер контекста.

Твоя задача решается через fuzzy find, но никак не через LLM. Если, конечно, тебе нужен результат, а не поиграться.

mord0d ★★★★★
()
Ответ на: комментарий от stslit

ИИ сам должен искать их в сети

Это работает не так.

Какой-то скрипт ищет в сети, опционально парсит HTML, скармливает кучу найденного текста как запрос в LLM и оно жуёт.

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

была выполнена проверка на 11 ИИ в HuggingFace. В результате осталось 5. Погрешность 11%, как сказал выше.

Спасибо! Попробую поискать информацию по fuzzy find. Сложность поиска в большом количестве данных через несколько поисковых систем, которые могут банить запросы при частом обращении (хотя можно использовать ВПН))

stslit
() автор топика
Ответ на: комментарий от stslit

Сложность поиска в большом количестве данных через несколько поисковых систем, которые могут банить запросы при частом обращении

Кэши на что?

Поднимаешь кэширующий поисковик локально (их немало, но тут конкретно подсказать не могу — не моя тема, не разбираюсь) и каждый запрос производится в интернете один раз в определённый период, все другие поднимают результат из кэша.

Кстати, там должен быть нечёткий поиск искаропки.

Погрешность 11%, как сказал выше.

Если тебе важна точность результата (ты ведь не сказки пишешь, ты работаешь с данными), то 11% это ОЧЕНЬ много. Понятно что у тебя там не какие-то сверхточные вычисления, но я считаю что 3% это предел.

mord0d ★★★★★
()
Ответ на: комментарий от stslit

Возможно будет проще сделать список из 100-200 сайтов оптовиков и парсить их каталоги по штрихкоду. 200 парсеров это не так долго как кажется. Но это зависит от того наколько ограничен потенциальный ассортимент.

А VPN тебе гугл забанит точно так же быстро. Нужны резидентные прокси с ботнетов, много.

shimshimshim
()
Последнее исправление: shimshimshim (всего исправлений: 2)
Ответ на: комментарий от mord0d

Спасибо! Это то что нужно!

Да, 11 это много, но уменьшить не удалось. По некоторым параметрам доходило до 80%, а некоторые результаты ИИ давал 1900% 0_о

stslit
() автор топика
Ответ на: комментарий от shimshimshim

Да. Была мысль. Но у всех есть система защиты (можно обходить конечно, но они меняют ключи иногда) и не все имеют это в открытом доступе. Чаше проще найти на зарубежных сайтах. Пока эта мысль на крайний случай.

Довольно большая проблема, нет возможности валидации данных, кроме как самостоятельно брать линейку)

stslit
() автор топика
Ответ на: комментарий от stslit

Погрешность 11%, как сказал выше.

Ты в стартовом сообщеннии пишешь:

точность получается около 11%

точность и погрешность звучат как антонимы, чтобы под ними не подразумевалось.

MirandaUser2
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.