Поиск в интернет через локальный ИИ

python, интернет, искусственный интеллект, поиск

0

2

Доброго времени суток!

Ищу пути решения вопроса: Необходимо по описанию объекта (название, производитель, фасовка и прочее) выводить примерные размеры объекта или упаковки. Код пишется на питоне, данные хранятся локально.

Вижу решение через использование ИИ в командной строке. Периодически появляется объекты для которых нужно найти размеры. Запускается скрипт и выдаёт размеры в виде сообщения: длина, ширина, высота.

Конечно, хочется что бы это было бесплатно, но как пойдет) Данные максимально хранятся локально, в т.ч. движок ИИ.

Запросы проверял через HuggingFace. С использованием статистический обработки ответов нескольких ИИ точность получается около 11%. Но тут мало токенов в день. Например, у меня студенты 3 группы по 20 человек, каждый пробует запросы и это быстро заканчивается.

Примерно так. Спасибо!

Ссылка

←	Узнать сколько бутылок пива в магазине

Работа с framebuffer под Qt

→

Вижу решение через использование ИИ в командной строке

не вижу для рандомных объектов. ИИ это не телепат чтоб угадывать что у тебя за размеры и у каких объектов

peregrine ★★★★★
(13.03.25 09:12:59 MSK)

Ответ на: комментарий от peregrine 13.03.25 09:12:59 MSK

Запрос: Наименование: Кофе растворимый Jacobs Monarch Код: 4607001776499 Бренд Jacobs

Даёт вполне нормальный ответ. Длина, ширина, высота, вес.

длина: 40 мм. ширина: 155 мм. Высота: 210 мм. Вес: 150 гр.

stslit
(13.03.25 09:18:45 MSK) автор топика

Данные максимально хранятся локально, в т.ч. движок ИИ.

А данные для движка? Или надеемся, что вытянем несколько страниц из поисковиков, скормим их ИИ и он найдет ответ в этих данных?

blex ★★★
(13.03.25 10:29:03 MSK)

Ответ на: комментарий от blex 13.03.25 10:29:03 MSK

Это главный вопрос, что в ИИ должен быть доступ к сети, как это сделано HuggingFace.

ИИ развернуть локально не проблема. Проблема найти страницы и скормить. Их может быть очень много. Так что ИИ сам должен искать их в сети)

stslit
(13.03.25 10:48:36 MSK) автор топика

Ты хочешь поисковую систему на LLM.

Зайди "анонимно" (сбрось куки или через приватный браузинг) в гугл и посмотри как работает их поиск (без всяких финтов ушами со скобочками и прочим, простой дефолтный поиск). Ты найдёшь что угодно, только не то что тебе нужно.

Модель у тебя будет суммаризировать (причём не всегда корректно) и искать то что она "поняла", а не то что ты запросил. И выдавать не то что написано, а то как оно это "поняло". Может вообще бред нести, если превысить размер контекста.

Твоя задача решается через fuzzy find, но никак не через LLM. Если, конечно, тебе нужен результат, а не поиграться.

mord0d ★★★★★
(13.03.25 10:53:02 MSK)

Ссылка

Ответ на: комментарий от stslit 13.03.25 10:48:36 MSK

ИИ сам должен искать их в сети

Это работает не так.

Какой-то скрипт ищет в сети, опционально парсит HTML, скармливает кучу найденного текста как запрос в LLM и оно жуёт.

mord0d ★★★★★
(13.03.25 10:54:12 MSK)

Ответ на: комментарий от mord0d 13.03.25 10:54:12 MSK

была выполнена проверка на 11 ИИ в HuggingFace. В результате осталось 5. Погрешность 11%, как сказал выше.

Спасибо! Попробую поискать информацию по fuzzy find. Сложность поиска в большом количестве данных через несколько поисковых систем, которые могут банить запросы при частом обращении (хотя можно использовать ВПН))

stslit
(13.03.25 11:01:04 MSK) автор топика

Ответ на: комментарий от stslit 13.03.25 11:01:04 MSK

Сложность поиска в большом количестве данных через несколько поисковых систем, которые могут банить запросы при частом обращении

Кэши на что?

Поднимаешь кэширующий поисковик локально (их немало, но тут конкретно подсказать не могу — не моя тема, не разбираюсь) и каждый запрос производится в интернете один раз в определённый период, все другие поднимают результат из кэша.

Кстати, там должен быть нечёткий поиск искаропки.

Погрешность 11%, как сказал выше.

Если тебе важна точность результата (ты ведь не сказки пишешь, ты работаешь с данными), то 11% это ОЧЕНЬ много. Понятно что у тебя там не какие-то сверхточные вычисления, но я считаю что 3% это предел.

mord0d ★★★★★
(13.03.25 11:13:49 MSK)

Ответ на: комментарий от stslit 13.03.25 09:18:45 MSK

Возможно будет проще сделать список из 100-200 сайтов оптовиков и парсить их каталоги по штрихкоду. 200 парсеров это не так долго как кажется. Но это зависит от того наколько ограничен потенциальный ассортимент.

А VPN тебе гугл забанит точно так же быстро. Нужны резидентные прокси с ботнетов, много.

shimshimshim
(13.03.25 11:30:31 MSK)
Последнее исправление: shimshimshim 13.03.25 11:35:06 MSK (всего исправлений: 2)

Ответ на: комментарий от mord0d 13.03.25 11:13:49 MSK

Спасибо! Это то что нужно!

Да, 11 это много, но уменьшить не удалось. По некоторым параметрам доходило до 80%, а некоторые результаты ИИ давал 1900% 0_о

stslit
(13.03.25 11:32:36 MSK) автор топика

Ответ на: комментарий от shimshimshim 13.03.25 11:30:31 MSK

Да. Была мысль. Но у всех есть система защиты (можно обходить конечно, но они меняют ключи иногда) и не все имеют это в открытом доступе. Чаше проще найти на зарубежных сайтах. Пока эта мысль на крайний случай.

Довольно большая проблема, нет возможности валидации данных, кроме как самостоятельно брать линейку)

stslit
(13.03.25 11:35:51 MSK) автор топика

Ссылка

https://github.com/ItzCrazyKns/Perplexica

gagarin0
(13.03.25 12:00:09 MSK)

Ответ на: комментарий от stslit 13.03.25 11:01:04 MSK

Погрешность 11%, как сказал выше.

Ты в стартовом сообщеннии пишешь:

точность получается около 11%

точность и погрешность звучат как антонимы, чтобы под ними не подразумевалось.

MirandaUser2
(13.03.25 12:19:46 MSK)

Ответ на: комментарий от stslit 13.03.25 11:32:36 MSK

но уменьшить не удалось

Потому что в твоём юзкейсе LLM лишняя сущность. Тебе нужен просто поиск, а не какой-то там AI.

AI тебе нужен был бы если нужно провести какую-нибудь суммаризацию длинного текста в короткое описание, или наоборот, "наполнить" краткий отчёт для презентации.

mord0d ★★★★★
(13.03.25 13:51:31 MSK)
Последнее исправление: mord0d 13.03.25 13:52:28 MSK (всего исправлений: 1)

Ответ на: комментарий от gagarin0 13.03.25 12:00:09 MSK

Изучая этот вопрос, через локальные поисковые сервисы, понял, что эти системы обладают очень широким функционалом, в т.ч. по Вашей ссылке.

Спасибо!

stslit
(13.03.25 14:06:37 MSK) автор топика

Ссылка

Ответ на: комментарий от MirandaUser2 13.03.25 12:19:46 MSK

Да. Тут скорее погрешность. В данном контексте поиска без возможности валидации Точность поиска и Погрешность поиска, где то очень рядом. Часть данных можно проверить, часть нет.

stslit
(13.03.25 14:17:22 MSK) автор топика

Ссылка

Ответ на: комментарий от mord0d 13.03.25 13:51:31 MSK

Да. Согласен. Только погружаюсь в данную область. Нарезают много разных задач в разных направлениях. LLM впереди, будет делать описание по наименованию и артикулу.

stslit
(13.03.25 14:19:29 MSK) автор топика

Ответ на: комментарий от stslit 13.03.25 14:19:29 MSK

Я замечаю, что в рекламных блоках яндекса описание товара иногда от совсем другого товара (имеющего лишь некоторое визуальное сходство). Видимо это всё-таки проделки AI.

По теме: честно говоря, совершенно непонятно зачем нужны _примерные_ данные?

Обычно данные либо вообще не нужны (я и так представляю, какого размера пачка кофе), либо нужны точные - посчитать цену кофе на 1 гр, или учесть габариты и вес для транспортировки.

MirandaUser2
(13.03.25 15:04:11 MSK)

Ответ на: комментарий от MirandaUser2 13.03.25 15:04:11 MSK

примерность как проявления магичности - сугестия покупателя на покупку

qulinxao3 ★☆
(13.03.25 15:15:38 MSK)

Ссылка

Ответ на: комментарий от mord0d 13.03.25 13:51:31 MSK

Просто поиском не ограничится. Поди поиском пойми что там измеряется - один йогурт, блок из четырех йогуртов, коробка из полусотни в Метро или палетта у оптовика.

Еще есть такая вещь как доверие источнику. В кейсе опа может оказаться такое, что в 99 источниках из 100 размер один, а в одном единственном - другой, и этот последний верен, потому что там директор с окс и сам все измерил, а остальные перепечатали из релиза поставщика, где была опечатка. Такое сплошь и рядом бывает. И со временем если все это парсить руками появляются «любимчики» которым доверяшь даже если они в меньшинстве. Короче там все будет несколько сложнее, чем простой поиск по шк.

Так что какая-то обратная связь алгоритму все равно потребуется.

shimshimshim
(13.03.25 15:36:16 MSK)

Ответ на: комментарий от stslit 13.03.25 09:18:45 MSK

Ну смотри, когда у меня жило несколько котов я брал сухой корм китикет в мешках по 10 кг. Как ты его собрался отличать от корма по 300 грамм в упаковке? Ну а про то как результаты модели оценивать это вообще отдельная песня, но вам оно не надо, навыков нет. Гуляй Вася.

peregrine ★★★★★
(13.03.25 17:52:47 MSK)

Ссылка

Ответ на: комментарий от stslit 13.03.25 11:01:04 MSK

Как именно оценивались результаты можно узнать? Что там по F мере и так далее? Слово погрешность не о чём, т.к. оно не учитывает однобокости выборки и перекосов тестовых множеств. Его всегда употребляют с F мерой и полнотой.

peregrine ★★★★★
(13.03.25 17:55:18 MSK)
Последнее исправление: peregrine 13.03.25 17:58:03 MSK (всего исправлений: 1)

Ссылка

https://github.com/s3rgeym/interview-helper

тут можешь подсмотреть способ использования api blackbox ai нахаляву. дипсик я не понял как использовать. но там можно левое расширение для вскоде изучить.

rtxtxtrx ★★★
(13.03.25 18:14:42 MSK)
Последнее исправление: rtxtxtrx 13.03.25 18:16:02 MSK (всего исправлений: 1)

Ссылка

Наводящий вопрос: размер нужен для упаковки?

sparkie ★★★★★
(13.03.25 19:08:59 MSK)

Ответ на: комментарий от stslit 13.03.25 14:19:29 MSK

будет делать описание по наименованию и артикулу

Я не буду тебя обламывать заранее, сам всё увидишь. (=

Немного оффтопика. (=

Ты даёшь LLM молоток и просишь забить гвоздь.
Вместо этого оно долго рассказывает как правильно забивать гвозди молотком, героически отнимая у орков из соседней галактики орехи, чтобы наколоть их данным тобой ледорубом (путь был долгим, и твой молоток эволюционировал, а про гвозди оно благополучно забыло в пылу бреда солевого наркомана).

mord0d ★★★★★
(13.03.25 19:38:25 MSK)

Ссылка

Ответ на: комментарий от shimshimshim 13.03.25 15:36:16 MSK

Поди поиском пойми что там измеряется

По артикулу? Да, конечно, по артикулу нужно очень много гадать!

директор с окс и сам все измерил

LLM это не волшебная палочка, и не прорицатель. Это гадалка под солями! (%

mord0d ★★★★★
(13.03.25 19:41:10 MSK)

Ответ на: комментарий от mord0d 13.03.25 19:41:10 MSK

По одному и тому же шк будут находиться в том числе упаковки, и в том числе такое

Йогурт Чудо-Юдо x4
Кол: 1 шт

Такое сплошь и рядом на озоне и вообще везде, и поиск это обязательно найдет. Человек такие вещи кое-как парсит.

shimshimshim
(13.03.25 21:03:33 MSK)

Ответ на: комментарий от sparkie 13.03.25 19:08:59 MSK

Для хранения)

stslit
(14.03.25 08:55:44 MSK) автор топика

Ответ на: комментарий от mord0d 13.03.25 19:41:10 MSK

Да. Это мне становиться более понятно по мере погружения.

stslit
(14.03.25 08:56:26 MSK) автор топика

Ответ на: комментарий от stslit 14.03.25 08:55:44 MSK

Мне кажется, что ИИ здесь избыточен, обычная БД всё решит.

sparkie ★★★★★
(14.03.25 12:41:00 MSK)

Ссылка

Ответ на: комментарий от shimshimshim 13.03.25 21:03:33 MSK

Человек такие вещи кое-как парсит.

А LLM запнётся.

Я очень много экспериментировал с "вниманием" LLM на детали, и с уверенностью могу сказать что оно будет в таких случаях выдавать рандом, потому что взаимоисключающие параграфы для LLM это мультивыбор.

У меня есть бот, который имеет следющие "черты характера":

shy
rude
supportive
aggressive
smart
stupid

Угадай его "поведение" при взаимодействии с ним.
Hint: не угадаешь. И никто не угадает, потому что выпадет рандом. Причём при перегенерации сообщения могут быть выбраны другие не исключающие друг друга "особенности".

Это проверено на многих llama- и chatml-based моделях, рандом стабилен.

mord0d ★★★★★
(14.03.25 14:19:11 MSK)