LINUX.ORG.RU

Поиск в интернет через локальный ИИ

 , , ,


0

2

Доброго времени суток!

Ищу пути решения вопроса: Необходимо по описанию объекта (название, производитель, фасовка и прочее) выводить примерные размеры объекта или упаковки. Код пишется на питоне, данные хранятся локально.

Вижу решение через использование ИИ в командной строке. Периодически появляется объекты для которых нужно найти размеры. Запускается скрипт и выдаёт размеры в виде сообщения: длина, ширина, высота.

Конечно, хочется что бы это было бесплатно, но как пойдет) Данные максимально хранятся локально, в т.ч. движок ИИ.

Запросы проверял через HuggingFace. С использованием статистический обработки ответов нескольких ИИ точность получается около 11%. Но тут мало токенов в день. Например, у меня студенты 3 группы по 20 человек, каждый пробует запросы и это быстро заканчивается.

Примерно так. Спасибо!


Вижу решение через использование ИИ в командной строке

не вижу для рандомных объектов. ИИ это не телепат чтоб угадывать что у тебя за размеры и у каких объектов

peregrine ★★★★★
()
Ответ на: комментарий от peregrine

Запрос: Наименование: Кофе растворимый Jacobs Monarch Код: 4607001776499 Бренд Jacobs

Даёт вполне нормальный ответ. Длина, ширина, высота, вес.

длина: 40 мм. ширина: 155 мм. Высота: 210 мм. Вес: 150 гр.

stslit
() автор топика

Данные максимально хранятся локально, в т.ч. движок ИИ.

А данные для движка? Или надеемся, что вытянем несколько страниц из поисковиков, скормим их ИИ и он найдет ответ в этих данных?

blex ★★★
()
Ответ на: комментарий от blex

Это главный вопрос, что в ИИ должен быть доступ к сети, как это сделано HuggingFace.

ИИ развернуть локально не проблема. Проблема найти страницы и скормить. Их может быть очень много. Так что ИИ сам должен искать их в сети)

stslit
() автор топика

Ты хочешь поисковую систему на LLM.

Зайди "анонимно" (сбрось куки или через приватный браузинг) в гугл и посмотри как работает их поиск (без всяких финтов ушами со скобочками и прочим, простой дефолтный поиск). Ты найдёшь что угодно, только не то что тебе нужно.

Модель у тебя будет суммаризировать (причём не всегда корректно) и искать то что она "поняла", а не то что ты запросил. И выдавать не то что написано, а то как оно это "поняло". Может вообще бред нести, если превысить размер контекста.

Твоя задача решается через fuzzy find, но никак не через LLM. Если, конечно, тебе нужен результат, а не поиграться.

mord0d ★★★★★
()
Ответ на: комментарий от stslit

ИИ сам должен искать их в сети

Это работает не так.

Какой-то скрипт ищет в сети, опционально парсит HTML, скармливает кучу найденного текста как запрос в LLM и оно жуёт.

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

была выполнена проверка на 11 ИИ в HuggingFace. В результате осталось 5. Погрешность 11%, как сказал выше.

Спасибо! Попробую поискать информацию по fuzzy find. Сложность поиска в большом количестве данных через несколько поисковых систем, которые могут банить запросы при частом обращении (хотя можно использовать ВПН))

stslit
() автор топика
Ответ на: комментарий от stslit

Сложность поиска в большом количестве данных через несколько поисковых систем, которые могут банить запросы при частом обращении

Кэши на что?

Поднимаешь кэширующий поисковик локально (их немало, но тут конкретно подсказать не могу — не моя тема, не разбираюсь) и каждый запрос производится в интернете один раз в определённый период, все другие поднимают результат из кэша.

Кстати, там должен быть нечёткий поиск искаропки.

Погрешность 11%, как сказал выше.

Если тебе важна точность результата (ты ведь не сказки пишешь, ты работаешь с данными), то 11% это ОЧЕНЬ много. Понятно что у тебя там не какие-то сверхточные вычисления, но я считаю что 3% это предел.

mord0d ★★★★★
()
Ответ на: комментарий от stslit

Возможно будет проще сделать список из 100-200 сайтов оптовиков и парсить их каталоги по штрихкоду. 200 парсеров это не так долго как кажется. Но это зависит от того наколько ограничен потенциальный ассортимент.

А VPN тебе гугл забанит точно так же быстро. Нужны резидентные прокси с ботнетов, много.

shimshimshim
()
Последнее исправление: shimshimshim (всего исправлений: 2)
Ответ на: комментарий от mord0d

Спасибо! Это то что нужно!

Да, 11 это много, но уменьшить не удалось. По некоторым параметрам доходило до 80%, а некоторые результаты ИИ давал 1900% 0_о

stslit
() автор топика
Ответ на: комментарий от shimshimshim

Да. Была мысль. Но у всех есть система защиты (можно обходить конечно, но они меняют ключи иногда) и не все имеют это в открытом доступе. Чаше проще найти на зарубежных сайтах. Пока эта мысль на крайний случай.

Довольно большая проблема, нет возможности валидации данных, кроме как самостоятельно брать линейку)

stslit
() автор топика
Ответ на: комментарий от stslit

Погрешность 11%, как сказал выше.

Ты в стартовом сообщеннии пишешь:

точность получается около 11%

точность и погрешность звучат как антонимы, чтобы под ними не подразумевалось.

MirandaUser2
()
Ответ на: комментарий от stslit

но уменьшить не удалось

Потому что в твоём юзкейсе LLM лишняя сущность. Тебе нужен просто поиск, а не какой-то там AI.

AI тебе нужен был бы если нужно провести какую-нибудь суммаризацию длинного текста в короткое описание, или наоборот, "наполнить" краткий отчёт для презентации.

mord0d ★★★★★
()
Последнее исправление: mord0d (всего исправлений: 1)
Ответ на: комментарий от gagarin0

Изучая этот вопрос, через локальные поисковые сервисы, понял, что эти системы обладают очень широким функционалом, в т.ч. по Вашей ссылке.

Спасибо!

stslit
() автор топика
Ответ на: комментарий от MirandaUser2

Да. Тут скорее погрешность. В данном контексте поиска без возможности валидации Точность поиска и Погрешность поиска, где то очень рядом. Часть данных можно проверить, часть нет.

stslit
() автор топика
Ответ на: комментарий от mord0d

Да. Согласен. Только погружаюсь в данную область. Нарезают много разных задач в разных направлениях. LLM впереди, будет делать описание по наименованию и артикулу.

stslit
() автор топика
Ответ на: комментарий от stslit

Я замечаю, что в рекламных блоках яндекса описание товара иногда от совсем другого товара (имеющего лишь некоторое визуальное сходство). Видимо это всё-таки проделки AI.

По теме: честно говоря, совершенно непонятно зачем нужны _примерные_ данные?

Обычно данные либо вообще не нужны (я и так представляю, какого размера пачка кофе), либо нужны точные - посчитать цену кофе на 1 гр, или учесть габариты и вес для транспортировки.

MirandaUser2
()
Ответ на: комментарий от MirandaUser2

примерность как проявления магичности - сугестия покупателя на покупку

qulinxao3 ★☆
()
Ответ на: комментарий от mord0d

Просто поиском не ограничится. Поди поиском пойми что там измеряется - один йогурт, блок из четырех йогуртов, коробка из полусотни в Метро или палетта у оптовика.

Еще есть такая вещь как доверие источнику. В кейсе опа может оказаться такое, что в 99 источниках из 100 размер один, а в одном единственном - другой, и этот последний верен, потому что там директор с окс и сам все измерил, а остальные перепечатали из релиза поставщика, где была опечатка. Такое сплошь и рядом бывает. И со временем если все это парсить руками появляются «любимчики» которым доверяшь даже если они в меньшинстве. Короче там все будет несколько сложнее, чем простой поиск по шк.

Так что какая-то обратная связь алгоритму все равно потребуется.

shimshimshim
()
Ответ на: комментарий от stslit

Ну смотри, когда у меня жило несколько котов я брал сухой корм китикет в мешках по 10 кг. Как ты его собрался отличать от корма по 300 грамм в упаковке? Ну а про то как результаты модели оценивать это вообще отдельная песня, но вам оно не надо, навыков нет. Гуляй Вася.

peregrine ★★★★★
()
Ответ на: комментарий от stslit

Как именно оценивались результаты можно узнать? Что там по F мере и так далее? Слово погрешность не о чём, т.к. оно не учитывает однобокости выборки и перекосов тестовых множеств. Его всегда употребляют с F мерой и полнотой.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 1)

https://github.com/s3rgeym/interview-helper

тут можешь подсмотреть способ использования api blackbox ai нахаляву. дипсик я не понял как использовать. но там можно левое расширение для вскоде изучить.

rtxtxtrx ★★★
()
Последнее исправление: rtxtxtrx (всего исправлений: 1)
Ответ на: комментарий от stslit

будет делать описание по наименованию и артикулу

Я не буду тебя обламывать заранее, сам всё увидишь. (=


Немного оффтопика. (=

Ты даёшь LLM молоток и просишь забить гвоздь.
Вместо этого оно долго рассказывает как правильно забивать гвозди молотком, героически отнимая у орков из соседней галактики орехи, чтобы наколоть их данным тобой ледорубом (путь был долгим, и твой молоток эволюционировал, а про гвозди оно благополучно забыло в пылу бреда солевого наркомана).

mord0d ★★★★★
()
Ответ на: комментарий от shimshimshim

Поди поиском пойми что там измеряется

По артикулу? Да, конечно, по артикулу нужно очень много гадать!

директор с окс и сам все измерил

LLM это не волшебная палочка, и не прорицатель. Это гадалка под солями! (%

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

По одному и тому же шк будут находиться в том числе упаковки, и в том числе такое

Йогурт Чудо-Юдо x4
Кол: 1 шт

Такое сплошь и рядом на озоне и вообще везде, и поиск это обязательно найдет. Человек такие вещи кое-как парсит.

shimshimshim
()
Ответ на: комментарий от stslit

Мне кажется, что ИИ здесь избыточен, обычная БД всё решит.

sparkie ★★★★★
()
Ответ на: комментарий от shimshimshim

Человек такие вещи кое-как парсит.

А LLM запнётся.

Я очень много экспериментировал с "вниманием" LLM на детали, и с уверенностью могу сказать что оно будет в таких случаях выдавать рандом, потому что взаимоисключающие параграфы для LLM это мультивыбор.


У меня есть бот, который имеет следющие "черты характера":

  • shy
  • rude
  • supportive
  • aggressive
  • smart
  • stupid

Угадай его "поведение" при взаимодействии с ним.
Hint: не угадаешь. И никто не угадает, потому что выпадет рандом. Причём при перегенерации сообщения могут быть выбраны другие не исключающие друг друга "особенности".

Это проверено на многих llama- и chatml-based моделях, рандом стабилен.

mord0d ★★★★★
()
Ответ на: комментарий от stslit

Это мне становиться более понятно по мере погружения.

И это только самое начало. (=
Дальше будет хуже интереснее.

mord0d ★★★★★
()

Подключитть ChatGPT через API и дергать его, он умеет в поиск информации в поисковиках. Локальный ИИ не умеет в поиск.

Norgat ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.