Пару лет не вникал в NLP (обработка естественного языка) задачи. С тех пор появилось много LLM для языков и не только LLM, вон недавно Phi-2 для английского вывалили с относительно скромными аппетитами в виде 16GB RAM.
А что-нибудь готовое или хотя бы в виде научных статей по расстановке тегов появилось? Желательно не требующего nvidia a100 80ГБ в количестве нескольких штук для работы и обучения, хотя на обучение 64 гига оперативки и 24 гига видеопамяти я легко найду, если прям хорошо пойдёт то и 120/40 найду со скрипом, 256 и 80 уже слишком дорого будет, мне не целесообразно получится.
Тексты на русском и английском интересуют. Да, видел как в лоб у чатгопоты спрашивали про теги и оно более-менее работало, но только на коротеньких предложениях. Понятно что есть идеи как можно решить задачу разными способами, учитывая что 100% точности мне не требуется, скорее под рекомендательный алгоритм чтоб подсовывать юзеру статьи на тематику которой он интересуется, благо размеченных тегами данных у меня много, но того что не размечено ещё больше.
Хочется глянуть научные статьи/опенсорсные продукты которые уже есть, прежде чем начинать велосипедостроением заниматься. Вдруг в этой области тоже прорывы были, а я проглядел. А так уверен там и Naive Bayes c TF-IDF будет как-то худо-бедно справляться. Но хочется чего-то получше.
Ах да, всё должно работать офлайн, т.е. никаких привязок к чужим облакам быть не должно вне зависимости от их юрисдикции.