LINUX.ORG.RU

Маркировка текста

 ,


0

1

Пару лет не вникал в NLP (обработка естественного языка) задачи. С тех пор появилось много LLM для языков и не только LLM, вон недавно Phi-2 для английского вывалили с относительно скромными аппетитами в виде 16GB RAM.

А что-нибудь готовое или хотя бы в виде научных статей по расстановке тегов появилось? Желательно не требующего nvidia a100 80ГБ в количестве нескольких штук для работы и обучения, хотя на обучение 64 гига оперативки и 24 гига видеопамяти я легко найду, если прям хорошо пойдёт то и 120/40 найду со скрипом, 256 и 80 уже слишком дорого будет, мне не целесообразно получится.

Тексты на русском и английском интересуют. Да, видел как в лоб у чатгопоты спрашивали про теги и оно более-менее работало, но только на коротеньких предложениях. Понятно что есть идеи как можно решить задачу разными способами, учитывая что 100% точности мне не требуется, скорее под рекомендательный алгоритм чтоб подсовывать юзеру статьи на тематику которой он интересуется, благо размеченных тегами данных у меня много, но того что не размечено ещё больше.

Хочется глянуть научные статьи/опенсорсные продукты которые уже есть, прежде чем начинать велосипедостроением заниматься. Вдруг в этой области тоже прорывы были, а я проглядел. А так уверен там и Naive Bayes c TF-IDF будет как-то худо-бедно справляться. Но хочется чего-то получше.

Ах да, всё должно работать офлайн, т.е. никаких привязок к чужим облакам быть не должно вне зависимости от их юрисдикции.

★★★★★

Последнее исправление: peregrine (всего исправлений: 1)

Хочется глянуть научные статьи/опенсорсные продукты которые уже есть

Можно найти «в потрохах» NLP, например: NLTK ©, GATE ©, Mallet ©, OpenNLP ©, …
но «нельзя объять необъятное».

Понятно что есть идеи как можно решить задачу разными способами

Общий принцип: создаётся семантическая сеть, в коей любым способом формируются ассоциативные связи типа ©.
А далее классический кластерный анализ с целевой функцией, зависящей от конкретной задачи.

quickquest ★★★★★
()
Ответ на: комментарий от quickquest

Да это понятно, просто хочется посмотреть на топовые готовые решения. Страшной многоэтажной математики не боюсь.

PS

Есть такая моделька, называется doc2vec, вот что-то похожее в голове крутится, возможно несколько лучше чем оригинальная модель. В этом направлении наверное хочется мысль почитать. И что-то готовое предобученное что можно доучить.

peregrine ★★★★★
() автор топика
Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от quickquest

Ну или что-то вроде таких ссылок интересно было бы поглядеть

https://huggingface.co/spaces/mteb/leaderboard https://www.sbert.net/docs/pretrained_models.html

но чтоб там не только английский был, но и русский, оно меня тоже устроит

peregrine ★★★★★
() автор топика
Последнее исправление: peregrine (всего исправлений: 1)
Ответ на: комментарий от peregrine

Ну или что-то вроде таких ссылок интересно было бы поглядеть

Например, моделька на 32 ГБ: WizardLM-30B-Uncensored-GGML ©.

quickquest ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)