LINUX.ORG.RU

Настройка нейронной сети для классификации текста

 ,


1

1

Нашел вот такой вот пример - https://github.com/jiegzhan/multi-class-text-classification-cnn-rnn для классификации текстов.

Но мне нужно немного подкорректировать код и настройки для того что бы распозновать статьи по 500 слов и на русскмо языке

Кто может сказать, какие настройки что значат тут?

«batch_size»: 256, «dropout_keep_prob»: 0.5, «embedding_dim»: 300, «evaluate_every»: 100, «filter_sizes»: «3,4,5», «hidden_unit»: 300, «l2_reg_lambda»: 0.0, «max_pool_size»: 4, «non_static»: false, «num_epochs»: 1, «num_filters»: 128

Особо интересно «dropout_keep_prob»: 0.5, «embedding_dim»: 300, «max_pool_size»: 4,

А то в гугле нет особой информации.


Но мне нужно немного подкорректировать код и настройки для того что бы распозновать статьи по 500 слов и на русскмо языке

А почему именно нейронки? Чем классические методы не устроили?

dropout_keep_prob

% случайно обнуляемых юнитов во время тренировки. Собственно, называется алгоритм Dropout. Это регуляризация.

embedding_dim

https://m.habrahabr.ru/company/ods/blog/329410/

max_pool_size

http://cs231n.github.io/convolutional-networks/#pool

А то в гугле нет особой информации

Есть все в Гугле. Просто ты либо очень ленивый, либо не умеешь гуглить.

Solace ★★
()
Ответ на: комментарий от Solace

Спасибо за ссылки! Классический метод не устраивает, т.к. нет ключевых слов за которые можно гарантированно уцепиться, и текст бывает в разном формате описания (ну разный стиль скажем).

num_filters - а что может быть такое?

glorsh
() автор топика
Ответ на: комментарий от glorsh

ключевых слов за которые можно гарантированно уцепиться

текст бывает в разном формате

А свёрточная сетка поверх word2vec (или какие у них эмбеддинги) сделает какую-то магию, да. Вообще же - какого рода данные и насколько их много? Возможно - лучше будет обучить эмбеддинг (а то и предобученный заюзать - хотя это и с ИНС может иметь смысл), но на его основе пилить не ИНС, а другое поделие (в рамках шутки диванного NLP-ка: knn поверх word mover distance на окне в N предложений).

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.