LINUX.ORG.RU

История изменений

Исправление shkolnick-kun, (текущая версия) :

1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?

После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.

Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом, текст преобразуется в массив чисел.

Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.

Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.

2) зачем нужны сверточныe сети, если у текста нет 2Д структуры и он как бы «одномерный»?

Уже нет. Да и свертки там используются 1D (по «времени»).

Исправление shkolnick-kun, :

1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?

После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.

Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом текст преобразуется в массив чисел.

Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.

Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.

2) зачем нужны сверточныe сети, если у текста нет 2Д структуры и он как бы «одномерный»?

Уже нет. Да и свертки там используются 1D (по «времени»).

Исправление shkolnick-kun, :

1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?

После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.

Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом текст преобразуется в массив чисел.

Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.

Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.

2) зачем нужны сверточныe сети, если у текста нет 2Д структуры и он как бы «одномерный»?

Уже нет. Да и свертки там используются 1D (по «времени»).

Исходная версия shkolnick-kun, :

1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?

После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.

Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом текст преобразуется в массив чисел.

Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.

Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.