История изменений
Исправление shkolnick-kun, (текущая версия) :
1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?
После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.
Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом, текст преобразуется в массив чисел.
Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.
Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.
2) зачем нужны сверточныe сети, если у текста нет 2Д структуры и он как бы «одномерный»?
Уже нет. Да и свертки там используются 1D (по «времени»).
Исправление shkolnick-kun, :
1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?
После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.
Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом текст преобразуется в массив чисел.
Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.
Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.
2) зачем нужны сверточныe сети, если у текста нет 2Д структуры и он как бы «одномерный»?
Уже нет. Да и свертки там используются 1D (по «времени»).
Исправление shkolnick-kun, :
1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?
После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.
Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом текст преобразуется в массив чисел.
Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.
Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.
2) зачем нужны сверточныe сети, если у текста нет 2Д структуры и он как бы «одномерный»?
Уже нет. Да и свертки там используются 1D (по «времени»).
Исходная версия shkolnick-kun, :
1) в заглавном сообщений не написано о модели, как из текста получаются входные данные в нейросеть?
После препроцессинга получается «нормализованный» текст, он идет на вход токенизатора.
Токенизатор - это такой словарь, где каждой нормальной форме слова (точнее 20к самых частотных слов) ставится в соответствие число. Таким образом текст преобразуется в массив чисел.
Дальше этот массив идет на вход нейроночки, у которой есть слой имбеддингов. Он преобразует число в вектор, соответствующий нормальной форме слова.
Таким образом, у нас получается вместо текста - двумерный массив, на котором могут работать рекуррентные и сверточные сети.