Вот смотрю статью: https://habr.com/ru/company/skillfactory/blog/562928/
Там на картинке показывается, что Input Embedding and Position Encoding получает подготовленный текст разделенный на слова (третья картинка).
Вопрос, это так, или же в сеть как-то все же подается текст без какой-либо предварительной обработки?