Так исторически сложилось что при кодировании текста кодируется писменность, конкретно каждый символ. Но может много лучше кодировать слова: корни и морфологию, или даже предложения. То есть парсить еще до записи в файл. Это даст затем больше свободы для ввода и отображения текста.
Не будет орфографических ошибок, систему письменности при вводе и отображении можно будет выбирать. Например кто-то набирает текст транслитом, а вы затем читаете в кирилице.