LINUX.ORG.RU

История изменений

Исправление DRVTiny, (текущая версия) :

Могу поддержать в том плане, что большинство текстов на естественных языках - двуязычные, и один из языков - английский, а второй - национальный. Если просто использовать для кодирования таких текстов однобайтовые кодировки - можно сократить расход памяти на их хранение и промежуточную обработку в 1.5-2 раза (если английской части и однобайтовых знаков типа пробела мало по объёму относительно «национального» текста). Т.е. неплохой такой способ сжатия получается: берём текст в UTF-8, конвертим в национальную кодировку - и вуаля, получаем кратную экономию памяти. Скорость считывания процессором символов однобайтовой кодировки тоже должна быть выше - хотя бы за счёт того, что здесь длина символа всегда фиксирована и равна 1 байту, а не как Бог на душу положит (в UTF-8 от 1-го до 3-х байт на символ).

Но конечно текст со смесью языков (русский, английский, китайский, например) однобайтово никак не представишь... если не учитывать конечно того неоспоримого факта, что абсолютное большинство текстов передаются и хранятся не в plain-виде, так что переключение кодировки можно было бы учитывать в мерзких XML-тегах и атрибутах JSON-объектов, например.

Исходная версия DRVTiny, :

Могу поддержать в том плане, что большинство текстов на естественных языках - двуязычные, и один из языков - английский, а второй - национальный. Если просто использовать для кодирования таких текстов однобайтовые кодировки - можно сократить расход памяти на их хранение и промежуточную обработку сэкономить память в 1.5-2 раза (если английской части и однобайтовых знаков типа пробела мало по объёму относительно «национального» текста). Т.е. неплохой такой способ сжатия получается: берём текст в UTF-8, конвертим в национальную кодировку - и вуаля, получаем кратную экономию памяти. Скорость считывания процессором символов однобайтовой кодировки тоже должна быть выше - хотя бы за счёт того, что здесь длина символа всегда фиксирована и равна 1 байту, а не как Бог на душу положит (в UTF-8 от 1-го до 3-х байт на символ).

Но конечно текст со смесью языков (русский, английский, китайский, например) однобайтово никак не представишь... если не учитывать конечно того неоспоримого факта, что абсолютное большинство текстов передаются и хранятся не в plain-виде, так что переключение кодировки можно было бы учитывать в мерзких XML-тегах и атрибутах JSON-объектов, например.