LINUX.ORG.RU

История изменений

Исправление hateyoufeel, (текущая версия) :

Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта

Ага. Только там нет ограничения на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать. Кстати, 6 байт как раз покрывают символы от 0 до 2^31, которые и покрывает UTF-32.

В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.

Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.

Исправление hateyoufeel, :

Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта

Ага. Только там нет ограничения на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать. Кстати, 6 байт как раз покрывают символы от 0 до 2^31.

В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.

Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.

Исправление hateyoufeel, :

Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта

Ага. Только там нет ограничения на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать.

В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.

Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.

Исходная версия hateyoufeel, :

Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта

Ага. Только там нет ограничение на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать.

В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.

Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.