История изменений
Исправление hateyoufeel, (текущая версия) :
Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта
Ага. Только там нет ограничения на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать. Кстати, 6 байт как раз покрывают символы от 0 до 2^31, которые и покрывает UTF-32.
В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.
Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.
Исправление hateyoufeel, :
Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта
Ага. Только там нет ограничения на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать. Кстати, 6 байт как раз покрывают символы от 0 до 2^31.
В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.
Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.
Исправление hateyoufeel, :
Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта
Ага. Только там нет ограничения на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать.
В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.
Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.
Исходная версия hateyoufeel, :
Если почитать стандарт UTF-8, то там есть ограничения на то, как байты представляют номер кодепоинта
Ага. Только там нет ограничение на размер последовательности байтов под символ. Т.е. сейчас вроде 6 байт максимум, но никто не мешает и дальше копать.
В то время как в переменную, которая занимает 4 байта, можно уместить числа в диапазоне 0 - 4294967295. Так что, UTF-32 есть куда расширять.
Да, только UTF-32 не кодирует кодпоинты от 0 до 2^32. Читай внимательно описание кодировки.