LINUX.ORG.RU

История изменений

Исправление anonymous_incognito, (текущая версия) :

Я уже достаточно объяснил в своём первом ответе. Дальше — читай документацию по Юникоду. Копипастить оттуда определения я не буду, сам найдёшь.

Возможно ты действительно запутываешь его, хотя почитать документацию по юникоду в любом случае полезно.

Просто CodePoint - это не что-то особенное, а номер символа в UTF-16, в форме \u0418 - это шестнадцатиричный номер «И» в таблице UTF-16, где для кириллицы отведены места от 0400 до 04FF.

utf-8 - это схема кодирования UTF-16 переменным числом байт в однобайтной последовательности. Для 0x0418 - это будут два _отдельных_ байта 0xd0 и 0x98

Исходная версия anonymous_incognito, :

Я уже достаточно объяснил в своём первом ответе. Дальше — читай документацию по Юникоду. Копипастить оттуда определения я не буду, сам найдёшь.

Возможно ты действительно запутываешь его, хотя почитать документацию по юникоду в любом случае полезно.

Просто CodePoint - это не что-то особенное, а номер символа в UTF-16, в форме \u0418 - это шестнадцатиричный номер «И» в таблице UTF-16, где для кириллицы отведены места от 0400 до 04FF.

utf-8 - это схема кодирования UTF-16 переменным числом байт в однобайтной последовательности.