История изменений
Исправление anonymous_incognito, (текущая версия) :
Я уже достаточно объяснил в своём первом ответе. Дальше — читай документацию по Юникоду. Копипастить оттуда определения я не буду, сам найдёшь.
Возможно ты действительно запутываешь его, хотя почитать документацию по юникоду в любом случае полезно.
Просто CodePoint - это не что-то особенное, а номер символа в UTF-16, в форме \u0418 - это шестнадцатиричный номер «И» в таблице UTF-16, где для кириллицы отведены места от 0400 до 04FF.
utf-8 - это схема кодирования UTF-16 переменным числом байт в однобайтной последовательности. Для 0x0418 - это будут два _отдельных_ байта 0xd0 и 0x98
Исходная версия anonymous_incognito, :
Я уже достаточно объяснил в своём первом ответе. Дальше — читай документацию по Юникоду. Копипастить оттуда определения я не буду, сам найдёшь.
Возможно ты действительно запутываешь его, хотя почитать документацию по юникоду в любом случае полезно.
Просто CodePoint - это не что-то особенное, а номер символа в UTF-16, в форме \u0418 - это шестнадцатиричный номер «И» в таблице UTF-16, где для кириллицы отведены места от 0400 до 04FF.
utf-8 - это схема кодирования UTF-16 переменным числом байт в однобайтной последовательности.