История изменений
Исправление
kirk_johnson,
(текущая версия)
:
Ну дык. UTF-32. Потому, что в UTF-8 все символы разного веса в байтах. Таким образом, всё сводится либо просто к массиву байт (и разбирайся в нём как знаешь) или к массиву структур...
Нет, не сводится. UTF-32 тоже нужно нормализовывать. И не забывай — фиксированный размер символа не отменяет того, что два последовательных символа могут отображаться как один. Так что замену по индексу ты один хрен сделать не сможешь.
Исходная версия
kirk_johnson,
:
Ну дык. UTF-32. Потому, что в UTF-8 все символы разного веса в байтах. Таким образом, всё сводится либо просто к массиву байт (и разбирайся в нём как знаешь) или к массиву структур...
Нет, не сводится. UTF-32 тоже нужно нормализовывать.