LINUX.ORG.RU

История изменений

Исправление kirk_johnson, (текущая версия) :

Ну дык. UTF-32. Потому, что в UTF-8 все символы разного веса в байтах. Таким образом, всё сводится либо просто к массиву байт (и разбирайся в нём как знаешь) или к массиву структур...

Нет, не сводится. UTF-32 тоже нужно нормализовывать. И не забывай — фиксированный размер символа не отменяет того, что два последовательных символа могут отображаться как один. Так что замену по индексу ты один хрен сделать не сможешь.

Исходная версия kirk_johnson, :

Ну дык. UTF-32. Потому, что в UTF-8 все символы разного веса в байтах. Таким образом, всё сводится либо просто к массиву байт (и разбирайся в нём как знаешь) или к массиву структур...

Нет, не сводится. UTF-32 тоже нужно нормализовывать.