История изменений
Исправление bormant, (текущая версия) :
поиск слов нужен независимо от регистра
Тогда обращу внимание ещё на одну особенность Unicode и UTF-8 в части латиницы с диакритикой:
Один и тот же символ (codepoint), например, ä может быть представлен как:
-- один двухбайтовый символ: 0xC3 0xA4
-- символ плюс комбинируемая диакритика: 'a' 0xCC 0x88
http://en.wikipedia.org/wiki/Combining_character http://en.wikipedia.org/wiki/Unicode_normalization
Исходная версия bormant, :
поиск слов нужен независимо от регистра
Тогда обращу внимание ещё на одну особенность Unicode и UTF-8 в части латиницы с диакритикой:
Один и тот же символ (codepoint), например, ä может быть представлен как:
-- один двухбайтовый символ: 0xC3 0xA4
-- символ плюс комбинируемая диакритика: 'a' 0xCC 0x88