LINUX.ORG.RU
решено ФорумTalks

Однозначность кодирования букв. Графика и фонетика.


0

0

1. Все ли буквы языков Unicode, кодируются соответствующими кодовыми
таблицами однозначно? Или есть буквы, которые могут быть закодированы
различными символами? Например, если произносятся по-разному. То есть,
описывает ли стандарт Unicode какие-либо значения (семантику) букв,
помимо их вида?

2. Какие широкоизвестные кодовые таблицы содержат символы, не входящие в Unicode?

★★★★★

Какие широкоизвестные кодовые таблицы содержат символы, не входящие в Unicode?


Кроме того, из «правильных» кодовых таблиц - какие их символы имеют
несколько образов при отображении во множество символов Unicode?
Т.е. все ли символы остальных (не-UTF) кодовых таблиц отображаются в Unicode однозначно?

pacify ★★★★★
() автор топика

>кодовые таблицы

Если таблица - это изоморфная структура вида «key-value», то многозначность там исключена по умолчанию.

jcd ★★★★★
()

>Все ли буквы языков Unicode, кодируются соответствующими кодовыми таблицами однозначно? Или есть буквы, которые могут быть закодированы различными символами? Например, если произносятся по-разному. То есть, описывает ли стандарт Unicode какие-либо значения (семантику) букв, помимо их вида?

Ну понятно, если бы какой англоговорящий спрашивал, но ведь даже в русском и латинском алфавитах есть одинаково выглядящие символы. АВЕКМНОРСТХ и ABEKMHOPCTX, например. Которые, естественно, имеют разный смысл и разные коды.

Вид символов описывается в шрифтах, а в юникоде именно семантика, например тире и горизонтальная черта, точка в середине символа и знак умножения — разные символы.

Некоторые иероглифы, которые имеют одинаковый смысл у японцев и китайцев, закодированы одинаково, но это вызывает протесты националистов...

anonymfus ★★★★
()

Дублирующие символы встречаются если входят в разные алфавиты (например латинский и кириллица). Тем более одну и ту же букву можно представить как одним символом так и символ + умляут

DNA_Seq ★★☆☆☆
()

>Или есть буквы, которые могут быть закодированы различными символами? Например, если произносятся по-разному

есть диграфы, есть диакритика, или я чего-то не понял?

filellin
()
Ответ на: комментарий от pacify

«Кодовые таблицы» - это, может быть, codepages? Насколько мне известно, все они полностью и однозначно отражаются в Юникоде.

Или есть буквы, которые могут быть закодированы различными символами? Например, если произносятся по-разному.

Единственный класс случаев ПМСМ - это запись в неродной кодировке или на неродной раскладке, когда вместо ё приходится писать е, вместо ö - o, и т. п. Не имеет отношения к отображению кодовых страниц в Юникод.

Xenesz ★★★★
()
Ответ на: комментарий от DNA_Seq

DNA_Seq wrote:

Дублирующие символы встречаются если входят в разные алфавиты ...


У меня вопрос - встречается ли буква хотя бы одного алфавита, которая в Unicode представлена различными символами (закодирована неоднозначно)?

jcd wrote:

Если таблица - это изоморфная структура вида «key-value», то многозначность там исключена по умолчанию.


Да, это очевидно. Правда, правильно произносится - «изоморфное отображение» T вида T:{key} -> {value}.
Вопрос выше - является ли отображение T для одного алфавита однозначным?

pacify ★★★★★
() автор топика

1. Все ли буквы языков Unicode, кодируются соответствующими кодовыми
таблицами однозначно? Или есть буквы, которые могут быть закодированы
различными символами? Например, если произносятся по-разному. То есть,
описывает ли стандарт Unicode какие-либо значения (семантику) букв,
помимо их вида?

Я что-то читал про проблему уникода, как раз из-за того, что в нем символы кодируются на основе комбинаций базовых глифов.

А базовые глифы - это, например, каждая буква латинского алфавита. Таким образом, всякие «U с умляудом» (в пространстве кодов, выделенных под конкретный алфавит) кодируется как код глифа «U» и код глифа «кружок» и код размещения этого кружка «сверху».

Проблемы возникают тогда, когда используется два или больше диакритических знака для базового глифа. Проблема в том, что однозначного правила перечислений диакритических знаков нет. Поэтому один и тот же символ, внешне выглядещий одинаково, можно закодировать в уникоде по-разному. И в некоторых языках до сих пор не сформировался уникод-стандарт, что затрудняет работу со строками.

Как-то так.

xintrea
()
Ответ на: комментарий от pacify

Т - однозначно, а вот всякие Ё и немецко-французкие буковки с черточками сверху можно представить несколькими вариантами для одного алфавита. Описано например в книжке «Регулярные выражения» за авторством Фридла

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от DNA_Seq

Описано например в книжке «Регулярные выражения» за авторством Фридла.


Да, прочитал про «базовые» и «комбинационные» символы, «однопунктовые версии» символов.
С. 147 «Комбинационные последовательности Юникода: \X»,
U+00C7 = U+0063 U+0327 (запись символов Юникода, вне зависимости от внутреннего представления).
С. 126 - 128 «Юникод. Символы и комбинации, Наличие разных представлений»,
тут ошибка: символ «и» (латинское) + умлаут (U+0049 U+0308) - корректен,
и не тоже самое, что и «йота» + умлаут (U+0399 U+0308). См. также
U+00CF; U+03AA.

P.S. Таблицы Unicode есть в книге «XML. Справочник.» (в приложении) авторства Гарольда и Минса.

pacify ★★★★★
() автор топика
Ответ на: комментарий от DNA_Seq

>а вот всякие Ё и немецко-французкие буковки с черточками сверху можно представить несколькими вариантами для одного алфавита

диакритический символ-то один, но в разных языках - роль его далеко не одинакова. умляут (трема,диэрезис) в греческом языке, например, используют для фонетического разделения диграфов, образующихся при образовании сложных слов, т.е. надо смотреть не только на один символ, но и немного вокруг.

filellin
()
Ответ на: комментарий от wingear

>так вроде бы кандзи(ханьгыль) вообще одинаковые, что в Корее, что Китае с Японией
Одинаковые они только в юникоде. Курить han unification. Кстати, у него были и противники.
И вообще, не хангыль а ханчча. Хангыль — азбука.

x3al ★★★★★
()
Ответ на: комментарий от filellin

например, используют для фонетического разделения диграфов,

образующихся при образовании сложных слов, т.е. надо смотреть

не только на один символ, но и немного вокруг.


Здесь речь не о морфемах и фонемах, а о графемах (буквах) и их семантике
в представлении Unicode. Словообразование же и произношение
букв/сочетаний букв, как я понял из прежнего обсуждения, не описывается
Unicode'ом.

pacify ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.