LINUX.ORG.RU
ФорумTalks

КОИ32

 , ,


1

1

Внезапно подумалось, что было бы очень хорошо если бы кто-нибудь взялся разработать отечественный аналог UTF-32 под названием КОИ32. Тогда бы можно было убрать модификаторы, и получить абсолютно правильную кодировку, в которой каждый символ всегда ровно 4 байта.

Полезная бы получилась кодировка.

★★★★★
Ответ на: комментарий от saahriktu

А что с модификаторами не так? Предлагаешь на каждую комбинацию букв с диакритикой или ударениями лепить по глифу?

Unicode4all ★★★★★
()
Ответ на: комментарий от Unicode4all

А что с модификаторами не так?

То, что приходится дополнительно предварительно обрабатывать те случаи, когда модификаторы склеивают несколько codepoint'ов вместе. Без модификаторов ничего дополнительно парсить не нужно.

Предлагаешь на каждую комбинацию букв с диакритикой или ударениями лепить по глифу?

Глифы в шрифтах. Шрифты можно оставить прежними и написать дополнительную библиотеку, котрая будет конвертировать коды символов в соответствующие запросы к стандартным юникодным шрифтам. Я предлагаю на каждую такую комбинацию лепить по коду символа.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)

Жажда «илитарности» не дает тебе покоя, я вижу.

Дайте мне что-нибудь такое, чего ни у кого нет, но при этом чтобы всюду поддерживалось! Я буду выводить текст в своей кодировке, ходить в инетрнет по своему протоколу, и смотреть на всех как на говно.

morse ★★★★★
()
Ответ на: комментарий от saahriktu

Не всем нужны официальные стандарты

Deleted
()

4 байта всё равно мало. Пора вылезти из пещеры консоли и посмотреть как устроенна современная отрисовка текста.

RazrFalcon ★★★★★
()

Бесполезная. Проблемы с кодировками решены UTF-8.

Octagon
()
Ответ на: комментарий от saahriktu

Не всем нужна кодировка без модификаторов.

Quasar ★★★★★
()

Больше, чем человеки способны выводить - ненужно. Шупальцами они могут чуть больше 5 бит. Голосом - чуть больше, но далеко не все разберут. Т.ч. кои-6 хватит всем(человекам).

DonkeyHot ★★★★★
()
Последнее исправление: DonkeyHot (всего исправлений: 2)

Так весь смысл юникода в том, что он uni. Китайцы, индусы, англосаксы, русские, арабы, все живут в одной большой толерантной небинарной семье.

BceM_IIpuBeT ★★☆☆☆
()

Не всем нужно, чтобы было очень хорошо!

ptarh ★★★★★
()
Ответ на: комментарий от BceM_IIpuBeT

Ну так пусть и продолжают оставаться в КОИ32 все эти иероглифы и прочие символы других алфавитов. Тогда КОИ32 хватит всем. И китайцам, и индусам, и арабам в том числе.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от Deleted

Не всем. В UTF-8 разный вес codepoint'ов в байтах. Эта проблема решена в UTF-32. Но в UTF-32 не решена проблема модификаторов. И вот её и можно решить в своей КОИ32.

saahriktu ★★★★★
() автор топика

Я не спец по юникоду, но мне кажется что UCS-4 это оно и есть.

UCS-4 и UTF-32 идентичны в настоящее время, за исключением того, что у стандарта UTF-32 есть дополнительная семантика Юникода

«дополнительная семантика Юникода» - это и есть упомянутые модификаторы, чтоб изображения символов склеивать?

sergej ★★★★★
()
Ответ на: комментарий от Deleted

Что плохого в том, чтобы хотеть удобную кодировку?

А одинаковый вес символов в байтах и отсутствие модификаторов - это именно удобства.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от BceM_IIpuBeT

Ну так по-настоящему юникодная эра начнётся именно с отмирания ASCII и внедрения, как минимум, UTF-32 во все поля.

А до этого пусть будет и UTF-8. Как совместимая с однобайтными кодировками в части ASCII, да.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)
Ответ на: комментарий от BceM_IIpuBeT

backspace не склеивает несколько символов в один. А потому всё равно можно безошибочно отсчитывать ровное количество символов без предварительного разбора текста.

А не так, что отсчитал сколько-то байтов и внезапно по ошибке оказался в середине символа. В ASCII такого не бывает.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Раньше так делали подчеркивания, перечеркивания, падежи и т.д.

BceM_IIpuBeT ★★☆☆☆
()
Ответ на: комментарий от RazrFalcon

Так графемы и codepoint'ы - это же разные вещи. Понятное дело, что в UTF-32 один символ может состоять из ряда codepoint'ов. Но это в т.ч. и потому, что в UTF-32 есть модификаторы.

Поэтому и возникают такие идеи как сабжевая.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Понятное дело, что в UTF-32 один символ может состоять из ряда codepoint'ов.

Ну и смысл тогда от UTF-32, если напрямую с ним работать нельзя?

Выкинуть модификаторы - не решение.

RazrFalcon ★★★★★
()
Ответ на: комментарий от RazrFalcon

Ну, как минимум, можно сократить код для побайтного чтения codepoint'ов.

Выкинуть модификаторы - не решение.

Почему?

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Почему?

Ты хочешь на каждый гендер смайлика отдельный код? Тогда 32 бита не хватит.

BceM_IIpuBeT ★★☆☆☆
()
Ответ на: комментарий от saahriktu

Ну, как минимум, можно сократить код для побайтного чтения codepoint'ов.

И какой от этого смысл? Работать со строкой как с байтами, и даже как с однотипными объектами - нельзя. Всё намного сложнее. Но вы видимо не в курсе.

Почему?

Потому, что они нужны. КО.

RazrFalcon ★★★★★
()

Ээээ, а зачем? Смысл koi8 был в хаке для софта, который обрезает 8ой бит. В большей битности этот хак уже теряет смысл, так как есть koi8 для восьми бит.

Evgueni ★★★★★
()

разработать отечественный аналог UTF-32 под названием КОИ32

1. Берём UTF-32.
2. Для языков, где есть верний/гижний регистр меняем буквы местами.
3. Для всех языков делаем rot13.
4. КОИ32.
5. Profit!

atrus ★★★★★
()

Я думаю, вам срочно нужно бежать за грантом. Куда? Можно поинтересоваться у тех, кто сейчас труп меч рыбы насилует скрепами.

pon4ik ★★★★★
()
Ответ на: комментарий от Evgueni

а зачем?

Для удобств же.

А одинаковый вес символов в байтах и отсутствие модификаторов - это именно удобства.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от RazrFalcon

Работать со строкой как с байтами, и даже как с однотипными объектами - нельзя.

В однобайтных кодировках можно же. И можно создать свою новую кодировку, где тоже можно.

Потому, что они нужны.

Не всем нужны модификаторы.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

koi8 была удобна в ситуации когда обрезали восьмой бит. Больше никаких преимуществ перед другими восьмибитными кириллическими кодировками у неё не было. Уход за пределы восьми битов никакого преимущества koi8 не даёт от слова совсем.

И да, единственное преимущество koi8 как раз возникает в случае когда байт мог внезапно стать весом в 7 бит. Так что рассуждение по поводу стандартного размера char тут совершенно не в тему преимущества koi8.

Evgueni ★★★★★
()
Последнее исправление: Evgueni (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.