КОИ32

1

1

Внезапно подумалось, что было бы очень хорошо если бы кто-нибудь взялся разработать отечественный аналог UTF-32 под названием КОИ32. Тогда бы можно было убрать модификаторы, и получить абсолютно правильную кодировку, в которой каждый символ всегда ровно 4 байта.

Полезная бы получилась кодировка.

Ссылка

←	помогите вспомнить рассказ

Облака, книги, копирайт и капиталисты

→

← 1 2 →

получить абсолютно правильную кодировку

Она есть. UTF-32 называется.

Unicode4all ★★★★★
(18.03.19 12:23:30 MSK)

Ответ на: комментарий от Unicode4all 18.03.19 12:23:30 MSK

Но там есть модификаторы.

saahriktu ★★★★★
(18.03.19 12:24:02 MSK) автор топика

cp866 хватит всем

ZenitharChampion ★★★★★
(18.03.19 12:24:20 MSK)

Ответ на: комментарий от ZenitharChampion 18.03.19 12:24:20 MSK

ASCII хватит всем, да, и возможны варианты. А то тут развели, понимаешь, комбайны юникодные…

mandala ★★★★★
(18.03.19 12:26:40 MSK)
Последнее исправление: mandala 18.03.19 12:27:39 MSK (всего исправлений: 1)

Ответ на: комментарий от mandala 18.03.19 12:26:40 MSK

Но там же вместо русских букв - непонятно что и из непонятно какого алфавита

ZenitharChampion ★★★★★
(18.03.19 12:27:56 MSK)
Последнее исправление: ZenitharChampion 18.03.19 12:35:19 MSK (всего исправлений: 2)

Ответ на: комментарий от saahriktu 18.03.19 12:24:02 MSK

А что с модификаторами не так? Предлагаешь на каждую комбинацию букв с диакритикой или ударениями лепить по глифу?

Unicode4all ★★★★★
(18.03.19 12:29:45 MSK)

Ответ на: комментарий от Unicode4all 18.03.19 12:29:45 MSK

А что с модификаторами не так?

То, что приходится дополнительно предварительно обрабатывать те случаи, когда модификаторы склеивают несколько codepoint'ов вместе. Без модификаторов ничего дополнительно парсить не нужно.

Предлагаешь на каждую комбинацию букв с диакритикой или ударениями лепить по глифу?

Глифы в шрифтах. Шрифты можно оставить прежними и написать дополнительную библиотеку, котрая будет конвертировать коды символов в соответствующие запросы к стандартным юникодным шрифтам. Я предлагаю на каждую такую комбинацию лепить по коду символа.

saahriktu ★★★★★
(18.03.19 12:39:02 MSK) автор топика
Последнее исправление: saahriktu 18.03.19 12:39:35 MSK (всего исправлений: 1)

Ссылка

Жажда «илитарности» не дает тебе покоя, я вижу.

Дайте мне что-нибудь такое, чего ни у кого нет, но при этом чтобы всюду поддерживалось! Я буду выводить текст в своей кодировке, ходить в инетрнет по своему протоколу, и смотреть на всех как на говно.

morse ★★★★★
(18.03.19 12:42:46 MSK)

# localedef -i en_US -f UTF-8 saahriktu.KOI-32
# export LANG=saahriktu.KOI-32

с тебя $1

~~Spoofing~~ ★★★★★
(18.03.19 12:45:48 MSK)

Ответ на: комментарий от Spoofing 18.03.19 12:45:48 MSK

Это UTF-8.

saahriktu ★★★★★
(18.03.19 12:48:08 MSK) автор топика

Ссылка

Ответ на: комментарий от morse 18.03.19 12:42:46 MSK

Так я ж про создание официального стандарта наравне с KOI8-R.

saahriktu ★★★★★
(18.03.19 12:49:02 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 12:49:02 MSK

Не всем нужны официальные стандарты

Deleted
(18.03.19 12:49:26 MSK)

Ссылка

Не всем нужны 32 бита.

~~kirk_johnson~~ ★☆
(18.03.19 13:04:23 MSK)

Ссылка

Смузихлёб

~~dk-~~ ☆
(18.03.19 13:07:03 MSK)

Ссылка

4 байта всё равно мало. Пора вылезти из ~~пещеры~~ консоли и посмотреть как устроенна современная отрисовка текста.

~~RazrFalcon~~ ★★★★★
(18.03.19 13:11:14 MSK)

Ссылка

Бесполезная. Проблемы с кодировками решены UTF-8.

Octagon ★
(18.03.19 13:11:16 MSK)

Ссылка

Ответ на: комментарий от saahriktu 18.03.19 12:24:02 MSK

Не всем нужна кодировка без модификаторов.

~~Quasar~~ ★★★★★
(18.03.19 13:12:32 MSK)

Ссылка

Больше, чем человеки способны выводить - ненужно. Шупальцами они могут чуть больше 5 бит. Голосом - чуть больше, но далеко не все разберут. Т.ч. кои-6 хватит всем(человекам).

DonkeyHot ★★★★★
(18.03.19 13:12:42 MSK)
Последнее исправление: DonkeyHot 18.03.19 13:13:33 MSK (всего исправлений: 2)

Так весь смысл юникода в том, что он uni. Китайцы, индусы, англосаксы, русские, арабы, все живут в одной большой толерантной небинарной семье.

BceM_IIpuBeT ★★☆☆☆
(18.03.19 13:15:11 MSK)

Не всем нужно, чтобы было очень хорошо!

ptarh ★★★★★
(18.03.19 13:22:28 MSK)

Ссылка

Ответ на: комментарий от BceM_IIpuBeT 18.03.19 13:15:11 MSK

Ну так пусть и продолжают оставаться в КОИ32 все эти иероглифы и прочие символы других алфавитов. Тогда КОИ32 хватит всем. И китайцам, и индусам, и арабам в том числе.

saahriktu ★★★★★
(18.03.19 13:25:19 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 13:25:19 MSK

Юникода уже хватает всем

Deleted
(18.03.19 13:27:35 MSK)

Ответ на: комментарий от Deleted 18.03.19 13:27:35 MSK

Не всем. В UTF-8 разный вес codepoint'ов в байтах. Эта проблема решена в UTF-32. Но в UTF-32 не решена проблема модификаторов. И вот её и можно решить в своей КОИ32.

saahriktu ★★★★★
(18.03.19 13:29:05 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 13:29:05 MSK

В UTF-8 разный вес codepoint'ов в байтах.

А это кого-то волнует, кроме тебя?

Deleted
(18.03.19 13:30:05 MSK)

Ответ на: комментарий от Deleted 18.03.19 13:30:05 MSK

Да. Например, Eddy_Em. А модификаторы юникода волнуют, например, Antonio Diaz Diaz'а.

saahriktu ★★★★★
(18.03.19 13:32:07 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 13:32:07 MSK

Вот и славно, ложитесь с Эдиком в одну палату

Deleted
(18.03.19 13:33:58 MSK)

Я не спец по юникоду, но мне кажется что UCS-4 это оно и есть.

UCS-4 и UTF-32 идентичны в настоящее время, за исключением того, что у стандарта UTF-32 есть дополнительная семантика Юникода

«дополнительная семантика Юникода» - это и есть упомянутые модификаторы, чтоб изображения символов склеивать?

sergej ★★★★★
(18.03.19 13:39:51 MSK)

Ссылка

Ответ на: комментарий от Deleted 18.03.19 13:33:58 MSK

Что плохого в том, чтобы хотеть удобную кодировку?

А одинаковый вес символов в байтах и отсутствие модификаторов - это именно удобства.

saahriktu ★★★★★
(18.03.19 13:40:40 MSK) автор топика

Ссылка

Ответ на: комментарий от saahriktu 18.03.19 13:25:19 MSK

Ты предлагаешь дропать ASCII?

BceM_IIpuBeT ★★☆☆☆
(18.03.19 13:43:20 MSK)

Ответ на: комментарий от BceM_IIpuBeT 18.03.19 13:43:20 MSK

Ну так по-настоящему юникодная эра начнётся именно с отмирания ASCII и внедрения, как минимум, UTF-32 во все поля.

А до этого пусть будет и UTF-8. Как совместимая с однобайтными кодировками в части ASCII, да.

saahriktu ★★★★★
(18.03.19 13:45:55 MSK) автор топика
Последнее исправление: saahriktu 18.03.19 13:47:47 MSK (всего исправлений: 1)

Ответ на: комментарий от saahriktu 18.03.19 13:45:55 MSK

Но ведь в ASCII тоже есть свой аналог модификатора в виде backspace.

BceM_IIpuBeT ★★☆☆☆
(18.03.19 13:50:40 MSK)

Ответ на: комментарий от BceM_IIpuBeT 18.03.19 13:50:40 MSK

backspace не склеивает несколько символов в один. А потому всё равно можно безошибочно отсчитывать ровное количество символов без предварительного разбора текста.

А не так, что отсчитал сколько-то байтов и внезапно по ошибке оказался в середине символа. В ASCII такого не бывает.

saahriktu ★★★★★
(18.03.19 13:54:38 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 13:29:05 MSK

В UTF-8 разный вес codepoint'ов в байтах. Эта проблема решена в UTF-32.

Нет. Гуглите про графемы.

~~RazrFalcon~~ ★★★★★
(18.03.19 14:26:42 MSK)

Ответ на: комментарий от saahriktu 18.03.19 13:54:38 MSK

Раньше так делали подчеркивания, перечеркивания, падежи и т.д.

BceM_IIpuBeT ★★☆☆☆
(18.03.19 14:31:23 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 18.03.19 14:26:42 MSK

Так графемы и codepoint'ы - это же разные вещи. Понятное дело, что в UTF-32 один символ может состоять из ряда codepoint'ов. Но это в т.ч. и потому, что в UTF-32 есть модификаторы.

Поэтому и возникают такие идеи как сабжевая.

saahriktu ★★★★★
(18.03.19 14:32:02 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 14:32:02 MSK

Понятное дело, что в UTF-32 один символ может состоять из ряда codepoint'ов.

Ну и смысл тогда от UTF-32, если напрямую с ним работать нельзя?

Выкинуть модификаторы - не решение.

~~RazrFalcon~~ ★★★★★
(18.03.19 14:33:58 MSK)

Ответ на: комментарий от RazrFalcon 18.03.19 14:33:58 MSK

Ну, как минимум, можно сократить код для побайтного чтения codepoint'ов.

Выкинуть модификаторы - не решение.

Почему?

saahriktu ★★★★★
(18.03.19 14:38:22 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 14:38:22 MSK

Почему?

Ты хочешь на каждый гендер смайлика отдельный код? Тогда 32 бита не хватит.

BceM_IIpuBeT ★★☆☆☆
(18.03.19 14:40:00 MSK)

Ссылка

Ответ на: комментарий от saahriktu 18.03.19 14:38:22 MSK

Ну, как минимум, можно сократить код для побайтного чтения codepoint'ов.

И какой от этого смысл? Работать со строкой как с байтами, и даже как с однотипными объектами - нельзя. Всё намного сложнее. Но вы видимо не в курсе.

Почему?

Потому, что они нужны. КО.

~~RazrFalcon~~ ★★★★★
(18.03.19 14:40:23 MSK)

Ээээ, а зачем? Смысл koi8 был в хаке для софта, который обрезает 8ой бит. В большей битности этот хак уже теряет смысл, так как есть koi8 для восьми бит.

Evgueni ★★★★★
(18.03.19 14:44:17 MSK)

разработать отечественный аналог UTF-32 под названием КОИ32

1. Берём UTF-32.
2. Для языков, где есть верний/гижний регистр меняем буквы местами.
3. Для всех языков делаем rot13.
4. КОИ32.
5. Profit!

atrus ★★★★★
(18.03.19 14:46:41 MSK)

Ссылка

Ты к врачу не хочешь сходить?

Поговорить с ним об этом?

theNamelessOne ★★★★★
(18.03.19 14:49:37 MSK)

Ответ на: комментарий от DonkeyHot 18.03.19 13:12:42 MSK

щупальцами можно 21 бит!

Harald ★★★★★
(18.03.19 15:11:54 MSK)

Я думаю, вам срочно нужно бежать за грантом. Куда? Можно поинтересоваться у тех, кто сейчас труп меч рыбы насилует скрепами.

pon4ik ★★★★★
(18.03.19 15:15:18 MSK)

Ответ на: Ты к врачу не хочешь сходить? от theNamelessOne 18.03.19 14:49:37 MSK

Так его в дурку сразу - опасно.

~~RazrFalcon~~ ★★★★★
(18.03.19 15:40:28 MSK)

Ссылка

Ответ на: комментарий от pon4ik 18.03.19 15:15:18 MSK

у тех, кто сейчас труп меч рыбы насилует скрепами

Есть видео?

~~RazrFalcon~~ ★★★★★
(18.03.19 15:40:58 MSK)

Ответ на: комментарий от Evgueni 18.03.19 14:44:17 MSK

а зачем?

Для удобств же.

А одинаковый вес символов в байтах и отсутствие модификаторов - это именно удобства.

saahriktu ★★★★★
(18.03.19 15:44:43 MSK) автор топика

Ответ на: комментарий от RazrFalcon 18.03.19 14:40:23 MSK

Работать со строкой как с байтами, и даже как с однотипными объектами - нельзя.

В однобайтных кодировках можно же. И можно создать свою новую кодировку, где тоже можно.

Потому, что они нужны.

Не всем нужны модификаторы.

saahriktu ★★★★★
(18.03.19 15:46:13 MSK) автор топика

Ответ на: комментарий от saahriktu 18.03.19 15:44:43 MSK

koi8 была удобна в ситуации когда обрезали восьмой бит. Больше никаких преимуществ перед другими восьмибитными кириллическими кодировками у неё не было. Уход за пределы восьми битов никакого преимущества koi8 не даёт от слова совсем.

И да, единственное преимущество koi8 как раз возникает в случае когда байт мог внезапно стать весом в 7 бит. Так что рассуждение по поводу стандартного размера char тут совершенно не в тему преимущества koi8.

Evgueni ★★★★★
(18.03.19 15:48:08 MSK)
Последнее исправление: Evgueni 18.03.19 15:50:21 MSK (всего исправлений: 2)

Ответ на: комментарий от mandala 18.03.19 12:26:40 MSK

Всё ради эмодзей.

Deleted
(18.03.19 15:50:09 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	помогите вспомнить рассказ

Talks

Облака, книги, копирайт и капиталисты

→

Ты к врачу не хочешь сходить?

Похожие темы