LINUX.ORG.RU
ФорумTalks

В июле этого года исполняется 26 лет стандарту KOI8-R

 


1

2

Сабж. Именно 26 лет назад, в июле 1993-его года, был создан RFC 1489.
За принятие RFC 1489 выступала Society of Unix User Groups (SUUG), поскольку кодировка KOI8-R уже была де-факто стандартом мира Unix на территории бывшего СССР.
Юникод уже существовал и RFC 1489 описывает соответствие кодов символов кодам уже принятого юникодного стандарта ISO 10646 для тех, кому юникод избыточен.

Стандарт KOI8-R до RFC 1489 никогда не публиковался, но основан на нескольких опубликованных стандартах: ГОСТ 19768-74 (старый КОИ8), ISO 6937/8 (не зарегистрирован) и вариациях - INIS-cyrillic и ISO 5427.

* * *

Ура! Поздравляю KOI8-R'щиков с очередным днём рождения стандарта самой лучшей кодировки!

★★★★★
Ответ на: комментарий от Zhbert

Я уже давно говорил, что у нас в языке полно лишних символов. Все дифтонги можно легко писать двумя буквами: йэ, йо, йю и йа.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

Это не дифтонги, потому что одна из букв согласная.

Но это диграфы. Однако, следуя вашему предложению, стоило бы убрать и остальные составные знаки, например % или символ нумерации.

Leupold_cat ★★★★★
()
Последнее исправление: Leupold_cat (всего исправлений: 2)
Ответ на: комментарий от gremlin_the_red

Немного не так, вот как правильно:

Йожик льог под йолку и произньос: «Дитмар Эльашьэфич таких гьэнийэв шваброй сношал».

Это тебе сейчас кажется, что чушь предлагаю. После реформы пройдет лет 10, и все будут наоборот говорить: «что за дебил эти символы вроде «e», «ē», «ю» и «я» придумал когда-то? Без них намного лучше!»

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от t184256

Ты уж определись, восемнадцатый век, трафик ты собрался экономить или с UTF-8 на UTF-32 переходить?

Ему не нравится, что кириллица занимает больше, чем латиница. Русских же обижают.

theNamelessOne ★★★★★
()
Ответ на: комментарий от theNamelessOne

кириллица занимает больше, чем латиница

Кстати, а почему так? Одного байта должно же хватать с головой. Или там какие-то спец символы в кириллице есть?

otto ★★★
()
Ответ на: комментарий от theNamelessOne

Да, глянул какие коды у кириллицы, понял что хрень сморозил.

otto ★★★
()
Ответ на: комментарий от theNamelessOne

Внутренние протоколы обмена огромным количеством данных как минимум в двух банках.

shell-script ★★★★★
()
Ответ на: комментарий от Leupold_cat

дифтонги диграфы

Бухгалтерши обсуждают где заказать суши – в Гугле или на Яндексе.

А вообще достойный тред. Мне понравилось. Лорт.

Thetan ★★★
()

Понапридумывают всяких там кириллиц, кодировок. Что то это это - сорта

Ramil ★★★★
()
Ответ на: комментарий от Eddy_Em

Надо ширше мыслить – перейти на латиницу, вон Казахстан-то перешёл ж. А кириллицу оставить маргиналам типа тебя.

Deleted
()
Ответ на: комментарий от gremlin_the_red

А ты уже изготовил себе каменный нож, чтобы было чем лыко надрать на лапти?

В квотезы

Ramil ★★★★
()
Ответ на: комментарий от kirk_johnson

В мире не осталось нормальных, не двинутых мозгом не-ITшников, которые используют однобайтные кодировки.

Я подозреваю, что те, кто не задумывается о том, что в мире есть языки кроме английского, вполне могут пользоваться однобайтной ascii

cvs-255 ★★★★★
()
Ответ на: комментарий от kirk_johnson

Глобально - никому, кому не нужны нацизм и ксенофобия.

Общаться надо, а не лопотать на туземщинках.

t184256 ★★★★★
()
Ответ на: комментарий от cvs-255

Вот примкнуть к ним и будет идеальным решением.

t184256 ★★★★★
()
Ответ на: комментарий от kirk_johnson

Да, каждый второй на ЛОРе считает их наличие оправданием местечковых языков.

Из-за того, что самолетов не было и люди сидели на жопе ровно, вот почему.

Самолеты появились и дешевеют, а чем больше будут вымирать языковые барьеры, таможни и прочая ересь, тем больше люди будут перемешиваться и тем меньше будет диалектов.

Да, всякие AAVE останутся. Нет, их не будет больше. Нет, языки не перестали внезапно быть вредны.

t184256 ★★★★★
()

Если про однобайтовые кодировки, то чем koi8-r лучше cp1251 или cp866 (если так важны символы псевдографики)? Учитывая, что случаи обрезания 8-го бита - это какая-то экзотика даже для 90-х.

С высоты времени не понятно откуда была (у некоторых и осталась) такая любовь к koi8-r в unix-среде. Объективно никаких серьезных причин использовать koi8-r вместо cp1251 или 866 -ой не было. Даже из соображений legacy, потому что русскоязычная nix-среда только стала зарождаться в самом конце 80-х и фактически развивалась уже в 90-е.

Получается, что ради сохранения читаемости текста в каких-то ну очень редких ситуациях, на практике в намного порядков более частых возникали действительно нечитаемые кракозябры и даже полная потеря текста, если из-за несколько раз примененных неправильных перекодировок, уже ничего нельзя было восстановить.

praseodim ★★★★★
()
Последнее исправление: praseodim (всего исправлений: 1)
Ответ на: комментарий от crutch_master

Почему никто не сделал такой порядок букв АаБбВв...? Всё было бы в одном диапазоне, а регистр бы менялся изменением младшего бита.

Почти: CP855.
А разрыв на 0xB0-0xDF под псевдографику существует неспроста: текстовый режим 3 в VGA 80x25 имеет знакоместо 9х16, а символ 8x16; для указаного диапазона видеоадаптер аппаратно дублирует 8—ю колонку в 9-й, чтобы не было разрывов линий (отключаемо).

bormant ★★★★★
()
Ответ на: комментарий от bormant

А разрыв на 0xB0-0xDF под псевдографику существует неспроста: текстовый режим 3 в VGA 80x25 имеет знакоместо 9х16, а символ 8x16; для указаного диапазона видеоадаптер аппаратно дублирует 8—ю колонку в 9-й, чтобы не было разрывов линий (отключаемо).

Ну так это классический костыль. Сделали кодировку под кривизну аппаратуры.

Почти: CP855.

Да, но там тоже разрыв. Ни одной полноценной кодировки не видел. Почему никто так не делал? Повторяли за ASCII? Так там есть в этом смысл, и регистр меняется изменением одного бита. В наших попсовых национальных ни в одной такого нет, но все почему то косплеят ascii, и оставляют спецкейс для «Ёё» (которая не нужна).

crutch_master ★★★★★
()
Ответ на: комментарий от crutch_master

классический костыль.

Да, инженерное решение.

Сделали кодировку под кривизну аппаратуры.

Нет, на момент проектирования VGA в том диапазоне уже была псевдографика, в cp437 и аналогичных, поэтому и такой диапазон. В VGA нужно было сохранить непрерывные линии, поэтому вывод лишней колонки в знакоместе. cp866 просто унаследовала эту особенность из-за сохранения диапазона псевдографики.

А из-за остальных пришлось в ядре сделать лишнее преобразование при выводе на экран ;)

bormant ★★★★★
()
Последнее исправление: bormant (всего исправлений: 1)
Ответ на: комментарий от cvs-255

Нет, абсолютно так же. Напиши транскрипцию - увидишь.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от bormant

Ну то ладно, 866 и былые времена. Вот возьмём этот кои8. В чём фича так раскладывать алфавит, кроме кейса с просраным битом? Так-то костыль с vga действительно инженерное решение. Тут же всё оправдано только глюками какого-то левого софта, а когда это всё пофиксили, профита вообще не какого, кроме лулзов с бнопни.
Надо пилить принципиально новую однобайтовую кодировку, где будет:

Весь алфавит в одном интервале.
Изменение регистра путём изменения одного бита
Разделители слов в одном интервале или определяемые по маске

crutch_master ★★★★★
()
Последнее исправление: crutch_master (всего исправлений: 1)
Ответ на: комментарий от crutch_master

Надо пилить принципиально новую однобайтовую кодировку

Окей, гугл. Нанять киллера москва недорого.

gremlin_the_red ★★★★★
()
Ответ на: комментарий от crutch_master

Вот возьмём этот кои8. В чём фича так раскладывать алфавит, кроме кейса с просраным битом?

Только в этом. Но оно того стоило — русский текст можно было прочитать без дополнительной перекодировки после прохождения его через «черный ящик», повлиять на поведение которого нет возможности. Не нужно забывать, что иногда этим ящиком было печатающее устройство — ну-ка, поперекодируйте «с листа» в буквальном смысле ;) А в koi8r:

oGLAWLENIE
1. wWEDENIE
...

Или таких распечаток уже не застали?

Надо пилить принципиально новую однобайтовую кодировку

xkcd с комиксом про конкурирующие стандарты...

bormant ★★★★★
()
Последнее исправление: bormant (всего исправлений: 2)
Ответ на: комментарий от bormant

Или таких распечаток уже не застали?

Нет, но я понимаю о чём речь. В любом случае это всё уже устарело лет на 20 и юзают однобайтовые только некоторые люди для обработки текста, а кодировка под эту задачу не подходит никак (ну, или подходит, только если выкинуть «Ёё»).

crutch_master ★★★★★
()
Ответ на: комментарий от crutch_master

юзают однобайтовые только некоторые люди для обработки текста

И koi8-r, и utf8 создавались как транспортные кодировки, во главе угла стояло обеспечение передачи информации.
Для обработки текста идеальны кодировки с одинаковым числом байт на символ, в том числе и однобайтные. Вот только впихнуть все особенности только в расположение глифов в кодировке вряд ли выйдет ;) Достаточно вспомнить про существование разных интересных правил сортировки в зависимости от сочетаний букв в слове ;)
А раз задача решается только частично, при том, что геморроя приносится несравнимо больше, то и смысла в таком решении немного.
Остается libicu* ;)

bormant ★★★★★
()
Ответ на: комментарий от bormant

Только в этом. Но оно того стоило — русский текст можно было прочитать без дополнительной перекодировки после прохождения его через «черный ящик», повлиять на поведение которого нет возможности. Не нужно забывать, что иногда этим ящиком было печатающее устройство — ну-ка, поперекодируйте «с листа» в буквальном смысле ;) А в koi8r:

Насколько это было актуально уже даже в 90-е?

А насколько чаще были кракозябры из-за того, что у подавляющего большинства клиентов использовалась cp866 и cp1251?

praseodim ★★★★★
()
Ответ на: комментарий от praseodim

А насколько чаще были кракозябры из-за того, что у подавляющего большинства клиентов использовалась cp866 и cp1251?

Порядков на 6. Т.к. не существовало ни одного пользователя, который бы не сталкивался с кракозябрами.

gremlin_the_red ★★★★★
()
Ответ на: комментарий от praseodim

насколько чаще были кракозябры из-за того, что у подавляющего большинства клиентов использовалась cp866 и cp1251?

Но само сообщение было доставлено по-прежнему читаемым, достаточно было сменить «очки» на koi8-r с используемых cp866 и cp1251.

bormant ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.