LINUX.ORG.RU
ФорумTalks

К вопросу кодировок.


0

0

Здесь обсуждают призыв Джима Землина к производителям об прекращении поддержка файловой системы FAT

http://www.opennet.ru/opennews/art.shtml?num=21061

(странно, что на ЛОРе до сих пор не возникла тема).

В обсуждении затронули вопрос кодировок от M$ и кто то бросил линк на любопытное письмо

http://groups.google.com/group/relcom.comp.os.cmp/msg/73bd87373d9d09e1?hl=ru&...

------------------------------------------------------

Я тут написал сгоряча:

> ...может все это происки дяди Билла...

А потом вспомнил одну историю и с ужасом подумал, может зря я вместе с другими дядю Билла обижаю, может и не виноват он... может кого поближе найти можно... может меня самого...

История такая. Сразу предупреждаю, что большинство деталей у меня из головы выветрилось, за их точность я не ручаюсь, но основная канва верная, и, думаю, непосредственные участники смогут подтвердить, если пожелают.

Году так в 1991 (или это было в 1990?) Микрософт, серьезно озаботился локализацией своих продуктов для советского рынка. Очевидно, встал вопрос о кодировке. И вроде бы Микрософт запросил мнение российских программистов о кодовой таблице. И вот, в один прекрасный день человек 15-20 собралось в старом здании Параграфа на Петровском бульваре, чтобы выработать согласованное предложение для Микрософта. Hе могу назвать всех участников, большинство я тогда не знал, вот те, которые помню: Антон Чижов из Параграфа (он председательствовал), Петя Квитек из Диалога (кстати, г-н Саух, Вы тогда работали в Диалоге, вполне могли бы поучаствовать... но страшно далеки Вы были от Windows :-), Женя Hестеренко (он, собственно, и притащил меня на эту встречу), по-моему, был еще Игорь Баздырев (автор Паравина).

Консенсус был достигнут довольно быстро (по-моему, вся встреча длилась часа 2). Я смутно припоминая, что доводы были примерно такие (только не надо открывать дискуссию, это уже история, и тут ничего не изменишь):

- алфавит должен быть упорядочен (кроме буквы e:) - сначала uppercase, потом lowercase - колонки 80 и 90 - табу - колонка A0 отпала из-за того, что A0 - non-breakable space - использовался во всех word processors - не помню почему, но буква "A" должна была быть в строке 0 - тоже не помню, но разрывов не должно было быть

В результате, осталось всего 2 варианта - четыре колонки B0-EF (кстати, ISO8859-5) и C0-FF.

По-моему, решающим доводом в пользу второго варианта было то, что в Latin-1 (ISO8859-1) буквы с умлаутами были расположены в этих колонках.

Потом располагали e:E:, украинские и др. символы. Потом, кажется, Hестеренко с Баздыревым поехали делать красивую распечатку драфта.

Вот такая вот история. Конечно, вполне возможно, что выработанные рекомендации до Микрософта не дошли, или были им проигнорированы. Hо факт - русские буквы в cp1251 расположены именно так.

Может быть, дядю Билла стоит винить в том, что он пошел на поводу у несознательных русских, которые сами не знали, что творят? :-)

Честно скажу, я тогда про ISO8859-5 не знал напрочь. Знал бы, никогда бы за cp1261 выступать не стал бы. Hу, а у koi8 шансов никаких не было, к сожалению, изначально. -- Igor V. Semenyuk Internet: i...@sovam.com SOVAM Teleport Phone: +7 095 258 4170 Moscow, Russia Fax: +7 095 258 4133

★★★★

> Честно скажу, я тогда про ISO8859-5 не знал напрочь.

Профессионалы, ептыть.

praseodim ★★★★★
()

Чем ISO8859-5 лучше?

Deleted
()
Ответ на: комментарий от Artem_Korneev

В ней нет элементарной типографики, даже тире и номера. В ней буквы не упорядочены по алфавиту. В ней куча места отдано под ставшую ненужной с появлением графического режима псевдографику.

anonymfus ★★★★
()
Ответ на: комментарий от Artem_Korneev

Урезанной типографикой. Основное отличие всех (не только кириллических) виндовых кодировок по сравнению с досовскими — выкидывание псевдографики и добавление кучи знаков препинания.

anonymfus ★★★★
()
Ответ на: комментарий от anonymfus

Буквы там расположены таким образом, что при удалении первого бита русский текст остаётся читаемым, только превращается в транслит.
Отсутствие тире и номера.. Хм. Может их там и нет, не помню, но в юниксах при использовании koi8 никаких неудобств не возникает. Неужели значок номера был столь важен, что из-за него нужно было создавать всю эту чехарду с разными русскими кодировками?

Artem_Korneev
()
Ответ на: комментарий от Artem_Korneev

>Буквы там расположены таким образом, что при удалении первого бита русский текст остаётся читаемым, только превращается в транслит.

Но никакой проблемы с откидыванием восьмого бита и тогда практически не было, а с течением времени они ушли полностью. Следовательно, это не может считаться преимуществом.

>Отсутствие тире и номера.. Хм. Может их там и нет, не помню, но в юниксах при использовании koi8 никаких неудобств не возникает. Неужели значок номера был столь важен, что из-за него нужно было создавать всю эту чехарду с разными русскими кодировками?


Там ещё много чего нет, русских кавычек, параграфа, градуса и т. д..

>в юниксах при использовании koi8 никаких неудобств не возникает


Ещё как возникают...

Ещё несколько лет назад тире нельзя было на ЛОРе ввести. А когда Лебедев написал в ru-ководстве статью о русской типографике в HTML, линуксоиды на него кучу помоев вылили (тогда под линуксом был только неюникодный нетскейп, а IE был гораздо более совместим со стандартами W3C, чем мозилла).

anonymfus ★★★★
()
Ответ на: комментарий от anonymfus

Когда люди начинают говорить о типографике в консоли, мне хочется только покрутить пальцем у виска. Кому в консоли упёрлись типографские кавычки? Если кому-то потребуется создать текст, соответсвующий типографским стандартам, он возьмёт специальный инструмент.

А вот псевдографики из cp866 реально жалко. Ncurses могли бы выглядеть куда как приятнее, да и таблички в текстовых файлах частенько встречались.

Что до кои8 - то у неё свои плюсы, люди не зря про 7 бит думали. Потому как сидя за каким-нибудь непонятным dumb-терминалом даже нарвавшись на русский текст можно было его прочитать. Но с сортировкой конечно грабли..

deadman ★★
()
Ответ на: комментарий от deadman

>Когда люди начинают говорить о типографике в консоли, мне хочется только покрутить пальцем у виска.[...]А вот псевдографики из cp866 реально жалко

А в консоли в русской винде cp866 по дефолту и осталась.

anonymfus ★★★★
()
Ответ на: комментарий от deadman

> А вот псевдографики из cp866 реально жалко

Возрадуйся, в UTF-8 она есть. Правда, не уверен есть ли она в консоли без иксов и фреймбуфера.

question4 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.