LINUX.ORG.RU

В X11 кодировкой по умолчанию для России становится UTF8

 , , ,


0

0

Три часа назад, не без помощи со стороны svu, Daniel Stone внёс в код libX11 важное изменение, лог которого звучит следующим образом: "так как никто не пользуется кодировкой 8859-5, то кодировкой по умолчанию для России будет UTF-8".

Не прошло и 20 лет...

>>> Подробности



Проверено: anonymous_incognito ()
Последнее исправление: CYB3R (всего исправлений: 1)
Ответ на: комментарий от anonymous

>>Как пропатчить locate -i и grep под utf-8?

>>Юзать нормальный дистр? У меня в мандривах 2007.* из коробки работают.

Ржу, немогу...

BartMan
()
Ответ на: комментарий от anonymous

>>> А этой самой ISO-8859-5 вообще кто нибудь сейчас пользуются? > Все, кто пользуется OS/2 :)

> И Novell NetWare (:

И олдскульным Solaris. Только нахрена им всем нужен новый xorg?

anonymous
()

такое впечатление, что люди жалующиеся на переменную длину символа сами сидят и пишут библиотеки для работы с юникодом. бедненькие.

svu респект и уважуха, как говорится.

anonymous
()
Ответ на: комментарий от anonymous

> Но в уникоде символов больше 65536! Так что даже UCS4 не поможет охватить все.

4 байта -- 2^32 = 4 294 967 296

Не надо путать с UCS-2/UTF-16.

acheron ★★★★
()

Кстати говоря, как c UTF-8 в Соляре, и QNX? В консоли, имеется в виду (на уровне Гуя, думаю, как и в Бзде, все впорядке)...

unihorn
()
Ответ на: комментарий от anonymous

>и Ъ называется UCS, а не UTF. жаль, нельзя в некоторые черепа это молотком вколотить.

Обе кодировки нужны и важны. Одна для передачи, другая для обработки.

smartly ★★★
()

На самом деле нет повода не выпить.

А ещё в Debian недавно наконец-то допилили dselect, и он стал нормально работать в utf-8. Что не может не радовать. Так что долой зоопарк!

Xellos ★★★★★
()

Чего так все обрадовались, можно подумать до этого иксы не умели работать с utf-8, вся новость только в том, что сделали Utf-8 из коробки для русского языка и все.

anonymous
()
Ответ на: комментарий от KRoN73

>Следуя твоей логике, однобайтная кодировка рулит? >По объёму - рулит. Но объём - не единственный критерий. Или ты упустил >то, с чего я начинал утверждение? «UTF-8 на сегодня одно из самых >оптимальных решений.» Оптимальное - это золотая середина. Не очень >большой прирост объёма. При этом возможность передавать до 2^31 >символов.

Золотая середина для кого? Есть языки, которые будут кодироваться 4 байтами. А есть язык, который будет кодироваться одним байтом. Угадай какой? Я вижу в этом дискриминацию и нарушение свобод.

laune
()
Ответ на: комментарий от acheron

> Приплюсуй процент русских, знающих иностранные языки помимо английского и итальянского (и, вроде, болгарского и сербского).

В сербском есть символы, которых нет в КОИ-8.

Юникод - это хорошо. Потому что мне, например, приходится иметь дело как минимум с русским, латышским, английским, литовским, эстонским, болгарским, немецким, испанским, французским, шведским, финским языками. Естественно, я не владею всеми ими, но правильно видеть написанное нужно обязательно.

На ввод мне нужны только ангийский, русский и латышский. Это уже причина использовать Unicode. Кстати, xkb позволяет настроить клавиатуру куда удобнее, чем Windows или Mac OS X.

Совместное использование русского и латышского языков - это отдельная долгая песня. Были созданы даже 8-битные кодировки на основе 1251, в которых было то и другое, и шрифты. Так в Латвии работает, например, 1С Предприятие 7.7 :) Но юникод, понятно, удобнее.

Deleted
()
Ответ на: комментарий от laune

>Золотая середина для кого?

Для всех :)

>Есть языки, которые будут кодироваться 4 байтами.

И много таких? Китайские и японские иероглифы обычно тремя байтами кодируются.

И альтернативы всё равно нет. В UTF-32 они всё равно будут кодироваться даже не тремя, а 4-мя байтами. А UTF-16 - не хватает. Да и так и не смогла инфраструктура осилить кодировки, содержащие в себе управляющие байты.

>А есть язык, который будет кодироваться одним байтом. Угадай какой?

Это не язык. Это письменность. Самая распространённая. Даже "мультибайтовые китайцы" программы и HTML-код на латинице пишут. Кстати, в случае китайского UTF-8, как я уже говорил, получается компактнее, чем UTF-32, а в однобайтовые кодировки они не влезают.

KRoN73 ★★★★★
()
Ответ на: комментарий от Xellos

>На самом деле нет повода не выпить. >А ещё в Debian недавно наконец-то допилили dselect, и он стал нормально >работать в utf-8. Что не может не радовать. Так что долой зоопарк!

Когда будешь пить, не забудь, что мир систем ограничивается не только дебианом это раз. А два это то, что к зоопарку восьмибитных кодировок пришло стадо многобайтных парнокапыто-юникодных кодировок.

laune
()
Ответ на: комментарий от laune

>А есть язык, который будет кодироваться одним байтом. Угадай какой? Я вижу в этом дискриминацию и нарушение свобод.

Напишите в UNO и пожалуйтесь в Европейский Суд по правам человека.

З.Ы.: Только в IT суконных патриотов не хватало.

ptarh ★★★★★
()
Ответ на: комментарий от anonymous

интересно, какой дурак научил тебя переводить «premature optimization» как «предварительная оптимизация»?

кстати, когда тебе нужны калоши, ты тоже берёшь резновые сапоги и фигурно вырезаешь?

anonymous
()
Ответ на: комментарий от KRoN73

>Золотая середина для кого? >Для всех :) >Есть языки, которые будут кодироваться 4 байтами. >И много таких? Китайские и японские иероглифы обычно тремя байтами >кодируются.

Сам ответил. Сколько китайцев живёт?

А теперь, опс... представь себя китайцем-японцем, которому впаривают UTF-8.

laune
()
Ответ на: комментарий от laune

>А теперь, опс... представь себя китайцем-японцем, которому впаривают UTF-8.

Ещё раз, для тех, кто не умеет читать. Давай по порядку. Что ты китайцам предложишь вместо UTF-8?

KRoN73 ★★★★★
()
Ответ на: комментарий от acheron

4.2. в винде UCS была до NT3.5. опосля чего все дружно перешли на UTF-16, но поскольку и так никто unicode не использовал, то никто и не заметил.

anonymous
()
Ответ на: комментарий от ptarh

>А есть язык, который будет кодироваться одним байтом. Угадай какой? Я >вижу в этом дискриминацию и нарушение свобод. >Напишите в UNO и пожалуйтесь в Европейский Суд по правам человека. >З.Ы.: Только в IT суконных патриотов не хватало.

Твоя позиция сугубо быдлятско-обывательсквя. Тебя не трогают -- тебе хорошо. Ну ничего, и за тобой придут! :-)

laune
()
Ответ на: комментарий от Evgueni

а ещё в мире есть много слепых, поэтому выпус обычных мониторов надо свернуть и делать только брайлев вывод. потому что зрячий брайль асилит, а слепой CRT/TFT — нет. так, ага?

anonymous
()
Ответ на: комментарий от acheron

grep работает. Только тормозит так, что невозможно пользоваться. И, хотя он и работает, приходится писать iconv -f utf8 -t koi8-r |(LANG=ru_RU.koi8-r grep `echo ляляля |iconv -f utf8 -t koi8-r`) |iconv -f koi8-r |t utf8.

А с какой версии работает locate -i?

alexsaa
()
Ответ на: комментарий от KRoN73

>Ещё раз, для тех, кто не умеет читать. Давай по порядку. Что ты >китайцам предложишь вместо UTF-8?

Я как раз-то им _не_предлагаю_. Я не кричу РУЛЕЗЗЗЗЗЗ UTF-8. Я хочу, чтобы многие посмотрели на эту ситуацию с другой стороны, и поняли, что это также очередное заблуждение.

laune
()
Ответ на: комментарий от mrdeath

>Одна кодировка на весь мир -- это тру.

Когда я выяснил, что у винды другая кодировка юникода и совместимости как не было так и нет, я на него забил :)

petrosha ★★★★★
()
Ответ на: комментарий от anonymous

>Ты наверное тот самый бородатый сисадмин.

Мне просто не нужно на ввод выдавать никакие буквы кроме русских и латиницы :) А на вывод уникод давно работает.

petrosha ★★★★★
()
Ответ на: комментарий от alexsaa

>А с какой версии работает locate -i?

$ locate -i Высоцкий|head -n 3
/home/balancer/.elisa/amazon_cache/Весь Владимир Высоцкий на 32 cd, диск 11, бонус-треки.png

никогда не видел проблем с locate, ни раньше, при rlocate, ни сейчас, при mlocate.

KRoN73 ★★★★★
()
Ответ на: комментарий от laune

>Я как раз-то им _не_предлагаю_.

Ок, так и запишем.

>Я не кричу РУЛЕЗЗЗЗЗЗ UTF-8.

Если при всём богатстве выбора, альтренативы нет, то данный выбор - рулез. По определению :) А в абсолютных категориях рулеза не бывает, так как с дерьмом можно смешать _что угодно_ :) Рулез - понятие всегда относительное.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

Тьфу, в буфере обмена другое застряло. Вот что должно быть:

$ locate -i высоцкий
/home/balancer/.elisa/amazon_cache/Весь Владимир Высоцкий на 32 cd, диск 11, бонус-треки.png
...

KRoN73 ★★★★★
()
Ответ на: комментарий от anonymous

а если использовать только 0 и 1, то таблицы вообще минимальные будут. и что? давно пора перейти на UCS-2, заботливо оставив возможность безболезненного перехода на UCS-4 в будущем. хотя начерта этот UCS-4 нужен — не ясно.

anonymous
()
Ответ на: комментарий от anonymous

нет, они сидят и матерятся. потому что в этом удолбище даже задача «сдвинуться на символ назад» превращается в совершенно неувлекательный и ненужный анальный секс. и вместо простого p-- приходится городить невнятный код или дёргать функцию.

anonymous
()
Ответ на: комментарий от Deleted

> На ввод мне нужны только ангийский, русский и латышский. Это уже причина использовать Unicode. Кстати, xkb позволяет настроить клавиатуру куда удобнее, чем Windows или Mac OS X.

Вашу ж мать! Да какая хер разница, какая у тебя кодировка, если ты работаешь в Х-ах? Я при своей KOI8-R могу спокойно писать на русском, английском (english), немецком (süß), грузинском (გამარჯობას). Другое дело, когда я вылазию в голую текстовую консоль -- там все символы отображаются тем наборов знаков, что есть в шрифте. Там действительно не прочитать текст сразу на нескольких языках со специфическими знаками.

anonymous
()
Ответ на: комментарий от anonymous

Про исковерканную шутку из Касабланки уже попинали - и за дело.

Какое там мгимо... Так, английский на уровне "для жизни и работы хватает". А где я там напахал - поведай, о внук Шекспира и племянник Твена?

Все респекты Даниелю, он первый поставил вопрос (он вообще мегачел, между нами - только вот пофиксил бы пару багов...). Я только предоставил ему инфу (на свой вкус). Если кому-то не нравится утф8 (фанат кои8) - можете пинать меня за дезу;).

svu ★★★★★
()
Ответ на: комментарий от KRoN73

>Я как раз-то им _не_предлагаю_. >Ок, так и запишем. >Я не кричу РУЛЕЗЗЗЗЗЗ UTF-8. >Если при всём богатстве выбора, альтренативы нет, то данный выбор - >рулез. По определению :) А в абсолютных категориях рулеза не бывает, >так как с дерьмом можно смешать _что угодно_ :) Рулез - понятие всегда >относительное.

Ок, я понял, тебя как и многих здесь всё устраивает, поэтому по-твоему/по-вашему мнению это должно устроить весь мир. ЛОР выбрал UTF-8. поэтому китай и другие должны это хавать.

Я думаю, больше дискутировать по этому бессмысленно.

Спасибо.

С уважением,

laune
()
Ответ на: комментарий от laune

>ЛОР выбрал UTF-8. поэтому китай и другие должны это хавать.

Угу. А ветер дует, потому что деревья ветками машут :D

>Я думаю, больше дискутировать по этому бессмысленно.

Это точно :D

KRoN73 ★★★★★
()
Ответ на: комментарий от anonymous

-- доктор, у меня болит когда я дёргаю функцию -- а вы не дёргайте

используй итераторы, Люк

anonymous
()
Ответ на: комментарий от Sikon

> Где вы в последний раз видели семибитный терминал? В музее?

Ты часто видишь крякозябры вместо кириличного текста? Вот в таких случаях KOI8 и спасал. И сейчас спасает в некоторых местах (телетекст, например).

anonymous
()

>> * Грамотным на элементарном уровне может считаться человек, освоивший 1500 знаков. * 3000 иероглифов достаточно для чтения газет и неспециализированных журналов. * Большие однотомные двуязычные словари включают как правило 6000-8000 иероглифов. Среди этого объема уже немало весьма редкоиспользуемых иероглифов, например используемые в названиях ритуальных предметов древности или медикаментов традиционной китайской медицины. * Наиболее полный словарь иероглифов 中華字海 издания 1994 года содержит 87 019 иероглифов.

http://ru.wikipedia.org/wiki/%D0%9A%D0%B8%D1%82%D0%B0%D0%B9%D1%81%D0%BA%D0%B8...

так что китайцам всё равно <2 байт ни как не подойдёт а в идеале нужно всё равно 3.

meur
()

>Кстати говоря, как c UTF-8 в Соляре, и QNX? В консоли, имеется в виду (на уровне Гуя, думаю, как и в Бзде, все впорядке)...

Так все-таки, как с ответом на этот вопрос? Как там, как в Лине, или подобно тому как в Бзде?

unihorn
()
Ответ на: комментарий от alexsaa

>А у тебя?

$ locate --version
mlocate 0.19

$ uname -a
Linux balpc 2.6.24-gentoo-r7 #1 PREEMPT Tue May 6 10:56:36 MSD 2008 i686 Intel(R) Pentium(R) 4 CPU 3.00GHz GenuineIntel GNU/Linux

...

А slocate, вроде, сейчас сносят из других дистров в пользу mlocate :)

KRoN73 ★★★★★
()
Ответ на: комментарий от laune

>ЛОР выбрал UTF-8. поэтому китай и другие должны это хавать.

Лол, может пора научиться читать тему новости? _В X11 кодировкой по умолчанию _для России_ становится UTF8_

stave ★★★★★
()
Ответ на: комментарий от meur

>так что китайцам всё равно <2 байт ни как не подойдёт а в идеале нужно всё равно 3.

Ну вот. А в utf-8 у них, в основном, три байта и есть :) Хотя немало, по-моему, даже двухбайтовых иероглифов.

KRoN73 ★★★★★
()
Ответ на: комментарий от ptarh

- Пiндоськi проiски!!! Нам нужна iсконная КОІ8! Долой нєруссссскую заразу! Да здраствуєт нерушьiмьiй союз славянскіх язиков под крьIлом вєлікава i магучега!!!

anonymous
()
Ответ на: комментарий от anonymous

>- Пiндоськi проiски!!! Нам нужна iсконная КОІ8!

«Пiндоськi проiски» - это замена исконно русских кавычек «лапок» на знаки дюйма и символа «№» на американскую решётку. KOI8 - самая «Пiндоськi» кодировка :)

KRoN73 ★★★★★
()
Ответ на: комментарий от frame

На семибитных терминалах Слака не работает?

dm1024 ★★★
()
Ответ на: комментарий от KRoN73

>- Пiндоськi проiски!!! Нам нужна iсконная КОІ8! «Пiндоськi проiски» - это замена исконно русских кавычек «лапок» на знаки дюйма и символа «№» на американскую решётку. KOI8 - самая «Пiндоськi» кодировка :)

- А нам лапкі похєрЪ... За дєржаву абiдна (с)

anonymous
()
Ответ на: комментарий от laune

>> svu, mgimo finished? How much clock? > не порти классику > не clock а watches > и не mgimo а mensk inyaz >сам не порти - шутка вообще из фильма casablanca аж 42 года...

> Классный фильм!

Это где главной трагедией 2-й Мировой войны представлялась невозможность граждан эмигрировать в США? :)

anonymous
()

Для X11 это наверное хорошо, а вот в vt (ядро 2.6.24) я принудительно выключил UTF8, которая там теперь по уполчанию - ибо нафиг не сдалось, т.к. далеко не все нужные мне программы его корректно поддерживают

frame ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.