LINUX.ORG.RU

В X11 кодировкой по умолчанию для России становится UTF8

 , , ,


0

0

Три часа назад, не без помощи со стороны svu, Daniel Stone внёс в код libX11 важное изменение, лог которого звучит следующим образом: "так как никто не пользуется кодировкой 8859-5, то кодировкой по умолчанию для России будет UTF-8".

Не прошло и 20 лет...

>>> Подробности



Проверено: anonymous_incognito ()
Последнее исправление: CYB3R (всего исправлений: 1)
Ответ на: комментарий от svu

>далеко не все нужные мне программы его корректно поддерживают
Пример можно ?

anonymous
()
Ответ на: комментарий от acheron

>В XP, по-моему, все программы кроме консоли в UCS-2. Офис юникодный с конца 1990-х. Насчёт IIS не уверен -- его колбасит он буквы "я" (0xFF) :)

ХР включая висту файлы по сети например сохраняет в cp866 до сих пор

в юникоде простой txt например сохранить проблема (поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами)

итп итд

посмотри на контент в зоне .ru сайтов в юникоде раз два и обчелся по сравнению с cp1251

это из за отсутствия поддержки юникода в вендулете

xargs ★★★
()

Наконец то свершилось то о чем давно говорили здравомыслящие программисты. Ура товарищи !!!

anonymous
()
Ответ на: комментарий от xargs

Сдается мне это все какой-то непрерывный 4.2. Винда уже давно уникодит по сетке. Да и утф8 я только что из нотепада сохранил. Винды вполне дружат с утф8 (несмотря на то что унутре у них ucs).

svu ★★★★★
()
Ответ на: комментарий от anonymous

> Не путайте уникод и утф8!!! Это немного разные вещи. UTF == Unicode Transformation __Format__. А кодировок уникода ни разу не меньше (iconv -l | grep -i -e utf -e ucs), чем был зоопарк с 8-ми битными кодировками.

КОДИРОВКА Unicode ЕДИНА! Есть несколько стандартных _представлений_ юникода, что скорее хорошо чем плохо. Ещё раз, кодировка Unicode есть только одна. Потратьте наконец некоторое время на чтение материалов на unicode.org или хотя бы википедии.

SKYRiDER ★★★
()
Ответ на: комментарий от xargs

Самый тривиальный блокнот открывает файлы в utf-8 - не понимаю в чем проблемы с MS-win кроме тупости его пользователей

anonymous
()
Ответ на: комментарий от sabonez

>Все зашибись, конечно, а как же BSD-шники? Как там дела с UTF-ом щаз обстоят?

Отлично.
setenv LOCALE ru_RU.UTF-8
setenv LANG ru_RU.UTF-8
setenv LC_ALL ru_RU.UTF-8
в ~/.cshrc и всё:
> locale
LANG=ru_RU.UTF-8
LC_CTYPE="ru_RU.UTF-8"
LC_COLLATE="ru_RU.UTF-8"
LC_TIME="ru_RU.UTF-8"
LC_NUMERIC="ru_RU.UTF-8"
LC_MONETARY="ru_RU.UTF-8"
LC_MESSAGES="ru_RU.UTF-8"
LC_ALL=ru_RU.UTF-8

iZEN ★★★★★
()
Ответ на: комментарий от svu

> А где я там напахал

ну, во-первых, "noone".

anonymous
()
Ответ на: комментарий от anonymous

мудаки. как будто ей когда-то пользовались.

anonymous
()
Ответ на: комментарий от unihorn

> Кстати говоря, как c UTF-8 в Соляре

[user@host home]$ locale -a | grep -i utf
ru.UTF-8
ru_RU.UTF-8
tr_TR.UTF-8
en_US.UTF-8
[user@host home]$ uname -r
5.8

anonymous
()
Ответ на: комментарий от xargs

>поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами

Собственно, сигнатуры не их, а юникода.

Deleted
()
Ответ на: комментарий от anonymous

> за каким половым органом? для жертв бронепоезда: UCS. по буквам надо, или и так понятно?

...obsolete...doesn't support surrogate chars...быдло неграмотное.

UCS-2 (2-byte Universal Character Set) is an obsolete character encoding which is a predecessor to UTF-16. The UCS-2 encoding form is nearly identical to that of UTF-16, except that it does not support surrogate pairs and therefore can only encode characters in the BMP range U+0000 through U+FFFF. As a consequence it is a fixed-length encoding that always encodes characters into a single 16-bit value. As with UTF-16, there are three related encoding schemes (UCS-2, UCS-2BE, UCS-2LE) that map characters to a specific byte sequence.

anonymous
()
Ответ на: комментарий от svu

Не барское это дело... ~ (шутка, если что)

Deleted
()
Ответ на: комментарий от SKYRiDER

> КОДИРОВКА Unicode ЕДИНА! Есть несколько стандартных _представлений_ юникода, что скорее хорошо чем плохо.

В английском языке для этого есть два термина: encoding и character set.

A character is a small, indivisible unit of text, and text is composed of a string of characters. A character is not the binary representation of a text unit on disk; that would be determined by encoding. It is not the shape that appears on the screen; that's the glyph.

It is not a 'letter' either -- for historical reasons, many things are considered characters which are not letter-like entities at all. For instance, even in ASCII, the simplest and most common character set, 'bell' and 'linefeed' are characters -- not because they deserve to be but because it was once thought convenient.

--http://www.jbrowse.com/text/

на этом же сайте объяснено, что творится в Японии с кодировками. И почему UTF-8 рулит и у них, несмотря на палки в колесах от всяких JIS'ов.

anonymous
()
Ответ на: комментарий от sabonez

> а как же BSD-шники? Как там дела с UTF-ом щаз обстоят?

нормально. Сортировка пока через icu, правда. А в syscons юникод все равно не нужен. В вашей консоли (не фреймбуффере) юникод-то не полностью поддерживается и кандзи там набирать, вроде, нельзя.

anonymous
()
Ответ на: комментарий от petrosha

> Когда я выяснил, что у винды другая кодировка юникода и совместимости как не было так и нет, я на него забил :)

когда я выяснил что в венде в консоли 866 а в гуе 1251, я забил на винду.

samy_volosaty ★★★★★
()
Ответ на: комментарий от AS

А что делать-то? UCS-32 конечно всех спасёт, но оверхеда жаль.

yk4ever
()
Ответ на: комментарий от KRoN73

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

> А почему нет? В Gentoo у меня по жизни на всех машинах юникод в консоли.

Консоль нужна для двух вещей:

1. Отредактировать /etc/X11/xorg.conf

2. Отредактировать /etc/ssh/sshd.conf

А потом уже работать с машиной из нормального рабочего окружения.

gaa ★★
()
Ответ на: комментарий от anonymous

>и Ъ называется UCS, а не UTF. жаль, нельзя в некоторые черепа это молотком вколотить.

"Q: What is the difference between UCS-2 and UTF-16?

A: UCS-2 is what a Unicode implementation was up to Unicode 1.1, before surrogate code points and UTF-16 were added as concepts to Version 2.0 of the standard. This term should be now be avoided."

так что там кому надо вбить?

anonymous
()
Ответ на: комментарий от anonymous

> UTF32 -- суть таже UTF8, только расширенная до 4-х байт. Но в уникоде символов больше 65536! Так что даже UCS4 не поможет охватить все.

анонимус - суть тот же идиот, только расширенный до восьми букв

yk4ever
()
Ответ на: комментарий от Xellos

Re^2: В X11 кодировкой по умолчанию для России становится UTF8

> А ещё в Debian недавно наконец-то допилили dselect, и он стал нормально работать в utf-8.

dselect вроде бы уже официально не рекомендуется, т.к. уступает аптитуде :)

gaa ★★
()
Ответ на: комментарий от laune

> Я думаю, больше дискутировать по этому бессмысленно.

почитай о проблемах японцев и китайцев. Их больше волновало объединение китайских символов Хан (кандзи, ханзи и тп), чем переменная длина.

Хватит нести пургу.

anonymous
()

> А потом уже работать с машиной из нормального рабочего окружения.

+1. Еще добавлю: для отладки и просмотра трейсов всяких там дедлоков, где встретить что-то не на ascii за пределами реальности.

anonymous
()
Ответ на: комментарий от KRoN73

> Хотя немало, по-моему, даже двухбайтовых иероглифов.

двухбайтовые... это что ли слоговая кана? или неужто кандзи уместили?

anonymous
()
Ответ на: комментарий от anonymous

>двухбайтовые... это что ли слоговая кана? или неужто кандзи уместили?

а сколько их всего. если 65535, то если учить по одному в день, то понадобится около 180 лет. они не лопнут?

anonymous
()
Ответ на: комментарий от anonymous

> нет, они сидят и матерятся. потому что в этом удолбище даже задача «сдвинуться на символ назад» превращается в совершенно неувлекательный и ненужный анальный секс.

Во-первых, неужели так часто нужно двигаться на символ назад?

> и вместо простого p-- приходится городить невнятный код или дёргать функцию.

Во-вторых, на лысом C пишут только злобные буратины, у которых других проблем и так вагон.

Во, вторых, {p--; while (*p&192==128) p--;} - что здесь невнятного?

yk4ever
()
Ответ на: комментарий от anonymous

> почитай о проблемах японцев и китайцев. Их больше волновало объединение китайских символов Хан (кандзи, ханзи и тп), чем переменная длина.

> Хватит нести пургу.

Пожалуй бессмысленно пытаться все это объяснять здесь, на лоре, сюда в основном приходят ПТУшники только чтобы покричать сакс и рулез, а не для того чтобы научиться чему-то новому и избавится от своих в корне неправильных стереотипов. Какой уж там Han unification...

SKYRiDER ★★★
()
Ответ на: комментарий от svu

>Сдается мне это все какой-то непрерывный 4.2. Винда уже давно уникодит по сетке.

поставь smbclient/smbfs и попробуй примонтироваться к вендовому ресурсу без указания codepage=cp866, удивись на то что будет с русскими буквами

а потом про 4.2 свои слова обратно возьми :)

>Да и утф8 я только что из нотепада сохранил.

а теперь напиши в этом нотепаде

#!/usr/bin/perl

print "привет\n";

и попробуй в юниксе этот сценарий пустить, и опять же поплюйся на этот псевдоюникод

>Винды вполне дружат с утф8 (несмотря на то что унутре у них ucs).

а вот это уже очень похоже на 4.2

xargs ★★★
()
Ответ на: комментарий от xargs

> в юникоде простой txt например сохранить проблема (поскольку винда делает из текстового файла бинарный своими тупыми сигнатурами)

"тупые сигнатуры" - это BOM, который есть часть стандарта UTF?

Бобёр, выдыхай.

yk4ever
()
Ответ на: комментарий от anonymous

>не, это только в daily use.

>one of the largest dictionaries of kanji ever compiled, has about 50,000 entries, even though most of the entries have never been used in Japanese.

Я под кандзи подразумевал как раз те, которые used, а не целиком китайский алфавит.

redgremlin ★★★★★
()
Ответ на: комментарий от xargs

> бинарные заголовки в ТЕКСТОВЫХ файлах? ТУПОСТЬ!

Простите, а вы можете назвать файлы в кодировках UTF-8 или, например, UCS-2/UCS-4(UTF-32) текстовыми в классическом смысле этого слова (т.е. в сравнении с однобайтными ?

SKYRiDER ★★★
()
Ответ на: комментарий от redgremlin

> Я под кандзи подразумевал как раз те, которые used

ты не подразумевал в каком контексте. В историческом, я боюсь, там окромя кучи itaiji, хентайганы, довоенных кандзи чего только не повстречаешь. Впрочем, для таких целей лучше исползовать mojikyo, а не юникод.

anonymous
()
Ответ на: комментарий от xargs

> поставь smbclient/smbfs и попробуй примонтироваться к вендовому ресурсу без указания codepage=cp866, удивись на то что будет с русскими буквами

smbfs мертва. cifs. Если Вы пользуетесь мертвячиной - это Ваши проблемы.

> а теперь напиши в этом нотепаде

Это проблемы перла (и всех скриптовых языков, появившихся в доутфную эпоху). Нотепад не обязан соблюдать соглашение о шебанге. Повторяю еще раз - с т.зр. спецификации утф (а не Билла Гейтса и не перла) сохраненный нотепадом утф8 файл является корректным. Спеки сами в гугле найдете?

Так что 4.2 остается на Вашей половине поля.

svu ★★★★★
()
Ответ на: комментарий от xargs

> бинарные заголовки в ТЕКСТОВЫХ файлах? ТУПОСТЬ!

Можете жаловаться авторам спеков. Нотепад всего лишь соблюдает их.

svu ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.