LINUX.ORG.RU

Использование Unicode в Linux


0

0

Статья посвящена вопросам связанным с использованием unicode в Linux.

Рассматриваются такие вопросы как:
* установка правильной локали
* преобразование файловых систем (названий файлов)
* преобразование текстовых файлов
* где взять unicode шрифты

В конце статьи даются ссылки на другие полезные ресурсы посвященные вопросам использования unicode

>>> Подробности



Проверено: ivlad ()
Ответ на: комментарий от amm

> Зачем в ядре уникод? Где оно, вообще, с текстом работает? ну, засунуть в ядро уникод стоит хотя бы для того чтобы посмотреть что будет твориться на лор :)))

а в придачу еще и xml

anonymous
()
Ответ на: комментарий от anonymous

>>> Кто нибудь видел utf16 или UCS2 локали?

>> даа. и не только видел. и даже работает. винду поставь.:-)

> А как их в консоли включить?

chcp 10646

anonymous
()
Ответ на: комментарий от anonymous

> очень просто. в зюмеле хранится юникод. компилятору (или что у вас там -- интерпретатор, groff какой-нибудь ) он скармливается в родном для компилятора виде через соответствующий xslt-фильтр.

Что это дает? Кроме необходимости использовать фильтры?

> а как это отображается на файловую систему -- дело десятое. посмотрите как это сделано в том же leo.

Лучше расскажи, я его все-равно качать не буду.

amm ★★
()
Ответ на: комментарий от anonymous

Это шутка? Если нет, то какая система и с каким сервиспаком такое поддерживает?

amm ★★
()
Ответ на: комментарий от anonymous

> От ить упертый. В пожатом виде - СТОЛЬКО ЖЕ.

Да неужели??? А ты попробуй сожми - сильно удивишься.

init ★★★★★
()
Ответ на: комментарий от anonymous

> Пробавал мил человек, пробовал. Разница не более 15%. Проверь сам.

Так не надо тогда писать "СТОЛЬКО ЖЕ"

init ★★★★★
()
Ответ на: комментарий от init

> Так не надо тогда писать "СТОЛЬКО ЖЕ"

Плюс-минус 15% - это СТОЛЬКО ЖЕ. Не СТОЛЬКО ЖЕ - это "в четыре раза". Или хотя бы в два.

anonymous
()
Ответ на: комментарий от anonymous

> Плюс-минус 15% - это СТОЛЬКО ЖЕ. Не СТОЛЬКО ЖЕ - это "в четыре раза". Или хотя бы в два.

Инетересная логика.. Есть у меня 4 гига исходников. Если бы это был 4-хбайтовая кодировка, это уже было бы 4,5? Ничего себе столько же.

К тому же, например у меня постоянно лежит 2 версии распакованных исходников ядра. Они занимают ~400 мб. И вот это превратится в 1,6Gb! нафиг надо.

init ★★★★★
()
Ответ на: комментарий от o1o

>добро пожаловать в 21-ый век. скоро работающих с одним языком остануться единицы.

Как раз наоборот. Компы становятся столь распростаненными, что ими начинают пользоваться даже те, кто с трудом владеет одним языком.
И с каждым годом таких юзеров все больше.

Andy.

anonymous
()
Ответ на: комментарий от anonymous

>Спасибо, я уж как-нибудь на SuSE с локалью utf8 перебьюсь;)
С прошлого века на koi8-r. Дискомфорта не ощущаю.

anonymous
()
Ответ на: комментарий от jackLucas

>2. Использовать UCS2 не удобно - придется переконвертировать все имена файлов, текстовые файлы и т.д. в ДВУХбайтовую кодировку!

А для чего тебе UTF8, UCS2 и т.д.? Для того, чтобы обзывать файлы (и содержимое) на разных, а не только английском, языках.
И эти файлы тебе все равно придется перекодировать/переименовывать.
Какая разница сколько перекодировать 1000 файлов или 100000, если это
делать скриптом или прогой?
А после перекодирования - какая тебе разница ВСЕ файлы у тебя будут в 2-байтной кодировке или половина? Тем более, что с 2-х будет быстрее работать и чуть легче программировать.
А смесь двух-четырех байтных символов, ИМХО, - худший вариант. И от многобайтности не избавляет, и 8-битность не оставляет, тормозит, заставляет делать лишние телодвижения при программировании.

anonymous
()
Ответ на: комментарий от anonymous

>>Спасибо, я уж как-нибудь на SuSE с локалью utf8 перебьюсь;)
>С прошлого века на koi8-r. Дискомфорта не ощущаю.
А дискомфорт появится сразу, если потребуется не только русский и английский, но и еще какой-нибудь другой язык (немецкий там, или французский).
Кроме того, просто не поверю, что тебе не попадались программы, которые бы не работали с koi8-r. Причина вполне понятна, автор программы (американец или там немец) может и не знать о существовании такой кодировки и уж протестировать ее работу точно не может. А вот о существовании utf8 он знает наверняка. И практически все современные программы с ней работают.

anonymous
()
Ответ на: комментарий от anonymous

> С прошлого века на koi8-r. Дискомфорта не ощущаю.

Какой там код у длинного тире и неразрывного пробела в KOI8-R?

anonymous
()
Ответ на: комментарий от anonymous

>> С прошлого века на koi8-r. Дискомфорта не ощущаю.

>Какой там код у длинного тире и неразрывного пробела в KOI8-R?

"--- и ~ соответственно.

Evgueni ★★★★★
()
Ответ на: комментарий от Evgueni

> "--- и ~ соответственно.

<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=KOI8-R" />
</head>
<body>
Любители КОИ-8~"---чмудаки.
</body>
</html>

Как-то странно мозилка этот пробел и тире отобразила...

anonymous
()
Ответ на: комментарий от anonymous

> А для чего тебе UTF8, UCS2 и т.д.? Для того, чтобы обзывать файлы (и содержимое) на разных, а не только английском, языках.

> И эти файлы тебе все равно придется перекодировать/переименовывать. Какая разница сколько перекодировать 1000 файлов или 100000, если это делать скриптом или прогой?

даже если у меня нет и не будет имён файлов на языках, отличных от английского, всё равно всё переименовывать. + переконвертировать все текстовые файлы в 2/4 байта. Потом появится UCS8 и что? Да здравствует UTF-32! Зачем? UTF-8 со всем прекрасно справляется.

> А после перекодирования - какая тебе разница ВСЕ файлы у тебя будут в 2-байтной кодировке или половина? Тем более, что с 2-х будет быстрее работать и чуть легче программировать.

чуть легче! ширину символов на экране всё равно отслеживать!

программировать можно и с фиксированным числом байт, ввод/вывод UTF-8!

jackLucas
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.