противники юникода, кто они?

Они точно не китайцы и не анимешнеги.

anonymous
(26.01.08 18:53:43 MSK)

это жители США или Великобритании (хотя последним без деванагари в ближайшие 20 лет будет туго)

anonymous
(26.01.08 18:59:02 MSK)

Ответ на: комментарий от anonymous 26.01.08 18:59:02 MSK

А им чем мешает utf8?

Deleted
(26.01.08 19:00:22 MSK)

Даже у нас, на марсе, повальный переход koi8-mr->utf8 наблюдается.

marsijanin ★★
(26.01.08 19:02:03 MSK)

Ссылка

Ответ на: комментарий от Deleted 26.01.08 19:00:22 MSK

надо же софт адаптировать, чтобы крякозябр не появлялось, если кто-то напишет символ с кодом больше 127

anonymous
(26.01.08 19:02:21 MSK)

Ссылка

юникод слишком сложен.

~~Legioner~~ ★★★★★
(26.01.08 19:04:23 MSK)

Юникод требует больше памяти Утф8 не тривиален в обработке

mrco ★★
(26.01.08 19:07:29 MSK)

Ответ на: комментарий от Legioner 26.01.08 19:04:23 MSK

> юникод слишком сложен.

математика слишком сложна. может ну её на икс?

asgard ★
(26.01.08 19:08:03 MSK)

Ответ на: комментарий от Legioner 26.01.08 19:04:23 MSK

Квантовая механика слишком сложна, законы Ньютона наше фсио.

anonymous
(26.01.08 19:09:58 MSK)

Ссылка

Ответ на: комментарий от asgard 26.01.08 19:08:03 MSK

Простые проблемы надо решать просто.

~~Legioner~~ ★★★★★
(26.01.08 19:12:16 MSK)

Ответ на: комментарий от mrco 26.01.08 19:07:29 MSK

> Юникод требует больше памяти Утф8 не тривиален в обработке

Ну давай ваще перейдём на четырёхбитную кодировку. 32-х символов вполне достаточно, а нищеброды из неанглоязычных стран никого не волнуют.

anonymous
(26.01.08 19:12:24 MSK)

Ответ на: комментарий от mrco 26.01.08 19:07:29 MSK

> Утф8 не тривиален в обработке

Раскройте это утверждение.

~~Legioner~~ ★★★★★
(26.01.08 19:12:47 MSK)

Ссылка

Лично я против однобайтовой латиници. Если уж 2 байта на символ, то всем, а так получается, что все кто не амерекано^W англоязычные - второсортные. :(

anonymous
(26.01.08 19:12:53 MSK)

Ответ на: комментарий от anonymous 26.01.08 19:12:24 MSK

Угу, а потом все ноют, что мозилла много памяти ест.

~~Legioner~~ ★★★★★
(26.01.08 19:13:24 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.01.08 19:12:53 MSK

Вот, человек даже не знает, что 2-х байтов уже давно не хватает.

~~Legioner~~ ★★★★★
(26.01.08 19:13:57 MSK)

Ответ на: комментарий от Legioner 26.01.08 19:12:16 MSK

Ну реши мне проблему общения с китайцами и японцами без юникода. Предлагаешь запилиться в своём маленьком мирке и забыть о всего, что не умещается в KOI8-R?

anonymous
(26.01.08 19:14:07 MSK)

Ответ на: комментарий от anonymous 26.01.08 19:14:07 MSK

Я не достаточно компетентен, чтобы придумывать альтернативы юникоду. По крайней мере не субботним вечером. Что не мешает мне видеть его недостатки.

~~Legioner~~ ★★★★★
(26.01.08 19:15:46 MSK)

Ссылка

Ответ на: комментарий от Legioner 26.01.08 19:13:57 MSK

>Вот, человек даже не знает, что 2-х байтов уже давно не хватает.

Спасибо, что раскрыли мне глаза. Теперь я и подавно против юникода! Я не против и 20 байт, если это будет у всех, а если только у второсортных, то идите вы с вашим utf-* в зад.

anonymous
(26.01.08 19:17:00 MSK)

Ответ на: комментарий от Legioner 26.01.08 19:12:16 MSK

> Простые проблемы надо решать просто.

предложите более простое решение. пока что ваше утверждение звучит как: "теория вероятностей не нужна. потому, что простые проблемы нужно решать просто"

asgard ★
(26.01.08 19:18:07 MSK)

Ответ на: комментарий от anonymous 26.01.08 19:12:24 MSK

32 недостаточно. 64 - уже лучше. верхний/нижний регистр, 10 цифр, пробел, \n

anonymous
(26.01.08 19:18:18 MSK)

Ссылка

Всем вещающим про 2 байта: почитайте, что такое utf-8. Вообще-то она отводит от 1 до 4 байтов на символ.

1. Достоинства: максимму 4 байта на символ -- это более чем может понадобиться человечеству в ближайшие тысячелетия, т.е. софт, использующий utf8 не будет иметь проблем с локализацией

2. Недостатки: из-за особенности организации utf8, текст приходится рассматривать как связанный список, а не массив байтов. В результате -- замедление программ, использующих поиск по тексту (особенно регулярных выражений), _на_порядки_

annoynimous ★★★★★
(26.01.08 19:20:04 MSK)

utf = unicode?

anonymous
(26.01.08 19:20:09 MSK)

Ответ на: комментарий от Legioner 26.01.08 19:12:16 MSK

утф8 как кодировку юникода придумали именно люди, придерживающиеся простого подхода (и даже написавшие две просто устроенные ОС - юникс и план9) - Кен Томпсон и Роб Пайк

anonymous
(26.01.08 19:22:37 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.01.08 19:17:00 MSK

>>Вот, человек даже не знает, что 2-х байтов уже давно не хватает.

>Спасибо, что раскрыли мне глаза. Теперь я и подавно против юникода!

Лол, клоунок, юникод != два байта. Это в голове у тебя ровно два байта ума, и те нулевые.

anonymous
(26.01.08 19:23:22 MSK)

Ссылка

Вообще, юникоды та еще мерзость, потому что имеют достаточно сильный внутренний конфликт представления (написания символа) и содержания (значения символа). Из этого с одной стороны вытекли проблемы с гомографичными символами в IDN и, с другой стороны, этого вытек дискурс с унификацией Хань.

Но лучших вариантов (включая распространенность), увы, никаких.

anonymous
(26.01.08 19:23:51 MSK)

Ссылка

у меня koi8-r. переходить на utf-8 не собираюсь никогда:
* 2-х байтные кодировки мне ненужны
* экономия дискового пространства

использование 2-х байтных кодировок оправдано только там, где требуется набивать тексты на 3-х или большем кол-ве языков одновременно.
а там где 2 языка или 1 достаточно и однобайтовой кодировки.
я, конечно, понимаю что xml и всё что на нём по стандарту использует utf-8, но это не аргумент чтобы выбирать локалью utf-8
ибо, в случае необходимости, можно на ходу конвертировать отдельные участки текста или конвертнуть итоговый файл
а также vim + :e ++enc=utf-8

saahriktu ★★★★★
(26.01.08 19:25:10 MSK)

Ответ на: комментарий от anonymous 26.01.08 19:20:09 MSK

юникод - это стандарт представления и обработки текста

утф8 - одна из кодировок для записи юникодного текста

anonymous
(26.01.08 19:25:18 MSK)

Ссылка

Юникод не православен:
Некоторые системы письма всё ещё не представлены должным образом в Юникоде. Например, отсутствуют некоторые буквы традиционной письменности церковнославянского языка. Эта письменность содержит много дополнительных графических элементов (такие, как титла и выносные буквы). Изображение «длинных» надстрочных символов, простирающихся над несколькими буквами, пока не реализовано.

алсо:
An alternative way, pursued by people like Chu Bong-Foo, uses an encoding which provides information on the components of Han characters. For example, a 1991 Chinese computing system by Chu already provides 60,000 Han characters support, and takes up only 80KB memory space for the generation of glyphs from raw Cangjie codes. Their argument against Unicode is that the Unicode approach to Han characters is the same as assigning every English word a separate code.

anonymous
(26.01.08 19:25:35 MSK)

Ответ на: комментарий от asgard 26.01.08 19:18:07 MSK

Например простое решение - 4-х байтные кодировки тогда, когда это надо, однобайтные кодировки для большинства языков, 2-х байтные кодировки для иероглифов.

Все ивращения с акцентами, суррогатными символами и прочим в кодировке не нужны. Те же ударения нужны только в текстовых процессорах, на форумах я видел людей, ставящих ударения, раза 2 в жизни. Хотя ́ юнико ́д их вполне ́ подде ́рживает.

Почему не использовать 4 байта для всего? Очень просто. Хотим мы этого или нет, но подавляющее большинство текстов (включая, к примеру, тексты программ) написаны латинницей, использовать в 4 раза больше места - просто глупо.

~~Legioner~~ ★★★★★
(26.01.08 19:26:42 MSK)

бЕПРЕК Ъ БЮЬ ЧМХЙНД

matich ★
(26.01.08 19:27:01 MSK)

Ссылка

Ответ на: комментарий от saahriktu 26.01.08 19:25:10 MSK

набери мне текст на немецком и русском (всего два языка, не три) и сохрани его в любой однобайтовой кодировке на выбор

или набери текст на китайском (всего один язык, даже не два) в любой однобайтовой кодировке на выбор

anonymous
(26.01.08 19:27:39 MSK)

Ответ на: комментарий от Legioner 26.01.08 19:26:42 MSK

Хотя́ юнико́д их вполне́ подде́рживает. Извиняюсь :-)

~~Legioner~~ ★★★★★
(26.01.08 19:28:32 MSK)

Ссылка

Ответ на: комментарий от Legioner 26.01.08 19:26:42 MSK

> Все ивращения с акцентами, суррогатными символами и прочим в кодировке не нужны.

Naïve!

anonymous
(26.01.08 19:29:04 MSK)

Ссылка

{Противники Unicode} ∩ {Противники Хан-унификации} ≠ ∅

~~Sphinx~~ ★★☆☆
(26.01.08 19:29:34 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.01.08 19:25:35 MSK

>традиционной письменности церковнославянского языка.

а кому он нужен кроме узких специалистов?

~~timth~~ ★☆
(26.01.08 19:29:43 MSK) автор топика

Ответ на: комментарий от timth 26.01.08 19:29:43 MSK

> а кому он нужен кроме узких специалистов?

Чотко сказал, вообще ботаны выдумают всякого, и не пойми зачем, нормальному поцану-то оно явно не надо, на те сэмак лучше.

anonymous
(26.01.08 19:31:21 MSK)

Ссылка

Ответ на: комментарий от Legioner 26.01.08 19:26:42 MSK

угу, и угадывать, в какой кодировке текст, и плясать с бубном, совмещая в одном тексте языки, для каждого из которых придумана отдельная кодировка

anonymous
(26.01.08 19:31:22 MSK)

Ответ на: комментарий от annoynimous 26.01.08 19:20:04 MSK

> 2. Недостатки: из-за особенности организации utf8, текст приходится рассматривать как связанный список, а не массив байтов. В результате -- замедление программ, использующих поиск по тексту (особенно регулярных выражений), _на_порядки_

Прямая индексация букв нужна очень редко. В классических алгоритмах поиска по регулярным выражениям концепция связанного списка вполне подходит. То, что grep, perl и прочие не используют нормальные алгоритмы - сугубо их проблемы.

~~Legioner~~ ★★★★★
(26.01.08 19:33:45 MSK)

Ссылка

Есть ещё такой интересный текст - http://www.cbflabs.com/book/cce/cce.htm, но он на китайском. Там написано почему уникод сакс.

anonymous
(26.01.08 19:35:01 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.01.08 19:31:22 MSK

Да с бубном всегда плясать приходится. Вопрос в размере этого бубна.

~~Legioner~~ ★★★★★
(26.01.08 19:35:14 MSK)

На дворе 64бита, много рамы и большие винты. Даёшь 4 байта для всех символов!!!

anonymous
(26.01.08 19:35:25 MSK)

Ответ на: комментарий от timth 26.01.08 19:29:43 MSK

Ⰿⱀⰵ ⱀⱆⰶⰵⱀ, ⰺⰴⱁⰾⱁⱂⱁⰽⰾⱁⱀⱀⰺⰽ!

marsijanin ★★
(26.01.08 19:36:17 MSK)

Ссылка

Ответ на: комментарий от Legioner 26.01.08 19:26:42 MSK

> Например простое решение - 4-х байтные кодировки тогда, когда это надо, однобайтные кодировки для большинства языков, 2-х байтные кодировки для иероглифов.

Все ивращения с акцентами, суррогатными символами и прочим в кодировке не нужны. Те же ударения нужны только в текстовых процессорах, на форумах я видел людей, ставящих ударения, раза 2 в жизни. Хотя ́ юнико ́д их вполне ́ подде ́рживает.

Почему не использовать 4 байта для всего? Очень просто. Хотим мы этого или нет, но подавляющее большинство текстов (включая, к примеру, тексты программ) написаны латинницей, использовать в 4 раза больше места - просто глупо.

http://en.wikipedia.org/wiki/Unicode#Mapping_and_encodings

абсолютно не понимаю, что вас не устраивает.

asgard ★
(26.01.08 19:36:29 MSK)

Ответ на: комментарий от Legioner 26.01.08 19:35:14 MSK

у меня целиком юникодная ОС, я просто читаю и пишу, что мне надо, без бубнов

и другие нормальные люди делают также

anonymous
(26.01.08 19:36:58 MSK)

Ответ на: комментарий от anonymous 26.01.08 19:27:39 MSK

>набери мне текст на немецком и русском (всего два языка, не три) и
>сохрани его в любой однобайтовой кодировке на выбор
%enca -g test
KOI8-R Cyrillic
LF line terminators
%cat test
Nachpruefung
проверка

saahriktu ★★★★★
(26.01.08 19:37:50 MSK)

Ответ на: комментарий от asgard 26.01.08 19:36:29 MSK

> абсолютно не понимаю, что вас не устраивает.

Гм.. Меня как пользователя юникод устраивает на 110%. Вот только мне, как программисту, которому часто приходится работать со строками, хочется это делать правильно. Есть у меня такая дурацкая привычка - чтобы программа работала 100% правильно, обрабатывала все возможные ситуации. В случае с юникодом, приходится обрабатывать все эти акценты и прочее.

~~Legioner~~ ★★★★★
(26.01.08 19:39:51 MSK)

Ответ на: комментарий от annoynimous 26.01.08 19:20:04 MSK

> 2. Недостатки: из-за особенности организации utf8, текст приходится рассматривать как связанный список, а не массив байтов. В результате -- замедление программ, использующих поиск по тексту (особенно регулярных выражений), _на_порядки_

В биореактор, быдло! Почитай что такое регулярные выражения, осознай что они могут работать хоть с потоками данных, а потом уже загазовывай помещение.

Кроме того, даже если взять PCRE, которые нерегурярны, то там все равно надо только или «бегать» по строке вперед-назад или запоминать позицию. Обе этих вещи UTF-8 никак не портит.

anonymous
(26.01.08 19:39:58 MSK)

Ответ на: комментарий от saahriktu 26.01.08 19:37:50 MSK

а где слова с буквами ß, ä, ö и ü, чтобы все видели как ты облажаешься? :)

annoynimous ★★★★★
(26.01.08 19:40:19 MSK)

Ссылка

Ответ на: комментарий от saahriktu 26.01.08 19:37:50 MSK

правильно пишется Nachprüfung, слоупок

текст с нормальными умляутами читать значительно проще, чем с ерзац-заменами

anonymous
(26.01.08 19:40:22 MSK)

Ссылка

Ответ на: комментарий от anonymous 26.01.08 19:36:58 MSK

>у меня целиком юникодная ОС, я просто читаю и пишу, что мне надо, без
>бубнов
у меня тоже всё работает без бубнов при локали koi8-r

saahriktu ★★★★★
(26.01.08 19:40:56 MSK)

Похожие темы