LINUX.ORG.RU

Любимая!? Wtf!? Есть только одна, на данный момент, выбирать из чего?

spichka ★★★
()

UTF-8

Стараюсь пользоваться UTF-8. Кто знает — поясните, зачем нужны UTF-16 и UTF-32. Почему они бывают UTF-16LE и UTF-16BE, почему нельзя было в стандарте жёстко установить один порядок байтов? Что такое UCS2, как оно связано с UNICODE и UTF-8?

Camel ★★★★★
()

KOI8-R рулила

Да, и среди однобайтных кодировок кириллицы KOI8 была самой лучшей, потому что даже на ЭВМ без поддержки кириллицы позволяла худо-бедно читать тексты на русском языке, все остальные этим полезным свойством не обладали.

Camel ★★★★★
()
Ответ на: комментарий от Stahl

Эй, халтурщики! Вы что, намёка не поняли? Разумеется все знают какая у вас кодировка.
А ну бегом аватары редактировать!:)

Stahl ★★☆
()

Скучнее флешмоб не придумать.

templarrr ★★★★★
()
Ответ на: UTF-8 от Camel

The main advantage of UTF-32, versus variable-length encodings, is that the Unicode code points are directly indexable. Examining the n'th code point is a constant time operation. In contrast, a variable-length code requires sequential access to find the n'th code point. This makes UTF-32 a simple replacement in code that uses integers to index characters out of strings, as was commonly done for ASCII.

https://en.wikipedia.org/wiki/UTF-32

Deleted
()

Но зачем? Эдик всё равно аватарки отключил. Баттхёрта у наиболее яркого маргинала не будет

Valkeru ★★★★
()
Последнее исправление: Valkeru (всего исправлений: 1)

KOI8-R. Также являюсь автором 6-ти битной кодировки Cranium64, которая содержит 151 видимый символ (это достигается за счёт управляющих кодов, т.е. это не просто таблица для знакогенератора, и есть повод даже для аппаратной реализации (но, это уже буду делать не я)), являясь надстройкой над KOI8-R. Как-нибудь напишу конвертер в неё из KOI8-R и обратно. Вот кусок Readme:

Обычно мало кто задумывается о компактном хранении текстов, а особенно в последнее время, когда медиа файлы занимают на порядки больше места нежели текст. «Вот ещё, экономить на тексте в таком контексте...», - думают некоторые. Cranium64 создана для тех, кто мыслит иначе.

saahriktu ★★★★★
()

Только, GB2312, только хардкор.

heilkitty ★★
()

Разве на свете существует что то кроме UTF8?

ranka-lee
()

Только морзянка, только старая школа, только хардкор!

CARS ★★★★
()

какая ваша любимая кодировка?

LHS 51

Deleted
()

моя любимая кодировка - это зубровка. эм... или это наоборот раскодируют с ее помощью? запутал ты меня совсем.

conalex ★★★
()

UTF-8. Удобно и дефолтно. Однобайтные кодировки малы, русский с венгерским одновременно хрен впихнёшь. Разницы между UTF-8 и вариантами UTF-16 не вижу, но UTF-8 сейчас — стандарт де-факто, так что ею и пользуюсь.

Miguel ★★★★★
()
Ответ на: комментарий от CYB3R

И пруфов за давностью лет не осталось?

Ну вот, например. Такой стандартный гейский ответ в сочетании с характерной для них инфантильностью является очень весомым признаком. К сожалению, латентность это не показывает, но это не важно в принципе.

Но было и ещё что-то.

FoodFighter
()

Эх дети... Из русских кодировок круче всех koi7 же — целый бит за байт экономит!

Evgueni ★★★★★
()
Ответ на: UTF-8 от Camel

Кто знает — поясните, зачем нужны UTF-16 и UTF-32

Они удобнее программисту. Парсить ваш UTF-8 без сторонних монструозных либ - неподъемная задача.

Почему они бывают UTF-16LE и UTF-16BE, почему нельзя было в стандарте жёстко установить один порядок байтов?

Мистер Билл Гейтс не знал, что бывает что-то, кроме x86.

lenin386 ★★★★
()
Ответ на: UTF-8 от Camel

Что такое UCS2, как оно связано с UNICODE и UTF-8?

Изначально юникод был двубайтовый, в последующих стандартах расширили. Для совместмости запилили UTF-16.

gadfly ★★
()
Ответ на: комментарий от lenin386

Они удобнее программисту. Парсить ваш UTF-8 без сторонних монструозных либ - неподъемная задача.

А какая разница, парсить UTF8

f0 9f 98 81
или UTF16
d83d de01
?

gadfly ★★
()
Ответ на: комментарий от gadfly

В UTF-16 изначально все символы были по 2 байта. Потом внезапно осознали, что 16 бит - это мало. Но можно про это забыть с небольшой потерей :-) Но даже с формулой 2+2, всё гораздо проще, чем ад UTF-8 от 1 символа до 4-х + символы сверху/снизу + разбор битов.

lenin386 ★★★★
()
Последнее исправление: lenin386 (всего исправлений: 2)

TRON code. Ну и CP932, на худой конец Shift-JIS. А то расслабились тут со своими юникодами и жалуются на сравнительную сложность UTF-8.

x3al ★★★★★
()
Ответ на: комментарий от lenin386

В UTF-16 изначально все символы были по 2 байта.

С 1991 (1.0) по 1996 (2.0). Почти 20 лет прошло.

Но всё же соглашусь, что UTF-16 проще UTF-8.

gadfly ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.