Плюсы однобайтовых кодировок?

занимают меньше памяти же.

cetjs2 ★★★★★
(01.06.17 19:46:58 MSK)

Для экономии памяти под один символ.

Singularity ★★★★★
(01.06.17 19:47:58 MSK)

Ссылка

При использовании однобайтовых кодировок повышается производительность всех программ обработки строк (в том числе и сортировок в БД).

~~Deathstalker~~ ★★★★★
(01.06.17 19:48:59 MSK)

Ссылка

Ответ на: комментарий от cetjs2 01.06.17 19:46:58 MSK

Ну смотри, в программе из строковых данных только 25%, и то в лучшем случае, то там выйгрыш от однобайтовой перед двух- всего лишь 500 кб как максимум.

~~DeutschNarkoman2007~~
(01.06.17 19:48:59 MSK) автор топика

Очень большой плюс в том, что не нужна синхронизация. Если потерялся где-то один байт, то попортится только один символ, остальные останутся на месте. А вот если в UTF-16 выпадет один байт, то пропадет весь последующий текст.

pftBest ★★★★
(01.06.17 19:50:39 MSK)
Последнее исправление: pftBest 01.06.17 19:51:29 MSK (всего исправлений: 1)

Ответ на: комментарий от DeutschNarkoman2007 01.06.17 19:48:59 MSK

в микроконтроллерах это существенно.

cetjs2 ★★★★★
(01.06.17 20:00:20 MSK)

Ответ на: комментарий от cetjs2 01.06.17 20:00:20 MSK

Но разговор о десктопе.

~~DeutschNarkoman2007~~
(01.06.17 20:01:40 MSK) автор топика

Cast saahriktu

Infra_HDC ★★★★★
(01.06.17 20:03:08 MSK)

Ответ на: комментарий от DeutschNarkoman2007 01.06.17 20:01:40 MSK

Не только.

anonymous
(01.06.17 20:04:06 MSK)

Ссылка

Ответ на: комментарий от Infra_HDC 01.06.17 20:03:08 MSK

Он зарегистрировался в мой день рождения.

~~DeutschNarkoman2007~~
(01.06.17 20:06:01 MSK) автор топика

Ответ на: комментарий от pftBest 01.06.17 19:50:39 MSK

Это проблема не многобайтных кодировок, а конкретно UTF-16. Зачем им пользоваться, когда есть более экономичный и лишённый этой проблемы UTF-8?

intelfx ★★★★★
(01.06.17 20:15:09 MSK)
Последнее исправление: intelfx 01.06.17 20:16:34 MSK (всего исправлений: 1)

Ответ на: комментарий от intelfx 01.06.17 20:15:09 MSK

а, точно, мне показалось спрашивают про UTF-8 vs UTF-16

pftBest ★★★★
(01.06.17 20:19:37 MSK)

Ссылка

Ими можно троллить на ЛОРе.

~~h578b1bde~~ ★☆
(01.06.17 21:33:33 MSK)

Ссылка

Ответ на: комментарий от DeutschNarkoman2007 01.06.17 20:06:01 MSK

Это фигня. Вот Линус Торвальдс, зараза, взял и родился в мой день рождения. :)

hobbit ★★★★★
(02.06.17 00:17:11 MSK)

Ответ на: комментарий от hobbit 02.06.17 00:17:11 MSK

вот именно по этой причине CBC является неудачным режимом шифрования :-)

user_id_68054 ★★★★★
(02.06.17 00:23:13 MSK)

Ссылка

Возможность работы с символами как с байтами, если не нужно ничего за пределами ASCII.

thunar ★★★★★
(02.06.17 00:23:57 MSK)

Ответ на: комментарий от pftBest 01.06.17 19:50:39 MSK

А вот если в UTF-16 выпадет один байт, то пропадет весь последующий текст.

зато когда выпадет второй — всё починится :-) .. какая ещё кодировка похвастается таким?!

user_id_68054 ★★★★★
(02.06.17 00:25:04 MSK)

cast ~~Eddy_Em~~

melkor217 ★★★★★
(02.06.17 00:27:49 MSK)
Последнее исправление: melkor217 02.06.17 00:28:04 MSK (всего исправлений: 1)

Ответ на: комментарий от DeutschNarkoman2007 01.06.17 19:48:59 MSK

Какие плюсен присутствуют у однобайтен кодировок?

Хороший вопрос. Из разряда «какие плюсы у копчика».

no-such-file ★★★★★
(02.06.17 00:42:40 MSK)

Ссылка

Зачем прыгать с кодировки на кодировку? А если потом появится ещё какая-нибудь VUG-256, то все с радостью на неё перепрыгнут и переконвертируют свои коллекции текстовых файлов? Не проще ли выбрать кодировку один раз в жизни?
Экономия системных ресурсов; тексты занимают меньше места на носителях и в оперативке и быстрее обрабатываются;
Можно продолжать юзать <<main (int argc, char **argv)>>, strncpy, strncmp, printf,... и другие неюникодные функции;
Можно переместить указатель на подстроку со смещением N символов просто прописав <<strptr + N>> без привлечения лишних сущностей в лице ICU (для отфильтровывания диакритики и других модификаторов);
В ядерной консоли по-прежнему размер символа может быть не больше чем 32x32 пикселя, а весь шрифт может весить не более чем 64 Кб. Отсюда и проблемы с кол-вом символов более чем 256. На уровне ядра. Поэтому юзерам ядерной консоли без иксов особой разницы нет, и можно продолжать извлекать преимущества KOI8-R.
И т.д.

saahriktu ★★★★★
(02.06.17 00:45:03 MSK)

Проще обработка. Например, если надо подсчитать количество символов то для однобайтовой она будет равна длине строки. А если размер символа разный, то тебе надо будет перебирать всю строку, чтобы узнать её длину.

crutch_master ★★★★★
(02.06.17 07:51:19 MSK)

Какие плюсен присутствуют у однобайтен

Дегенератен.

anonymous
(02.06.17 08:03:19 MSK)

Ссылка

Ответ на: комментарий от user_id_68054 02.06.17 00:25:04 MSK

Расшифрую.
В UTF-8 до 4 байт используется

zolden ★★★★★
(02.06.17 08:05:58 MSK)

Ссылка

Какие плюсен присутствуют у однобайтен кодировок?

Можно ходить к саахрикту домой и не палиться.

~~awesomebuntu~~
(02.06.17 08:26:58 MSK)

Ссылка

Это reedych. Баньте.

~~sudopacman~~ ★★★★★
(02.06.17 08:31:38 MSK)

Ссылка

Ответ на: комментарий от melkor217 02.06.17 00:27:49 MSK

Чего тебе надо?

Я как сидел на КОИ8-Р, так и сижу. Мне нравится. Хрюникод не собираюсь использовать — нафиг мне текстовые файлы в 2-4 раза жирней?

anonymous
(02.06.17 09:16:57 MSK)

Ответ на: комментарий от pftBest 01.06.17 19:50:39 MSK

Очень большой плюс в том, что не нужна синхронизация. Если потерялся где-то один байт, то попортится только один символ, остальные останутся на месте. А вот если в UTF-16 выпадет один байт, то пропадет весь последующий текст.

А вот если в КОИ8-Р пропадет один бит, то пропадет весь последующий текст

MyTrooName ★★★★★
(02.06.17 09:18:55 MSK)

Порой это удобнее.

~~a1batross~~ ★★★★★
(02.06.17 09:20:34 MSK)

Ссылка

Ответ на: комментарий от crutch_master 02.06.17 07:51:19 MSK

Например, если надо подсчитать количество символов то для однобайтовой она будет равна длине строки

а где это нужно, кроме gui с моноширинными шрифтами?

в любом случае, можно амортизировать до O(1)

MyTrooName ★★★★★
(02.06.17 09:20:49 MSK)
Последнее исправление: MyTrooName 02.06.17 09:22:09 MSK (всего исправлений: 1)

Ответ на: комментарий от MyTrooName 02.06.17 09:18:55 MSK

Вообще я голосую за UTF-8, но аргумент про потерю бита считаю глупым. Простая ошибка в программе это сделать не сможет.

pftBest ★★★★
(02.06.17 09:36:50 MSK)

В треде путают многобайтовые кодировки и utf (кодированный юникод).
Перед многобайтными кодировками плюс только один - в разы меньше памяти.
Перед utf (кроме utf-32, который обычно таки многобайтовая кодировка) - ещё и скорость. Ну и экзотический плюс кои8 - совместимость с семибитным кои.

Shadow ★★★★★
(02.06.17 09:42:40 MSK)
Последнее исправление: Shadow 02.06.17 09:44:12 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от MyTrooName 02.06.17 09:20:49 MSK

Хоть где. Есть строка из N байт нужно быстро отрезать M символов с конца.

crutch_master ★★★★★
(02.06.17 10:06:16 MSK)

У национальных однобайтных кодировок плюсы следующие: компактность, быстрая обработка строк, какой-никакой барьер сложности перехвата и искажения.

iZEN ★★★★★
(02.06.17 11:04:32 MSK)

Ответ на: комментарий от iZEN 02.06.17 11:04:32 MSK

Изя, а минусы где?

anonymous
(02.06.17 11:59:44 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.06.17 09:16:57 MSK

Эдичка (💕) <3

anonymous
(02.06.17 12:02:51 MSK)

Ответ на: комментарий от thunar 02.06.17 00:23:57 MSK

Самыйгодный ответ. Остальные ламеры

anonymous
(02.06.17 12:09:58 MSK)

Ссылка

Ответ на: комментарий от crutch_master 02.06.17 10:06:16 MSK

Хоть где.

это где же?

Есть строка из N байт нужно быстро отрезать M символов с конца.

зачем, например?

MyTrooName ★★★★★
(02.06.17 12:42:49 MSK)

Ответ на: комментарий от pftBest 02.06.17 09:36:50 MSK

аргумент про потерю бита считаю глупым

и зря. замена байта в сжатом потоке вполне может вылиться в потерю/добавление произвольного числа бит

MyTrooName ★★★★★
(02.06.17 12:47:45 MSK)

Ссылка

Товарищи наркоманы!

И пню понятно, что хрюникод нужен только китайцам и составителям многоязычных талмудов. 99.9999% остального населения земного Шарика это говно нафиг не сдалось!

Вот сколько можно выпендриваться и ставить хрюникод на компутер с кириллицей? Еще больше поражаюсь с англоязычных дебилоидов, которые вообще локалью могут сделать C или POSIX, но зачем-то ставят хрюникод. BDSM прямо!

anonymous
(02.06.17 14:37:45 MSK)

Ответ на: комментарий от DeutschNarkoman2007 01.06.17 19:48:59 MSK

выйгрыш

J ★★★★★
(02.06.17 14:45:03 MSK)

Ответ на: комментарий от J 02.06.17 14:45:03 MSK

йий

~~DeutschNarkoman2007~~
(03.06.17 09:34:49 MSK) автор топика

Ссылка

Ответ на: комментарий от saahriktu 02.06.17 00:45:03 MSK

Зачем прыгать с кодировки на кодировку?

Никто и не прыгает. Большинство адекватных людей один раз в жизни перешли с однобайтового говна на юникод и не имеет никаких проблем. А кто помоложе так вообще сразу работал с юникодом и о бНОПНе, кракозябрах, вопросиках и прочих ужосах доюникодной эпохи слышал только по рассказам старожилов.

А если потом появится ещё какая-нибудь VUG-256

Если эта гипротетическая хрень будет решать какие-то актуальные на тот момент проблемы и упрощать жизнь пользователей, то перейдут. Чего в этом такого.

то все с радостью на неё перепрыгнут и переконвертируют свои коллекции текстовых файлов?

Много ли людей в XXI в. держат коллекции текстов в plaintext?

Экономия системных ресурсов; тексты занимают меньше места на носителях и в оперативке и быстрее обрабатываются;

Экономия на спичках.

Можно продолжать юзать <<main (int argc, char **argv)>>, strncpy, strncmp, printf,... и другие неюникодные функции;

Не знаю, зачем мне и большинству людей это может понадобиться.

Можно переместить указатель на подстроку со смещением N символов просто прописав <<strptr + N>> без привлечения лишних сущностей в лице ICU (для отфильтровывания диакритики и других модификаторов);

См. пред. пункт.

В ядерной консоли

В ядерной консоли без иксов сидять 2,5 поехавших. И че они там используют - это сугубо их личные половые трудности.

И т.д.

и т.п.

petrosyan ★★★★★
(04.06.17 11:31:47 MSK)

Ответ на: комментарий от petrosyan 04.06.17 11:31:47 MSK

Это как шутка про КПРФ.

~~DeutschNarkoman2007~~
(04.06.17 12:26:51 MSK) автор топика

Ссылка

Ответ на: комментарий от iZEN 02.06.17 11:04:32 MSK

барьер сложности перехвата

Поясни

Wizard_ ★★★★★
(06.06.17 05:53:53 MSK)

Ссылка

Ответ на: комментарий от MyTrooName 02.06.17 12:42:49 MSK

зачем, например?

Когда парсишь что-то, например. Фантазию подруби.

crutch_master ★★★★★
(06.06.17 19:24:39 MSK)

Ответ на: комментарий от MyTrooName 02.06.17 09:20:49 MSK

а где это нужно, кроме gui с моноширинными шрифтами?

Вот для гуев как раз нужен utf8, а не срач с кодировками.

crutch_master ★★★★★
(06.06.17 19:26:33 MSK)

Ссылка

Ответ на: комментарий от petrosyan 04.06.17 11:31:47 MSK

Экономия на спичках.

Дело в области применеия. Если у тебя маны в кои, то таки да, а если огромная бд с полнотекстовым поиском, то это уже другое дело.

crutch_master ★★★★★
(06.06.17 19:28:21 MSK)

Ответ на: комментарий от crutch_master 06.06.17 19:24:39 MSK

1) парсинг non-ascii это что, например?

2) один хрен парсинг как минимум O(n)

MyTrooName ★★★★★
(06.06.17 22:55:43 MSK)

Ответ на: комментарий от MyTrooName 06.06.17 22:55:43 MSK

Ну вот есть у меня текст, нужно быстренько найти 100500-ю строку. Что я делаю? Делаю mmap (пусть ядро за меня парится, как правильно читать — у него всяко лучше будет) и при помощи strchr ищу 100500-й '\n'. И это O(n). А твой хрюникод пришлось бы обрабатывать (или там '\n' не может быть в составе другого символа?)...

И вообще, слишком мало можно придумать вариантов, когда хрюникод для человека, не шпрехающего ни на чем, кроме английского и русского, будет выгодней КОИ8 или другой 8-битной кодировки. Я ни одного варианта придумать не могу. Даже с путями удобней (хотя, конечно, психически здоровые люди в путях ни пробелов, ни кириллицы не используют, но я не назову себя психически здоровым): длина пути в кириллице в 2 раза больше может быть!

anonymous
(06.06.17 23:43:25 MSK)

Ответ на: комментарий от anonymous 06.06.17 23:43:25 MSK

'\n' не может быть в составе другого символа

да

И вообще, слишком мало можно придумать вариантов, когда хрюникод для человека, не шпрехающего ни на чем, кроме английского и русского, будет выгодней КОИ8 или другой 8-битной кодировки

1) а тире в кои8 есть? кавычки?

2) на своем локалхосте можешь извращаться как хочешь. а обмениваться кои8 по сети - моветон

3) gzip нивелирует преимущество размера текста в однобайтовой кодировке

MyTrooName ★★★★★
(07.06.17 00:26:15 MSK)
Последнее исправление: MyTrooName 07.06.17 00:27:19 MSK (всего исправлений: 1)

Похожие темы