Локали в кодировках, отличных от UTF-8, объявлены устаревшими в Debian

Ответ на: комментарий от anonymous 30.08.2021 07:11:34 +00:00

Унификацией и единообразием. Сами же заклевали чувака, который взбугуртнул от настройки сети в Дебе11, аж прямо изошлись гадючкиным ядом.

Одно дело - убирать UTF-8 из GUI-настроек. Тут я только поддержу. Хотя по-моему там и так его не было, ставил последние версии дебиана, оно молча UTF-8 ставило и не спрашивало. Другое дело - объявлять его deprecated, хотя никаких объективных причин этому лично я не вижу.

Кодовая страница для однобайтной кодировки занимает один килобайт, если ничего не сжимать. Тысяча кодовых страниц это один мегабайт. Даже если каждый язык будет реализовывать его самостоятельно, а не реюзать какой-нибудь libiconv, который никуда не девается, всё равно это ерунда. А если не полениться и сжать, то там будут десятки-сотни килобайтов от силы.

~~Legioner~~ ★★★★★
(30.08.2021 07:58:46 +00:00)

Ответ на: комментарий от Legioner 30.08.2021 07:58:46 +00:00

Кодовая страница для однобайтной кодировки

Не все legacy-кодировки однобайтные.

Опенсорс, как правило, написан по принципу «работает на моей машине, у кого не работает — форкните сами». Понятно, что всем кодерам объяснять, почему ascii плохо несмотря на то, что написано в их туториале по сям 1990 года выпуска — сложнее, чем просто задепрекэйтить.

x3al ★★★★★
(30.08.2021 10:42:33 +00:00)
Последнее исправление: x3al 30.08.2021 10:44:16 +00:00 (всего исправлений: 1)

Ответ на: комментарий от x3al 30.08.2021 10:42:33 +00:00

Ну речь же идёт о том, что они упразднили все кодировки, а не какие-то странные. Я не знаю, что там за eu-jp, про такую и не слышал никогда. Но какие проблемы поддерживать CP1251, например, я не понимаю.

~~Legioner~~ ★★★★★
(30.08.2021 11:05:25 +00:00)

Ответ на: комментарий от Legioner 30.08.2021 11:05:25 +00:00

В CP1251 нет emoji !!!!

Jetty ★★★★★
(30.08.2021 11:21:06 +00:00)

Ответ на: комментарий от Jetty 30.08.2021 11:21:06 +00:00

И это хорошо.

~~mertvoprog~~ ☆
(30.08.2021 11:22:35 +00:00) автор топика

Ответ на: комментарий от mertvoprog 30.08.2021 11:22:35 +00:00

Неважно хорошо или плохо. Реальность такова что уже стало неотемлимым атрибутом :)

Jetty ★★★★★
(30.08.2021 11:24:22 +00:00)

Ответ на: комментарий от Jetty 30.08.2021 11:21:06 +00:00

:-O

~~Legioner~~ ★★★★★
(30.08.2021 11:34:59 +00:00)

Ссылка

Ответ на: комментарий от Legioner 30.08.2021 11:05:25 +00:00

какие-то странные

Что в ней странного? Это стандартная линуксовая кодировка для японского из до-utf8 времён. Чем она хуже cp1251?

Есть shift-jis, стандартная виндовая доюникодная кодировка. Она ещё веселее. Почему cp1251 должна поддерживаться, а она нет?

x3al ★★★★★
(30.08.2021 11:46:56 +00:00)

Ответ на: комментарий от Jetty 30.08.2021 11:24:22 +00:00

Ну-ну.

Попробуйте на каком-нибудь Хабре эмодзю вставить.

А всему виной MySQL, у которого несколько вариантов кодировки для UTF-8, и люди десятилетиями не замечали, потому что всё работало.

~~mertvoprog~~ ☆
(30.08.2021 12:11:10 +00:00) автор топика

Ответ на: комментарий от x3al 30.08.2021 11:46:56 +00:00

Я без понятия, что это за кодировка. Если не сложно, пускай поддерживается. CP1251 поддерживать точно не сложно.

~~Legioner~~ ★★★★★
(30.08.2021 12:12:56 +00:00)

Ссылка

Ответ на: комментарий от mertvoprog 30.08.2021 12:11:10 +00:00

Хз, на реддите работает.

Jetty ★★★★★
(30.08.2021 12:16:10 +00:00)

Ссылка

Ответ на: комментарий от Legioner 30.08.2021 07:58:46 +00:00

Скорее всего этот зоопарк никто не хочет поддерживать. Никому не нужно, вот и хочется упростить.

Смутно помню, что локали в glibc были какие-то странные, с глобальным состоянием и ещё каким-то тупняком.

Локалями должно прикладное приложение жонглировать, если ему это нужно. Это к вопросу о wine.
Кому не нужно, тех насильно заставляем поддерживать utf-8, что есть хорошо и правильно.

aidaho ★★★★★
(31.08.2021 14:02:56 +00:00)

Ответ на: комментарий от aidaho 31.08.2021 14:02:56 +00:00

Так из glibc'а поддержку неюникодных кодировок никто не выкидывает, и их поддержка там вообще реализована как поддержка подмножеств юникода.

Тема конкретно про Debian и диалоги его тулз, которые теперь при настройке $LANG и $LC_ALL будут предлагать только UTF-8. Не более того.

saahriktu ★★★★★
(31.08.2021 14:15:10 +00:00)

Ссылка

Ответ на: комментарий от aidaho 31.08.2021 14:02:56 +00:00

Кому не нужно, тех насильно заставляем поддерживать utf-8, что есть хорошо и правильно.

На самом деле не факт. По отзывам я читал что писать код для работы с юникодом намного труднее, чем для однобайтных кодировок и к тому же такой код медленнее работает, а это сразу отвратит от linux тех кто не может писать сложные программы, просто не хочет этого делать или тех, для кого важно получить максимальное быстродействие.

Причём последнее будет становится важным для всё большего количества людей, так как всё больше людей пишут программы на интерпретируемых языках и тут встаёт вопрос, может лучше чтобы сами скрипты были в однобайтной латинице?

anonymous
(01.09.2021 08:14:56 +00:00)

Ответ на: комментарий от aidaho 31.08.2021 14:02:56 +00:00

Кому не нужно, тех насильно заставляем поддерживать utf-8, что есть хорошо и правильно.

На самом деле не факт. По отзывам я читал что писать код для работы с юникодом намного труднее, чем для однобайтных кодировок и к тому же такой код медленнее работает, а это сразу отвратит от linux тех кто не может писать сложные программы, просто не хочет этого делать или тех, для кого важно получить максимальное быстродействие.

Причём последнее будет становится важным для всё большего количества людей, так как всё больше людей пишут программы на интерпретируемых языках и тут встаёт вопрос, может лучше чтобы сами скрипты были в однобайтной латинице?

anonymous
(01.09.2021 08:15:29 +00:00)

Ссылка

Ответ на: комментарий от anonymous 01.09.2021 08:14:56 +00:00

По отзывам я читал что писать код для работы с юникодом намного труднее, чем для однобайтных кодировок

Да, если экосистема языка мешается, вместо того, чтобы помогать.

к тому же такой код медленнее работает

Да. Но это небольшая часть рантайма, никто не заметит.

всё больше людей пишут программы на интерпретируемых языках и тут встаёт вопрос, может лучше чтобы сами скрипты были в однобайтной латинице?

Если взять тот же python, то там манипуляции со строками медленные вовсе не из-за utf-8.
Тем не менее полмира на этом пишет: статус utf-8 как first class citizen важнее производительности почти для всех.

aidaho ★★★★★
(01.09.2021 09:27:31 +00:00)

Ответ на: комментарий от aidaho 01.09.2021 09:27:31 +00:00

Тем не менее полмира на этом пишет: статус utf-8 как first class citizen важнее производительности почти для. всех.

Я и сам думаю что универсальная кодировка важна, но имхо как часть пользовательского интерфейса нужна она только под гуем.
Ядро, системный софт и сами скрипты лучше держать однобайтными.

То есть кодировок надо две, для окошек utf, а для внутренностей программ и вывода в консоль однобайтную кодировку, всё равно там всё будет на английском.

anonymous
(01.09.2021 09:38:47 +00:00)

Ответ на: комментарий от aidaho 01.09.2021 09:27:31 +00:00

Тем не менее полмира на этом пишет: статус utf-8 как first class citizen важнее производительности почти для. всех.

Я и сам думаю что универсальная кодировка важна, но имхо как часть пользовательского интерфейса нужна она только под гуем.
Ядро, системный софт и сами скрипты лучше держать однобайтными.

То есть кодировок надо две, для окошек utf, а для внутренностей программ и вывода в консоль однобайтную кодировку, всё равно там всё будет на английском.

anonymous
(01.09.2021 09:39:35 +00:00)

Ссылка

Ответ на: комментарий от anonymous 01.09.2021 08:14:56 +00:00

Тут вот какое дело, не код для кодировок пишут и под код данные, а работают с данными, которые надо обрабатывать корректно, альтернативы юникоду просто нету

peregrine ★★★★★
(01.09.2021 11:24:27 +00:00)

Ссылка

Ответ на: комментарий от anonymous 01.09.2021 09:38:47 +00:00

всё равно там всё будет на английском

Именно такой подход привёл к десятилетиям мучений с кодировками.
Если раньше к тому были ещё и технические аргументы, то в 2021 они потеряли актуальность.

Делать по своему можно что и как угодно, никто обычный null-terminated char на мороз не выкинет. Только если есть нормальная поддержка utf-8, вы сами забьёте на велосипединг с поиском подстрок, перекодированием в utf-16 и прочее.

Пока в Вилларибо дописывают функции, как разбить utf-8 строку по символу и обрезать вторую часть по произвольному числу глифов, в Виллабаджо уже давно задеплоено в продакшен.

aidaho ★★★★★
(01.09.2021 12:54:54 +00:00)

Ссылка

Похожие темы