LINUX.ORG.RU
ФорумTalks

Фидошники в эхе PUSHKIN.LOCAL активно обсуждают юникод

 ,


0

3

Сабж. Параллельно идут целых 2 треда.

Суть первого треда:

   OM> Может, вместо выборов модератора устроим референдум на тему "Hужен ли
   OM> юникод?"
   OM> [х] ЗА
   OM> [ ] ПРОТИВ

Из второго треда:

   US>> В таблице места нет, а на клавиатуре место есть? Да она что, с
   US>> обеденный стол величиной, эта клавиатура?
   OM> Клавиатура позволяет вводить больше чем 1 символ на 1 клавишу.
   В "Синклер Спектруме" было пять символов на одну клавишу. "Только этого
   мало!"

★★★★★
Ответ на: комментарий от ozz_is_here

С удовольствием бы сидел в федо, если бы там кто-то остался. Хотя, списки рассылки через mutt дают похожие ощущения.

pawnhearts ★★★★★
()
Ответ на: комментарий от system-root

Обычных повседневных задач: поиск и вырезание нужных кусков текста, применение текстовых фильтров,... и т.д.

И вот тут юзер может отказаться разбираться с разным весом символов в байтах в UTF-8, модификаторами в юникоде вообще (а там можно склеивать очень много codepoint'ов),... и т.д. Особенно, если 256 символов ему выше крыши. Особенно если в его шрифте их не больше.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

с каких пор «поиск и вырезание нужных кусков текста» перестал быть абстрагирован от кодировки для конечного пользователя, как и некие «текстовые фильтры», чтобы это не значило?
дай угадаю, ещё при жизни Тьюринга уже всё было ok?
какие ещё кодпоинты в символах текста? у тебя или массив байтов или символы текста, алё.
и причём здесь шрифт? в повседневных задачах в «своём шрифте» обычные пользователи решают задачи по использованию «своего шрифта»?
что это за херня?

system-root ★★★★★
()
Последнее исправление: system-root (всего исправлений: 1)
Ответ на: комментарий от te111011010

€, ©, — и «» для тебя тоже непонятны?

Эти символы есть в используемой мной cp1251 https://uk.wikipedia.org/wiki/Windows-1251

А я и украинский не знаю, мне украинские символы тоже не нужны. Но стандарт обмена информацией придумывают для того, чтобы он удовлетворял потребности как можно большего числа людей.

Ну, cp1251 идет универсальная для нескольких языков на кириллице. Можно посмотреть в сторону других кодировок или создать свою, если тебе критически не нужны украинские символы.

Я же не призываю кого-либо использовать конкретно cp1251, а лишь описываю свой юзкейс 8-битных кодировок.

Chaser_Andrey ★★★★★
()
Ответ на: комментарий от Aceler

Ты не можешь навязать другим людям вкусы, инструменты и стандарты.

Есть люди, которые следуют моде и стандарту де-факто. Они не любят выбирать. Но это не отменяет существования других вкусов, инструментов и стандартов, которые может создать и применять на практике любой другой человек, которому стандарт де-факто не нравится или не подходит, или он ищет совершенства в чём-то одном, жертвуя чем-то другим.

Поэтому смысл был и будет.

Chaser_Andrey ★★★★★
()
Последнее исправление: Chaser_Andrey (всего исправлений: 1)
Ответ на: комментарий от saahriktu

Ну так выбрал и молчи, не нужно каждый день создавать по теме, где ты рассказываешь про свой выбор и как ты героически преодолеваешь возникшие трудности и где ты говоришь: «ура, я нашёл на просторах интернета (уже даже не интернета, а мёртвого фидонета) полтора человека, которым тоже не нравится юникод.

Если же ты хочешь, чтобы админы перевели сайты на koi8, то этого НЕ БУДЕТ. Это всё равно, что говорить „не надо навязывать людям свои вкусы, я хочу, чтобы русский язык был переведён на глаголицу, движение было левостороним, а вместо килограммов и метров использовались пуды и аршины“.

te111011010
()
Ответ на: комментарий от Chaser_Andrey

Ты не можешь навязать другим людям вкусы, инструменты и стандарты.

Правостороннее движение и метрическую систему мер тебе тоже навязали?

te111011010
()
Ответ на: комментарий от te111011010

Что не отменяет существования в мире левостороннего движения и вообще хаотического в некоторых странах. Как и имперской системы мер и нескольких десятков других, которые до сих пор используются некоторыми людьми.

Даже в метрической системе люди часто в быту используют дюймы, потому что так удобнее. Для диагоналей экранов, для резьбы, для размера ободов в транспорте, даже для шрифтов. Для драгоценностей используют караты. Но никто не мешает считать всё это в метрической системе. Принудительного стандарта нет, и конвертеры не запрещены, считай в чём хочешь, хоть в локтях и пудах.

P.S. У меня до сих пор есть советские пудовые и двухпудовые гири, и в быту тяжести мне удобнее считать в пудах, потому что я легче себе представляю вес, сравнивая с гирями.

Chaser_Andrey ★★★★★
()
Последнее исправление: Chaser_Andrey (всего исправлений: 1)
Ответ на: комментарий от te111011010

Ну так выбрал и молчи

Э, почему это? Мне интересно его почитать. Не нравятся его темы - используй игнор. Форум не только для мэйнстримных вещей, а для широкого спектра вопросов по GNU/Linux, Unix-like и околотехнических.

Chaser_Andrey ★★★★★
()
Ответ на: комментарий от Chaser_Andrey

Что не отменяет существования в мире левостороннего движения и вообще хаотического в некоторых странах.

На одной территории может быть либо левостороннее, либо правостороннее движение, но не оба сразу. Оба сразу — только в местах, докуда не дошла цивилизация.

Даже в метрической системе люди часто в быту используют дюймы, потому что так удобнее. Для диагоналей экранов, для резьбы, для размера ободов в транспорте, даже для шрифтов. Для драгоценностей используют караты.

Исторически сложилось. Я не вижу причин возвращаться к этим единицам в тех сферах, где уже перешли на метрическую систему.

P.S. У меня до сих пор есть советские пудовые и двухпудовые гири, и в быту тяжести мне удобнее считать в пудах, потому что я легче себе представляю вес, сравнивая с гирями.

Но ты же не призываешь магазины перейти на пуды.

te111011010
()
Ответ на: комментарий от system-root

с каких пор <<поиск и вырезание нужных кусков текста>> перестал быть абстрагирован от кодировки

С тех пор как юзер пишет на Си и предпочитает работать с отдельными байтами.

какие ещё кодпоинты в символах текста?

При использовании юникода - юникодные. Вы бы почитали про юникод. В нём нет «кодов символов» как таковых, если быть точным. В нём есть codepoint'ы. После чтения которых из них нужно собирать символы. Потому, что модификаторы. Некоторые просто не хотят разбираться, поскольку это усложнит им жизнь. Но, их программы. если они разбирают юникодный текст, не поддерживают 100% юникода, а только его часть. Такие люди могут считать, что любой codepoint, который не относится к модификатору, - это символ. Но, при таком подходе невозможно рассчитать ширину текста. Потому, что модификаторами любое кол-во codepoint'ов может быть склеено на _одну видимую символьную позицию_. И так может быть сколько угодно по тексту. И если такое не разбирать, то ни о какой 100%-й поддержке юникода говорить нельзя.

С однобайтными кодировками таких проблем нет. В их случае не надо столько плясать с бубнами чтобы поддерживать 100% однобайтной кодировки.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)

Большинство файловъ, кои я создаю, имѣютъ размѣръ менѣе 1 мега-байта. Для моихъ задачъ достаточно двух-вершковыхъ дискетъ. А по сему въ топку всѣ эти ваши компактъ-диски и флешъ-карты.

petrosyan ★★★★★
()
Ответ на: комментарий от te111011010

На одной территории может быть либо левостороннее, либо правостороннее движение

Кодировки и дорожное движение - разные вещи.

Юзер может локально использовать KOI8-R, а для обмена информацией с юзерами UTF-8 на их территории автоматически конвертировать её в UTF-8 и обратно.

Вот как сейчас (и раньше): я пишу в lynx'е в KOI8-R, но на ЛОР оно автоматически и прозрачно приходит в UTF-8. А текст страниц ЛОРа автоматически и прозрачно приходит ко мне в KOI8-R, хотя на самом сервере он в UTF-8. И никаких проблем. У всех всё работает, и работает автоматически. При одновременном наличии разных кодировок текста.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)
Ответ на: комментарий от saahriktu

У всех всё работает, и работает автоматически.

Чтобы сіе работало автоматически, юзеру надо весьма долго сношаться съ настройками. И нѣтъ никакой гарантіи, что оное будетъ работать безъ сбоевъ. До сихъ поръ, браузеры частенько косячатъ на опредѣленіи кодировки на легаси-сайтахъ, а во времена очаковскія сей безпредѣлъ случался съ юзерами ежеденно. Юникодъ избавилъ насъ отъ сихъ геморроидальныхъ коликовъ, какъ внутри одного нарѣчія, такъ и при передачѣ нѣсколькихъ языковъ единовремнно.

petrosyan ★★★★★
()
Последнее исправление: petrosyan (всего исправлений: 1)
Ответ на: комментарий от petrosyan

В прежние времена многие писали сайты на коленке, не прописывая корректным образом кодировку в заголовке. Если же кодировка прописана корректно, то юзер может и не знать какая именно кодировка прописана - современные браузеры, в т.ч. и lynx, всё берут на себя. Юзеру достаточно только за одну секунду прописать свою локальную кодировку:

> grep ^character ~/.lynxrc
character_set=Cyrillic (KOI8-R)

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

В прежние времена многие писали сайты на коленке, не прописывая корректным образом кодировку в заголовке. Если же кодировка прописана корректно, то юзер может и не знать какая именно кодировка прописана - современные браузеры, в т.ч. и lynx, всё берут на себя. Юзеру достаточно только за одну секунду прописать свою локальную кодировку:

Зачем весь этот секс в XXI в., когда человечество придумало универсальный способ передачи текста с помощью компьютера, не требующий никаких первобытных шаманских плясок с бубном, прописывания куда-то непонятных заклинаний и гадания на бнопне?

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

Повторяю, почти всё, лишь за некоторыми исключениями, в XXI-м веке перекодируется прозрачно и автоматически.

А в случаях отдельных исключений увидеть кодировку текста на глаз юзерам однобайтных кодировок проще. Я уже когда-то приводил примеры.

  • «нДМНАЮИРМШЕ ЙНДХПНБЙХ - ЩРН НВЕМЭ ОПНЯРН» - cp1251;
  • «▌╓╜╝║═╘Б╜К╔ ╙╝╓╗Ю╝╒╙╗ - МБ╝ ╝Г╔╜Л ╞Ю╝АБ╝» - 866;
  • «п·п╢п╫п╬п╠п╟п╧я┌п╫я▀п╣ п╨п╬п╢п╦я─п╬п╡п╨п╦ - я█я┌п╬ п╬я┤п╣п╫я▄ п©я─п╬я│я┌п╬» - UTF-8;

И т.д.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Повторяю, почти всё, лишь за некоторыми исключениями, в XXI-м веке перекодируется прозрачно и автоматически.

В XXI в. все давно перешли на юникод и не трахают себе и окружающим моск с зоопарком кодировок. Функции определения кодировки в браузерах нужны исключительно для древнего легаси, авторы которого либо померли, либо впали в маразм.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

В XXI в. все давно перешли на юникод

Нет, не все. Разным людям удобны разные кодировки.

Более того, ещё в начале XXI-го века не было нормальных векторных шрифтов для юникода, а потому юзеры спокойно юзали однобайтные кодировки, включая локаль KOI8-R.

Ситуация резко начала меняться только в районе 2007-го года. Когда пришедшие в 2003-ем году уже примерно как 4 года юзали настроенную _по свежему мануалу руссификации_ локаль KOI8-R.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Винда умела нормально в юникод уже со времен 2к, офисный софт и того раньше. Со шрифтами опять же никаких проблем не было. В интернетах однобайтные кодировки продержались дольше всего и то, потому что тогда сайты состояли из текста, был широко распространен дайлап, а места на хостингах было катастрофически мало. Как только каналы стали ширше, а место даже на самом дешманском хостинеге позволило засунуть туда средних размеров библиотеку, говнокодировки выкинули и забыли про них, как про страшный сон. Не знаю нахрена тебе понадобилось настраивать в 2007 г. кои-8 по ископаемым мануалам, нормальные дистрибутивы тогда уже шли с юникодной локалью изкоробки.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

Во-первых, в винде в те годы были *.ttf шрифты. А в линуксе тогда с ними были проблемы (в том смысле, что их толком не было). Во-вторых, и в винде они тогда были урезанные. По одному *.ttf шрифту на каждый язык.

А вот так, чтобы почти все символы в одном шрифте - такое стало появляться только в последнее время.

настраивать в 2007 г.

Не в 2007-м, а в 2003-ем. По _свежим мануалам_. Тогда были Debian Woody и Red Hat 7.2.

А примерно в 2007-м году, говорю, начался массовый переход на юникод. А до этого все юзали локаль KOI8-R и радовались тому, что юзают её.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)
Ответ на: комментарий от saahriktu

урезанные. По одному *.ttf шрифту на каждый язык.

Это как? TNR был практически такой же как и сейчас.

А примерно в 2007-м году, говорю, начался массовый переход на юникод.

Ну кто виноват, что линуксы тогда были средоточием всякого говна мамонта и в них нихрена толком не работало. Впрочем, в убунте уже был юникод из коробки и со шрифтами там каких-то особых проблем не было, как с родными, так и с вендовыми. И да, ты ж говорил, что на Linux пересел как раз в 2007. Получается именно что ты настраивал устаривающую фигню не понятно зачем.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

Это как?

А вот так. В WYSIWYG текстовых редакторах люди выбирали шрифты из списка вида «название шрифта (язык)».

линуксы тогда были средоточием всякого говна мамонта

Ни разу. Поддержка юникода в glibc'е появилась раньше поддержки KOI8-R. При этом, поддержка всех остальных кодировок в glibc'е реализоавана через юникод, и все остальные кодировки для glibc'а являются подмножествами юникода.

Так что, всё в те годы для тех, кто хотел юникод, упиралось именно в шрифты. Но, такие как я в те годы просто юзали и радовались тому, что есть.

ты ж говорил, что на Linux пересел как раз в 2007

Нет, я говорил не так. В 2003-м году я начал юзать линуксы. В 2004-м снёс винду. В 2006-м году снёс иксы переехав в ядерную консоль (с локалью KOI8-R, да). А в 2007-м году я через Gentoo переехал в LFS и зарегистрировался на ЛОРе.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)
Ответ на: комментарий от saahriktu

Мне в 2003 г. гемор с шрифтами и кодировками ну не разу не приносил радости. Наряду с другими проблемами это было причиной того, что линукс был снесен к чертовой бабушке. В 2006 г. попался диск с убунтой и там были, о чудо, юникод из коробки и нормальные шрифты. Желания настраивать глючный koi-8 по допотопных хадбукам не было вообще. Тогда уже и в интернетах неюникод начали массово закапывать.

petrosyan ★★★★★
()
Ответ на: комментарий от saahriktu

А примерно в 2007-м году, говорю, начался массовый переход на юникод

В 2007 уже нельзя было встретить свежую установку не на utf8. Массовый переход был в 2004-2005.

А до этого все юзали локаль KOI8-R

На локалхосте все юзали cp1251, тому шо дуалбут, тому шо id3 не умело кодировки и русские теги с вероятностью в 198% были в cp1251, тому шо сайты забивали на указание кодировки, и по тысяче других аналогичных причин. На серверах обычно юзали ascii и не парились с русским, пожалуй, единственное, где можно было встретить koi8 — почтовики.

и радовались тому, что юзают её

Все линуксоиды ненавидели однобайтные кодировки, особенно koi8, за бесчисленные проблемы с кракозябрами. Впрочем, виндузятники тоже любовью к cp1251 не отличались, т.к. им с 866 тоже проблем хватало.

Во-первых, в винде в те годы были *.ttf шрифты

Ты так говоришь, как будто что-то поменялось.

А в линуксе тогда с ними были проблемы (в том смысле, что их толком не было)

Для себя любимого хватало изкоробочных Type1, для работы с виндовыми документами в StarOffice все тянули *.ttf из винды и не парились.

redgremlin ★★★★★
()
Ответ на: комментарий от redgremlin

В 2007 уже нельзя было встретить свежую установку не на utf8.

Зависит от дистрибутива. В нормальных дистрибутивах юзер или выбирает локаль при установке в меню, или сам создаёт все конфиги руками полностью,

На локалхосте все юзали cp1251

Не все.

дуалбут

Не у всех.

кракозябрами

Не всех они напрягают.

Все линуксоиды ненавидели однобайтные кодировки, особенно koi8

Нет, не все.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

как ты достал уже.
какой нахер юзер предпочитающий работать с отдельными байтами? причём тут текст? ты либо конченый шизик либо прикидываешся.
какие нахер кодпоинты в символах? какие нахер байты? ты в hex редакторе читаешь штол? ппц ты достал своими шизодными «ну байты пользователь предпочитает ляляля» ёпт.
пусть твои пользователи в манямирке байтики жрут и кодпоинты высчитывают руками, какое это отношение имеет к реальности?
ещё раз спрашиваю. какое нахрен отношение к реальности имеет высчитывание кодпоинтво и работа с байтами к реальности и работе с текстом?
ты реально школьник. просто такая херота в голове не может быть даже у шизика.

system-root ★★★★★
()
Ответ на: комментарий от system-root

Да откройте Вы уже документацию. codepoint - это ID в юникодной таблице, а не отдельные байты в hex-редакторе. Хотя они и складываются из отдельных байтов.

Например, в UTF-32 codepoint высчитывается как

byte3 * 16777216 + byte2 * 65536 + byte1 * 256 + byte0

А дальше парсеры юникода складывают из отдельных codepoint'ов отдельные символы.

какое нахрен отношение к реальности имеет высчитывание кодпоинтво и работа с байтами к реальности и работе с текстом?

Такое же, какое к реальности при работе с однобайтными кодировками имеет отношение getc(). Только в этом случае сразу получается конкретный код конкретного символа. А в случае юникода нужно ещё парсить, чтобы понять что и куда и какими модификаторами склеивается.

Те тексты, с которыми работает юзер, в оперативке уже не валяются. Их нужно туда ещё читать, чтобы произвести над ними нужные действия. И для этих действий нужно понимать что на какой видимой символьной позиции находится.

Большинство же уже написанных программ просто перекладывают строки с места на место байт в байт без модификаций.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

byte3 * 16777216 — это текст. я могу это сказать, потому, что обучен воспринимать образ иероглифов\глифов\символов, как угодно это назови. и видя на мониторе или бумаге символ b его распознаю.
я могу распознавать эти символы визуально.
если у меня есть файл, который может быть отображен или напечатан как бНОПНЯ имея некий опыт, можно понять, что это тоже текст который содержится в файле в виде байтов, но неверно отображен т.е. эти байты преобразовали неверно в символы букв.
к нему неверно применена таблица соответствия байтов и символов.
но внутри этого файла нолики и единицы.
открыв файл в котором ^¢ã™{¯¼†C­¿Xl…+LÅt|­`fRú я не могу сказать что это такое. текст это или медиафайл или что-то ещё.
это байты, нолики и единицы которые в символы перевела программа для отображения\рисования на экране текстов. это текст?
никто не знает, пока не применит разные преобразования к этому файлу. то преобразование, которое провёл текстовый редактор выдало ровно такие глифы\символы.
возможно это текст инопланетян, а может просто мусор из байт и на деле это вообще не текст.
так вот ты путаешь вообще всё, но в данном случае, ты путаешь понятие текста, который может быть текстом только после преобразования из потока байтов в символы.
до этого момента никакой пользователь не может работать с текстом ни в каком Си или ещё где, до этого момента пользователь может работать с потоком байтов.
если пользователь пишет getc() он использует текст для написания этих букв. если пользователь преобразует шестнадцатеричные цифры или бинарные последовательности, это не работа с текстом.

но ты настолько упорот, что можно гарантировать твоё непонимание всего этого текста, который тут написан.

system-root ★★★★★
()
Ответ на: комментарий от system-root

Такое впечатление, что я пытаюсь объяснять высшую математику шахтёру, который уже давно забыл курс школьной математики и даже и не собирается ничего повторять за ненадобностью в его повседневных делах.

Аллё, это - форум IT'шников! И мы здесь рассматриваем как всё выглядит с точки зрения машины и кода, которым автор решает свои задачи. Про то, как это выглядит с точки зрения человека, никто и не думал начинать говорить. Все люди разные, и у каждого человека своё индивидуальное восприятие и свои ассоциации. Которые в контексте обсуждаемого вопроса вообще не имеют никакого значения.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

ты говоришь про пользователей и их задачи, потом вихляя начинаешь рассказывать про точку зрения машины.
вот те раз.
загуглил в каком году Шеннон свою знаменитую статью написал, внеся фундаментальный вклад в теорию информации — сразу после второй мировой войны, ну т.е. очень давно.
и прежде чем мне, шахтёру, объяснять высшую математику, сначала подумай, какого хрена ты не в курсе кто такой Шеннон и о чем мой предыдущий пост.
ну и естественно, не могу не подколоть тебя ещё, чтобы вихлял быстрее — с точки зрения компуктера, буквы и и текст не нужен. программам не нужны тексты, чтобы обмениваться информацией, им не нужны кодовые страницы и вообще что-то что может ассоциироватся с иероглифами\глифами\символами.
вся эта елда нужна людям, чтобы «как это выглядит с точки зрения человека» было читаемым человеком.

system-root ★★★★★
()
Ответ на: комментарий от system-root

Есть юзер. У него есть тексты и задачи по обработке этого текста. Но, дальше здесь совершенно фиолетово что он считает текстом, а что - нет. Поскольку, например, если у него есть задача сдампить текст с конкретной страницы в интернете, а затем вырезать из неё нужный ему кусок, а вчера внезапно эту страницу поломали крякеры и вокруг полезной области разместили мусорные куски текста (но, именно текста) наподобие «DFWErWEWEeWWERTTWE» и «CFsCFD#SS##FFSSFG», но, при этом, алгоритм его программы всё равно способен правильно обработать текст (и именно текст!) со страницы и выдать корректный результат, то это успешный пример _обработки текста_. И именно обработки текста.

Точно также если программа юзера, считая что открывает текст, открывает бинарный файл, который и в однобайтной кодировке выглядит как «0OE.....┬.......», но при этом выделяет из этого всего нужную юзеру подстроку «running_under_emacs.pushd_doc», то это опять таки успешный пример _обработки текста_.

И не надо сюда примешивать личные эмоции. Тема не про эмоции, а про кодировки и тексты.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)
Ответ на: комментарий от saahriktu

Поскольку, например, если у него есть задача сдампить текст с конкретной страницы в интернете, а затем вырезать из неё нужный ему кусок, а вчера внезапно эту страницу поломали крякеры и вокруг полезной области разместили…

Как часто юзеры занимаются подобным рукоблудием?

petrosyan ★★★★★
()
Ответ на: комментарий от saahriktu

я тебя спрашивал «при каких условиях нужно выбирать определённую кодировку под задачи и не катит выбрать другую» — ты в ответ придумал пользователя, который считает кодпоинты и на сишечке сдвигает байты.
вот теперь очередной пример, ок.
в какой момент пользователь сдвинул байты или посчитал кодпоинты когда увидел running_under_emacs.pushd_doc?
а не программа для отображения текстов ли, случайно, это всё сделала, преобразовала байты в буквы и вывела на экран?
в какой момент ты на сишечке двигаешь байты для просмотра веб страницы? и кто рисует символы букв на экране в этот момент, твоё воображение, делая преобразование потока байт в символы по таблице, или браузер?
теперь, если тебе понятно, что зашифрованные байты — это не текст, пока не расшифруются, давай ты ответишь на тот самый вопрос: «при каких условиях нужно выбирать определённую кодировку под задачи и не катит выбрать другую»

system-root ★★★★★
()
Ответ на: комментарий от system-root

при каких условиях нужно выбирать определённую кодировку под задачи и не катит выбрать другую

Когда другая кодировка менее удобна юзеру.

в какой момент пользователь сдвинул байты или посчитал кодпоинты когда увидел running_under_emacs.pushd_doc?

Юзер скармливает своей программам тексты, а они выдают результат обработки текстов.

а не программа для отображения текстов ли, случайно, это всё сделала, преобразовала байты в буквы и вывела на экран?

Такие программы только оформляют вывод результата. Который ещё нужно получить тем или иным алгоритмом.

в какой момент ты на сишечке двигаешь байты для просмотра веб страницы? и кто рисует символы букв на экране в этот момент, твоё воображение, делая преобразование потока байт в символы по таблице, или браузер?

Какой просмотр веб-страницы? Какой браузер? И почему обязательно байты? Обработка текста бывает разная. А веб-страница - это именно текст. Который во время обработки нигде не отображается. Обрабатывать тексты из интернета можно, например, так:

#!/usr/bin/perl
use LWP::Simple;
use XML::Simple;

@rssxmlfiles = ('dwd.xml', 'dwp.xml');

foreach $nextxmlfile (@rssxmlfiles){
        my $url = "http://distrowatch.com/news/" . $nextxmlfile;
        my $content = get $url;
        die "Couldn't get $url" unless defined $content;
        my $xmlcontent = XMLin($content,);
        print "$xmlcontent->{channel}->{title} \n";
        for (@{$xmlcontent->{channel}{item}}) {
                print "$_->{title} \n";
        }
}
А можно и не так. Методы и алгоритмы бывают разные, и всё зависит от конкретной задачи.

зашифрованные байты — это не текст

Нет, это именно текст.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu
  • давай начну с конца разбивать твой манямирок.
    10011000 00011101 10100101 10110100 11011000 10001000 — «Нет, это именно текст»?
    обычный текст говоришь, да? ну в принципе да, когда ты увидишь это сообщение, это текст в котором нолики и единицы, вот только это бинарная последовательность. это зашифрованные байты, и ты не знаешь, текст это или нет.
  • обрабатывать текст ты можешь как угодно, например писать его с клавиатуры или использовать библиотеки написанные на языках погромирования. можешь даже конвертировать текст из одной кодировки в другую в процессе обработки и обратно. чё хош можешь делать.
    но, как только ты начинаешь двигать байты или считать кодпоинты, ты обрабатываешь байты, а не текст.
  • «Когда другая кодировка менее удобна юзеру» это самоё ушлёпское из твоих вихляний.
    на любые аргументы можно сказать «а мне удобно приседать на кактус», так что «удобно» это вторая стадия, после отрицания.
    отвратительно, когда задаёшь конкретный вопрос, а в ответ «когда удобно». так делают школьники, «когда им удобно» вихлять, в отличии от невихлять.

кто после такого поверит, что ты не притворяешься олдфагом, будучи школьником\студентом?

system-root ★★★★★
()
Последнее исправление: system-root (всего исправлений: 1)
Ответ на: комментарий от system-root

ты не знаешь, текст это или нет.

Любую последовательность байт можно распарсить как текст. И любая последовательность байт может быть текстом для той иной задачи.

но, как только ты начинаешь двигать байты или считать кодпоинты, ты обрабатываешь байты, а не текст.

Но, как только я начну двигать электроны, протоны и нейтроны я буду двигать электроны, протоны и нейтроны, а не материю.

так делают школьники

Эмоции, а не аргумент. Юзер может отказаться парсить модификаторы если они ему ненужны. А отказаться от этого без последствий (особенно если, например, программа должна форматировать текст, который потом где-то отображается) можно только выбрав ту кодировку, где нет модификаторов - однобайтную.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Любую последовательность байт можно распарсить как текст

звиздец. в квотезы.

system-root ★★★★★
()
Ответ на: комментарий от saahriktu

А в последние годы по просьбам виндузятников под Win 10 портируются модули 5-го Perl'а для работы с KOI8-R.

Мне почему-то кажется, что Perl под Windows 10 никому нахрен не нужен, не то что KOI8. Так что либо ты приводишь инфу о своём личном клубе геев-некрофилов, либо активно гонишь.

hateyoufeel ★★★★★
()
Последнее исправление: hateyoufeel (всего исправлений: 1)
Ответ на: комментарий от hateyoufeel

Все юзают разное. И активное развитие целых 2-х проектов Perl'ов под Windows (а один из них развивается под одной крышей с Tcl'ом, Ruby, Node, Lua, Python'ом, Go и Komodo IDE для Windows) расходится с утверждениями противников Perl'а.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Твою ж мать! Целых два проекта! Ну всё, .net и прочим теперь точно капец!

hateyoufeel ★★★★★
()
Ответ на: комментарий от vanrst25

Такие же, какие и обычно. Но, на Андроиде уже можно юзать и юникод - там можно извлекать профиты и из него, поскольку там векторные шрифты в тысячи символов.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Так у нормальных людей уже давно везде векторные шрифты в тысячи символов. Зачем им убогая некрокодировка?

petrosyan ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.