У OpenBSD теперь свой vi

0

1

Привет, ЛОР!

Тащемта сабж: https://www.opennet.ru/opennews/art.shtml?num=56735

Отдельно порадовало, что там нет поддержки юникода от слова совсем.

No support for Unicode / UTF-8 / wide character display

    Multi-byte characters are shown as individual bytes, rather than glyphs

saahriktu будет доволен!

Ссылка

←	Не забудьте выбросить компьютеры до 1 марта!

Upgrade САРВАР

→

Показаны ответы на комментарий. Показать все комментарии.

Ответ на: комментарий от praseodim 22.02.22 20:18:57 UTC

Дело в том, что работать с такой строкой неудобно. Не значит, что нельзя, но все же лучше когда один символ - один байт (или фиксированное - 2 или 4).

Utf8 существует уже 30 лет. Из них лет 15 он является стандартной кодировкой в интернете. Но в C его до сих пор не умеют. Нужно как минимум glib тащить.

hateyoufeel ★★★★★
(22.02.22 20:26:36 UTC) автор топика

Ответ на: комментарий от hateyoufeel 22.02.22 20:26:36 UTC

Да причем тут умеют или не умеют.

Например, банально захотелось статистику сделать по тексту, количество символов например подсчитать. Или там морфлогией какой посложнее заняться - и все нельзя просто взять и обратиться к массиву по индексу.

Получается, что utf8 - это для обмена информацией или для ненапряжной обработки внутри, а если что-то посерьезнее хочется, то сильно неудобно и быстродействие падает.

Я тут очень медленно пилю кое-какой свой проектик, может когда-нибудь выложу публично, а может так и не дойдет, но не суть. Я для русского текста выбрал для внутренней обработки cp1251 - удобнее всего: один байт на символ и в алфавитном порядке.

praseodim ★★★★★
(22.02.22 21:00:38 UTC)

Ответ на: комментарий от praseodim 22.02.22 21:00:38 UTC

cp1251 - удобнее всего: один байт на символ и в алфавитном порядке.

А если среди т.н. «русского текста» встретится, например «см²», то?

thunar ★★★★★
(22.02.22 21:27:47 UTC)

Ответ на: комментарий от thunar 22.02.22 21:27:47 UTC

В KOI8-R, кстати, есть '²'.

saahriktu ★★★★★
(22.02.22 22:59:15 UTC)

Ссылка

Ответ на: комментарий от praseodim 22.02.22 21:00:38 UTC

cp1251

какой кошмар... и это linux.org.ru... в XXI веке...

банально

и все нельзя просто взять и обратиться к массиву по индексу.

есть такая фигня. it все сложнее. именно поэтому open source теперь развивается корпорациями. именно поэтому теперь systemd вместо свободного линукса. потому что нельзя просто так взять и сделать! (с) с другой стороны берешь и считаешь границы символов (маркировки). пяти минут не прошло и я это сообразил.

~~crypt~~ ★★★★★
(23.02.22 11:27:06 UTC)
Последнее исправление: crypt 23.02.22 11:34:49 UTC (всего исправлений: 1)

Ответ на: комментарий от hateyoufeel 22.02.22 20:26:36 UTC

я прочел, что чувак написал драфт еще в 18 году, но не смог попасть на встречу комитета. на встречу C++ попал и протолкнул. а С не повезло.

~~crypt~~ ★★★★★
(23.02.22 12:00:04 UTC)

Ссылка

Ответ на: комментарий от thunar 22.02.22 21:27:47 UTC

А если среди т.н. «русского текста» встретится, например «см²», то?

А если еще какой символ? Мне это неважно для моих целей. Немного велосипедю с поиском по тексту и другими его характеристиками.

praseodim ★★★★★
(23.02.22 12:07:08 UTC)

Ссылка

Ответ на: комментарий от crypt 23.02.22 11:27:06 UTC

какой кошмар... и это linux.org.ru... в XXI веке...

Что удобно, то и используется. В принципе koi8-r тоже можно, но все же отсортированность иногда полезна.

есть такая фигня. it все сложнее. именно поэтому open source теперь развивается корпорациями. именно поэтому теперь systemd вместо свободного линукса. потому что нельзя просто так взять и сделать! (с) с другой стороны берешь и считаешь границы символов (маркировки). пяти минут не прошло и я это сообразил.

Остается вопрос, а зачем мне себе работу усложнять и понижать скорость обработки? Меня устраивает и то, что некоторые символы будут пропущены при преобразовании utf-8 --- cp1251 (koi8-r)

praseodim ★★★★★
(23.02.22 12:09:22 UTC)

Ответ на: комментарий от praseodim 23.02.22 12:09:22 UTC

ну понимаешь, можно писать хороший код, а можно какой удобно. если писать код для души, то логично, чтобы он был хороший. о каком быстродействии ты говоришь, я вообще не понимаю. если я не готов иметь дело с юникодом, я не использую русский вообще.

~~crypt~~ ★★★★★
(23.02.22 12:12:50 UTC)
Последнее исправление: crypt 23.02.22 12:14:27 UTC (всего исправлений: 1)

Ответ на: комментарий от crypt 23.02.22 12:12:50 UTC

Мне нужно сравнивать текст с учетом морфологии, да где-то велосипедю нечеткий поиск, но с некоторыми еще условиями. По любому, алгоритмы зависят от языка. И зачем мне там все усложнять юникодом, это мне вообще ничего не даст.

praseodim ★★★★★
(23.02.22 12:39:40 UTC)

Ответ на: комментарий от praseodim 23.02.22 12:39:40 UTC

серьезно на это отвечать скучно, поэтому я могу только предложить попробовать на раст=) там поди уже есть че-нибудь более современное)

~~crypt~~ ★★★★★
(23.02.22 13:19:11 UTC)

Ответ на: комментарий от crypt 23.02.22 13:19:11 UTC

Да, добавлю, что внешняя информация может поступать и в юникоде, вернее в разных кодировках, но в основном utf-8 и cp1251, остальные в следовых количествах. Как и выдаваться в юникоде, но вот внутренняя обработка намного проще, когда однобайтовая

praseodim ★★★★★
(23.02.22 13:52:01 UTC)

Ответ на: комментарий от crypt 23.02.22 13:19:11 UTC

В принципе, для внутренней обработки можно вообще свою собственную кодировку придумать, просто в этом нет необходимости.

praseodim ★★★★★
(23.02.22 14:02:16 UTC)

Ссылка

Ответ на: комментарий от praseodim 23.02.22 13:52:01 UTC

если нужно проще, достаточно взять язык, который эту ситуацию обрабатывает из коробки, а не писать какой-то странный код, который я поломаю плохим вводом. я почти уверен, что помести ты это в программерскую ветку, обсмею не только я.

и уж тем более не подобает обсуждать это в ветке про OpenBSD, которая очень радеет за качество кода, а не чтобы удобно.

~~crypt~~ ★★★★★
(23.02.22 14:13:08 UTC)
Последнее исправление: crypt 23.02.22 14:14:48 UTC (всего исправлений: 2)

Ответ на: комментарий от crypt 23.02.22 14:13:08 UTC

если нужно проще, достаточно взять язык, который эту ситуацию обрабатывает из коробки, а не писать какой-то странный код, который я поломаю плохим вводом. я почти уверен, что помести ты это в программерскую ветку, обсмею не только я.

Ну например, хочется знать такой параметр текста, как частоту встречаемости в нем отдельных букв. В случае однобайтовой кодировки все тривиально пишется черех простой Radix sort.

frequency[text[i]]++;

Предельно быстро и предельно просто. Зачем искать другой язык? Еще и не уверен, кстати, что такой найдется, вместо массива как минимум будет хэш, а это замедление. Может не всегда критичное, но все же.

praseodim ★★★★★
(23.02.22 14:23:13 UTC)
Последнее исправление: praseodim 23.02.22 14:24:34 UTC (всего исправлений: 1)

Ответ на: комментарий от praseodim 23.02.22 14:23:13 UTC

потому что у тебя будет программа, которая сможет работать не только с русским языком, а с разными, будет современной. это всегда более красиво. поясню на примере. в heroes2 вообще «своя кодировка» - привязка спрайтов букв к алфавиту. смена языка - рисовка новых букв и кодирование текста. в XXI веке это выглядит, как грязный хак. это мое имхо.

~~crypt~~ ★★★★★
(23.02.22 14:29:06 UTC)
Последнее исправление: crypt 23.02.22 14:30:43 UTC (всего исправлений: 2)