LINUX.ORG.RU
ФорумTalks

Вышел однобайтный текстовый редактор GNU moe 1.9. Также вышел мой патч для любой однобайтной локали, включая KOI8-R.

 , ,


2

4

Сабж. Текстовый однобайтный редактор GNU moe (My Own Editor) вот уже 12 лет пилит Antonio Diaz Diaz (http://savannah.gnu.org/users/antonio).

Из коробки текстовый редактор заточен под ISO-8859-15. Свой выбор автор обосновывает так:

Moe uses ISO-8859-15 instead of UTF-8 because an 8-bit character set
(combined with romanization if needed) can convey meaning safely and
more efficiently than UTF-8 can.

UTF-8 is a great tool for tasks like writing books of mathematics or
mixing Greek with Chinese in the same document. But for many other
everyday computing and communication tasks, an 8-bit code like
ISO-8859-15 is much more practical, efficient and reliable. There is no
such thing as an "invalid" or "out of range" ISO-8859-15 character.

UTF-8 is fine for non-parsable, non-searchable documents that must look
"pretty", but not so fine for things like configuration files or C++
source code. UTF-8 greatly hinders parsability (and may even become a
security risk) by providing multiple similar-looking variations of basic
alphabetic, punctuation, and quoting characters. UTF-8 also makes search
difficult and unreliable. For example, searching for a word like "file"
in an UTF-8 document may fail if the document uses the compound
character 'fi' instead of the string "fi".

В новой версии:

Changes in version 1.9:

Moe now loads recursively all the regular files in each directory passed
in the command line. This feature makes it easier to edit a whole tree
containing thousands of files.

The new help key 'C-a' has been added because 'F1' is intercepted by
some terminal emulators, and 'C-h' is interpreted as backspace by
others.

The UTF-8 decoder now converts some more characters.

Cursor positions (+line,column) given in the command line are now
adjusted for tab characters.

The command 'goto matching delimiter' now skips delimiters inside /**/
comments.

The 'N' command ('Find next' in reverse direction) has been added to the
basic less emulation.

Standard input is now read just once, the first time it appears in the
command line.

'Remove duplicate lines' is now a 20% faster.

Long file names are now cut to fit in messages like this:
"File '...end_of_long_file_name' saved".

An 8-bit "C" locale is now used in Cygwin so that ncurses can show
characters higher than 127.

A configure warning happening on some shells when testing for g++ has
been fixed.
Скачать: ftp://ftp.gnu.org/gnu/moe/moe-1.9.tar.lz

Патч для любой однобайтной локали, включая KOI8-R: http://saahriktu.org/downloads/patches/moe-1.9_any8bit.patch.lzma

Скриншот после применения патча: http://saahriktu.org/tmp/scr1498513368.png

★★★★★
Ответ на: комментарий от KivApple

Предлагаю тогда запилить 7-битный текстовый редактор. ASCII хватит всем! А все файлы станут меньше ещё на 12.5%.

Не всем нужно ASCII, [a-z0-9] хватит всем.

h578b1bde ★☆
()
Ответ на: комментарий от saahriktu

И японских первоклассников учат определённому порядку их написания в бумажных тетрадках

Японских первоклассников первым делом учат хирагане, после чего в нашем 21-м веке они уже могут спокойно общаться с помощью мессенджеров.

При этом большинство японцев знают далеко не все родные иероглифы

Родных иероглифов у них нет, вообще-то, пользуются китайскими :)

а только наиболее употребительные

3000 наиболее употребительных позволяют читать 99.999% всех текстов. Опять же на бумажном письме в случае склероза всегда можно перейти на кану и тебя поймут, а компутеры энти закорючки сами тебе нарисуют.

А оставшиеся наиболее грамотные японцы вполне прочитают и ромадзи

Прочитай мне по японски roku.

redgremlin ★★★★★
()
Ответ на: комментарий от saahriktu

Но, вот локально работать со своими и чужими текстами удобнее и практичнее в однобайтных кодировках (что решается однобайтной локалью; такой как ISO-8859-15 или KOI8-R).

Кстати, а чего у тебя не ISO 8859-5? Ведь оно ещё более маргинально чем KOI8-R, тебе должно было бы понравиться.

h578b1bde ★☆
()
Ответ на: комментарий от te111011010

Что им по-твоему делать?

Понаехать обратно, очевидно же.

h578b1bde ★☆
()
Ответ на: комментарий от redgremlin

Родных иероглифов у них нет, вообще-то, пользуются китайскими

Отдельные иероглифы у них собственные, да и китайские иероглифы частично перетолкованы на свой лад.

Прочитай мне по японски roku.

«Року». Понятное дело, что есть разные слова с одинаковым произношением, да, но в том же русском языке эта проблема на уровне письменности совсем не решается, и ничего.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Вы еще французский вспомните. Там частенько так, слова пишутся по-разному, произносятся одинаково.

hibou ★★★★★
()
Ответ на: комментарий от te111011010

«Не знаю про te111011010, но я живу в Будапеште и учу венгерский».

Miguel ★★★★★
()

Вышел однобайтный текстовый редактор

Ждем когдай выйдет однокнопочный

Siado ★★★★★
()
Ответ на: комментарий от h578b1bde

Кстати, а чего у тебя не ISO 8859-5?

По историческим причинам. Когда я пересел на линуксы мануалы по руссификации рассказывали, что все юниксоиды в стране юзают локаль KOI8-R, и описывали как её настроить. А куда-то с неё переходить - нет смысла.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от Suigintou

С этим никто и не спорит. Это ответ тем, кто утверждает, что всем нужен только юникод, и ничего кроме юникода. И что, якобы, этому мешает всего лишь одна KOI8-R. В то самое время как куча японских сайтов в кодировке Shift-JIS, в Китае многое в Big5, а в США, вон, ASCII и ISO-8859-15.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

в том же русском языке эта проблема на уровне письменности совсем не решается

Слава юникоду, частично решается — му́ка или мука́. Но у японцев-то не русский язык, у них проблема острее стоит, почему от иероглифов так и не отказались, и им на письме важно, ロク там, или ろく, или 陸, или 六. И тут ты такой весь в белом с ромадзи.

redgremlin ★★★★★
()
Ответ на: комментарий от redgremlin

Ударения можно ставить и в однобайтных кодировках. Апострофами. И в ромадзи тоже. Основная проблема - разный смысл при одинаковом произношении. Как в примере «Косил косой косой косой». Но, и тут можно выруливать через дополнительные пояснения: «Косил косой (заяц) косой (кривой) косой (инструментом)».

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Но, и тут можно выруливать через дополнительные пояснения

Слишком много лишних байт на сообщение получается.

Suigintou ★★★★★
()
Ответ на: комментарий от Suigintou

Если бы многие слова произносились одинаково при разных смыслах, то устная речь была бы кошмаром. То, что она таковой не является, является подтверждением того, что таких слов не так уж и много. Просто можно наехать на эти грабли, да. Но, можно и выруливать. А дополнительные байты будут в любом случае. Хоть как цена тысяч и миллионов символов в кодировке, хоть в форме пояснений.

saahriktu ★★★★★
() автор топика

А теперь поцелуйте друг-друга, дети мои... какой ужас - упоротые, похоже, почкованием размножаются.

zabbal ★★★★★
()
Ответ на: комментарий от t184256

ASCII новодел и растачительство. RADIX-50 вот решение, 6 бит хватит всем, 4 символа пакуются в 3 байта, а наборы символов переключаются спец.кодами. Только PDP-11, только хардкор!
Нет, это правда смешно, читать самооправдания любителей однобайтных кодировок. Интересно посмотреть корреляцию однобайтников, веганов и аудиофилов.

Rupricht ★★
()
Ответ на: комментарий от Rupricht

Всем удобно разное. Одним удобно читать с монитора, другим удобнее читать бумажные книги. Одним удобнее юникод, другим однобайтные кодировки. Вегетарианство и стремление к качественному звуку же из других плоскостей. Вегетарианство само по себе - это вообще из области мировоззрений. Другой вопрос, что в чистом виде оно встречается не так уж и часто. Например, его активно проталкивают кришнаиты в своём религиозном контексте. В т.ч. через видео. И если вегетарианец в соцсетях распространяет видео пропагандирующее вегетарианство, то оно скорее всего было сделано кришнаитами в соответствующем ключе.

Лично я не так уж и против юникода, что подтверждают мои недавние темы. Но, не всегда есть смысл в юникоде. Если в растровом шрифте всего 256 символов (а в ядерной консоли применяются растровые PSF шрифты), то от юникода никакого профита не будет. Наоборот, всё будет загажено квадратиками на местах отсутствующих символов. А вот в случае векторных TTF шрифтов юникоду есть место.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)
Ответ на: комментарий от saahriktu

Но, вот локально работать со своими и чужими текстами удобнее и практичнее в однобайтных кодировках (что решается однобайтной локалью; такой как ISO-8859-15 или KOI8-R).

Пример текста на японском в KOI8-R в студию

NextGenenration ★★
()
Ответ на: комментарий от NextGenenration

Зачем тогда ввобще нужен компьютер?

Для хранения и обработки данных. Процесс обучения самого человека не обязательно должен быть с этим связан. А вот после завершения обучения в своей деятельности он в т.ч. может использовать и компьютер.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от NextGenenration

мУка, мукА. Вот видишь, можно и без юникода.

<<Кавычки>> и <<тире>> — тоже можно без юникода. Но лучше так не делать.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

<<Кавычки>>

"

<<тире>>

-

Не всем нужна разница между типами кавычек и дефисом, длинным тире и простым тире.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Не всем нужна разница между типами кавычек и дефисом, длинным тире и простым тире.

Я сейчас редактирую сборник из дофига статей. И аффтаров, которым «не всем нужна», хочется убивать в лучших традициях Средневековья.

petrosyan ★★★★★
()
Ответ на: комментарий от petrosyan

Для этого есть утилита raskormiknigu: https://github.com/saahriktu/raskormiknigu . Напоминаю, она читает текст в KOI8-R, и собственными силами конвертирует его в UTF-8, расставляя при этом кавычки-ёлочки, дефисы и длинные тире там, где они нужны.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Если в растровом шрифте всего 256 символов (а в ядерной консоли применяются растровые PSF шрифты), то от юникода никакого профита не будет. Наоборот, всё будет загажено квадратиками на местах отсутствующих символов.

Растровые шрифты вполне поддерживают весь юникод. Я тот же терминус юзаю (и небольшой свой неопубликованный форк, где добавил символы иврита, ещё некоторые относительно часто используемые неалфавитные символы и переделал несколько существующих, опубликую потом), и он поддерживает на порядок больше, чем 256 символов. То, что количество глифов в ядерной консоли ограничено — проблема ядерной консоли. Не фича, не идеология, а именно устаревшесть — приходится юзать иксы. Вот я и юзаю иксы, и вовсе не из-за того, что я мышевоз какой-нибудь или любитель GUI где надо и не надо, а потому что ядерная консоль давно не справляется даже с базовыми задачами современными. CLI — это лучший тип интерфейса (не всегда, есть исключения, но тем не менее), да, но tty в Linux как не крути убоги. Их бы по-хорошему надо исправить, доделать, но никому в наше время это не надо, ибо все понимают, что «ядерную консоль» используют только для восстановления системы, и что-то кроме ascii не требуется (включая, кстати, и кириллицу), а при подключении к тем же серверам по ssh юникод прекрасно поддерживается.

Psych218 ★★★★★
()
Ответ на: комментарий от reprimand

Они уже давно отсутствуют по дефолту.

test.c:1:11: предупреждение: триграф ??< игнорируется, для включения используйте -trigraphs [-Wtrigraphs]

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu
$ c89 test.c -o test
$
$ c99 test.c -o test
$

Но вообще ты отвечаешь вопросов на вопрос. Антисемит штоле?)
З.Ы. Я не использую ГНУтые стандарты.

reprimand ★★★★★
()
Последнее исправление: reprimand (всего исправлений: 1)
Ответ на: комментарий от Psych218

Растровые шрифты вполне поддерживают весь юникод.

Речь конкретно про PSF шрифты. Которые в ядре жёстко ограничены 64-ю килобайтами.

ядерная консоль давно не справляется даже с базовыми задачами современными

Со своими задачи она вполне справляется, а «базовые задачи» - понятие растяжимое. Всем нужно разное.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от reprimand

У меня никогда не было необходимости писать триграфами. Собственно, история их появления говорит, что они были нужны там, где не было полноценной ASCII. А KOI8-R (которая на 100% совместима с ASCII) у меня была всегда.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Речь конкретно про PSF шрифты. Которые в ядре жёстко ограничены 64-ю килобайтами.

Это проблемы ядра. Оно не священный неприкосновенный артефакт. В нём тоже есть проблемы.

Psych218 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.