LINUX.ORG.RU

n7t328IIpnwd 0.3

 , ,


3

4

Состоялся релиз n7t328IIpnwd 0.3 — утилиты для lossless дампа UTF-32 данных в KOI8-R/ASCII.

Название утилиты является производным от «utf-32 to koi8-r dump», где «n7t» и «pnwd» являются зеркальными отражениями (по вертикали) «utf» и «dump» соответственно. Утилита является более мощным и более современным аналогом таких утилит, как utfinfo.pl и uniname из набора утилит uniutils. В число особенностей утилиты входят отключаемость режима «один символ на строку» (по умолчанию выключен), который является единственным рабочим режимом для перечисленных утилит, а также наличие обёртки KOI8-R, которая позволяет дампить символы из состава 2-й половины кодовой таблицы KOI8-R как они есть, в соответствующих кодах KOI8-R (по умолчанию включена). При отключении обёртки KOI8-R как они есть дампятся только символы из состава ASCII.

Для получения информации о названиях символов Юникода утилита использует библиотеку libunistring, которая является чуть ли не единственным современным решением. utfinfo.pl использует модуль CharName.pm из состава Unicode-String, который не содержит информацию о ряде новых символов из состава юникода, соответствует данным о стандарте не новее чем 2005 г. uniname использует собственную таблицу и не обновлялась с 2009 г.

Примеры результатов:

   В своей формулировке теоремы о неполноте Гёдель использовал понятие
   [GREEK SMALL LETTER OMEGA]-непротиворечивой формальной системы [EM DASH] более сильное условие, чем
   просто непротиворечивость. Формальная система называется
   [GREEK SMALL LETTER OMEGA]-непротиворечивой, если для всякой формулы A(x) этой системы
   невозможно одновременно вывести формулы А(0), А(1), А(2), [HORIZONTAL ELLIPSIS] и [THERE EXISTS]x [NOT SIGN]A(x)
   (другими словами, из того, что для каждого натурального числа n
   выводима формула A(n), следует невыводимость формулы [THERE EXISTS]x [NOT SIGN]A(x)). Легко
   показать, что [GREEK SMALL LETTER OMEGA]-непротиворечивость влечёт простую непротиворечивость
   (то есть, любая [GREEK SMALL LETTER OMEGA]-непротиворечивая формальная система
   непротиворечива)^[6].
Vine Linux [HIRAGANA LETTER NI][HIRAGANA LETTER TU][HIRAGANA LETTER I][HIRAGANA LETTER TE]

   Vine Linux [HIRAGANA LETTER HA][IDEOGRAPHIC COMMA]Project Vine[HIRAGANA LETTER O][HIRAGANA LETTER YO][HIRAGANA LETTER BI][591a][HIRAGANA LETTER KU][HIRAGANA LETTER NO][5354][529b][8005][HIRAGANA LETTER NI][HIRAGANA LETTER YO][HIRAGANA LETTER SMALL TU][HIRAGANA LETTER TE][958b][767a][HIRAGANA LETTER GA][884c][HIRAGANA LETTER WA][HIRAGANA LETTER RE][HIRAGANA LETTER TE][HIRAGANA LETTER I][HIRAGANA LETTER RU][IDEOGRAPHIC COMMA]
   [KATAKANA LETTER KO][KATAKANA LETTER N][KATAKANA LETTER PA][KATAKANA LETTER KU][KATAKANA LETTER TO][HIRAGANA LETTER DE][8efd][91cf][HIRAGANA LETTER NA][65e5][672c][8a9e]Linux[KATAKANA LETTER DE][KATAKANA LETTER SMALL I][KATAKANA LETTER SU][KATAKANA LETTER TO][KATAKANA LETTER RI][KATAKANA LETTER BI][KATAKANA LETTER SMALL YU][KATAKANA-HIRAGANA PROLONGED SOUND MARK][KATAKANA LETTER SI][KATAKANA LETTER SMALL YO][KATAKANA LETTER N][HIRAGANA LETTER DE][HIRAGANA LETTER SU][IDEOGRAPHIC FULL STOP] [KATAKANA LETTER I][KATAKANA LETTER N][KATAKANA LETTER SU][KATAKANA LETTER TO][KATAKANA-HIRAGANA PROLONGED SOUND MARK][KATAKANA LETTER RU][HIRAGANA LETTER NO][76f4][5f8c][HIRAGANA LETTER KA][HIRAGANA LETTER RA][5feb][9069][HIRAGANA LETTER NA][65e5][672c][8a9e][74b0][5883][HIRAGANA LETTER DE][4f5c][696d][HIRAGANA LETTER GA][HIRAGANA LETTER DE][HIRAGANA LETTER KI][HIRAGANA LETTER RU][HIRAGANA LETTER YO][HIRAGANA LETTER U][HIRAGANA LETTER NI][IDEOGRAPHIC COMMA]

В состав архива входит также скрипт n7t328IIpnwd_lynx.sh, который дампит текст со страницы по ссылке в KOI8-R (UTF-8 -> UTF-32 -> KOI8-R) через lynx.

>>> Скачать (2257 байт)

★★★★★

Проверено: Shaman007 ()
Последнее исправление: sudopacman (всего исправлений: 3)

я прочитал новость, но не понял - оно для чего? каков сценарий использования? что ещё за «lossless дамп UTF-32 данных в KOI8-R/ASCII»?

dbzix
()

Зочем это на глагне?

Stalin ★★★★★
()
Ответ на: комментарий от dbzix

Юзеры текстовых терминалов с локалью KOI8-R при помощи сабжевой утилиты могут терять меньше данных из юникодных текстов. А остальные люди могут использовать её просто для анализа юникодных текстов. А причины для анализа юникодных текстов могут быть самыми разными. Выше я приводил ссылку на одну из интернетовских тем, где юзеру было интересно выяснить почему софт падает на одном из имеющихся у него юникодном текстовом файле.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

...не выпилил потому, что нашёлся один (всего один!) человек, которому это оказалось нужно.

Снимаю шляпу. Я так не умею.

Deleted
()

Гёдель использовал понятие
[GREEK SMALL LETTER OMEGA]-непротиворечивой формальной системы [EM DASH] более сильное условие, чем

Лучше бы в latex конвертировал, больше пользы бы было ;)

invy ★★★★★
()
Последнее исправление: invy (всего исправлений: 1)

Лорбабки с сёмками разкукарекались, аж на 4 страницы пронесло! Все скамейки заняты, в мешках еще полно сёмок, берегись молодежь!

anonymous
()
Ответ на: комментарий от Aceler

По-моему греческие и мат. символы все же правильне в латехе писать с использованием команд \alpha, \beta, \gama и т.п.

invy ★★★★★
()
Ответ на: комментарий от invy

Ну понятно, что юникодом ты уравнения не напишешь, но если тебе и не надо? Я бы не ограничивал людей инструментами, пусть пишут где хотят, лишь бы головой думали :-)

Aceler ★★★★★
()
Ответ на: комментарий от Aceler

Так никто не ограничивает, но опционально фичу иметь может быть и полезно было. Потому что других юзкейсов для программы пока не вижу.

invy ★★★★★
()
Последнее исправление: invy (всего исправлений: 1)
Ответ на: комментарий от invy

В смысле транскрибировать ещё и в latex? Это не unix-way. Для latex должна быть отдельная утилита, иначе она не будет делать свою работу хорошо.

Aceler ★★★★★
()
Ответ на: комментарий от saahriktu

Т.е. ответа на вопрос, «а так ли важна оказывается скорость терминала при условии использования этой тулзы, которая должна облегчать работу с ядерным терминалом вследствие его быстроты» не будет.

Ясно.

GoodRiddance
()
Ответ на: комментарий от GoodRiddance

Она не облегчает работу с терминалом. Терминал и так работает прекрасно. Эта утилита помогает разбирать юникодные тексты в любых обстоятельствах, но особенно полезна при локали KOI8-R.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от inchallah

wchar_t в линуксовой реализации - это UTF-32, если что, а не UTF-16 как в винде. Хоть в моей реализации я и обошёлся без wchar_t и просто читаю побайтово, а потом склеиваю.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от Deleted

...не выпилил потому, что нашёлся один (всего один!) человек, которому это оказалось нужно.

Снимаю шляпу. Я так не умею.

А по-моему, вполне нормальный подход.

hobbit ★★★★★
()
Ответ на: комментарий от inchallah

Сложный вопрос. koi8R был нужен в момент появления, сейчас же имеет смысл сохранять поддежку как legacy. utf-32 создавался параллельно с utf08 и, насколько я знаю, распространения не получил.

te111011010
()
Ответ на: комментарий от saahriktu

Если у вас с Эдиком раздвоение личности, то возможно. Но, если у Эдика раздвоение личности, то вполне возможно, что ты — его же аккаунт.

te111011010
()
Ответ на: комментарий от saahriktu

Тот, кто по настоящему привык к командной строке, уже вряд ли променяет её на графические среды.

Видишь разницу между командной строкой и текстовым режимом? А она есть.

Ну-ну.

Представь себе.

А если Вы намекаете на то, что ядерная консоль скроллится медленнее чем в иксовых эмуляторах терминала - так это и так давно известный факт.

Именно.

А head, less, grep и другие инструменты всегда позволяют получить конкретные нужные куски текста, а не всю простыню разом.

Причем одинаково быстро (с точностью до скорости человеческого восприятия) что в текстовом режиме, что в lilyterm@openbox.

dexpl ★★★★★
()
Ответ на: комментарий от inchallah

Я же говорю, раздвоение личности. Одна личность — весёлый, но упоротый, а вторая — просто упоротый.

te111011010
()
Ответ на: комментарий от te111011010

Нет, мы разные люди. Поэтому нас, юзеров локали KOI8-R, больше.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от dexpl

Видишь разницу между командной строкой и текстовым режимом? А она есть.

Командной строкой вне текстового режима пользоваться, конечно, можно, но не так удобно. Мешается и жрёт системные ресурсы графический интерфейс и его софт.

saahriktu ★★★★★
() автор топика
Последнее исправление: saahriktu (всего исправлений: 1)
Ответ на: комментарий от saahriktu

Юзеры текстовых терминалов с локалью KOI8-R при помощи сабжевой утилиты могут терять меньше данных из юникодных текстов.

Ты написал эту утилиту, потому что она тебя нужна. Раз она тебе нужна, значит ты работаешь с юникодными текстами. При конвертации из юникода ты теряешь часть данных.

Вопрос: почему ты используешь неподходящий инструмент и рассказываешь как это офигенно удобно?

kernelpanic ★★★★★
()
Ответ на: комментарий от kernelpanic

В большинстве случаев ничего серьёзного не теряется. Но, ситуации бывают разные. Поэтому подумалось, что удобно (просто удобно, но не критично) было бы иметь и такой инструмент. Ну и написалось.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от kernelpanic

Уже не теряется. А тексты бывают разные. Для кириллицы + латиницы KOI8-R и так всегда было выше крыши.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Здравствуйте! Простите, пожалуйста, а что - нужное нужно? Буду премного благодарен, если немного просветите об этом. :)

anonymous
()
Ответ на: комментарий от anonymous

Можно я тоже буду писать сам для себя новости?

Естественно. :)

anonymous
()
Ответ на: комментарий от inchallah

И то нужно, и другое. И еще - UTF-33 :)

anonymous
()
Ответ на: комментарий от saahriktu

Командной строкой вне текстового режима пользоваться, конечно, можно, но не так удобно.

Что именно мне, по-твоему, неудобно?

Мешается и жрёт системные ресурсы графический интерфейс и его софт.

В кои8-р закончились запятые?

dexpl ★★★★★
()
Ответ на: комментарий от dexpl

Что именно мне, по-твоему, неудобно?

Ну, Вы, видимо, привыкли переключаться между эмулятором терминала и тяжёлым GUI софтом. Но, не всем удобно переключаться. Особенно без мыши (да-да, много устройств ввода - это тоже может быть неудобно; только одна клавиатура может быть гораздо удобнее; и не всем удобны громоздкие хоткеи, которые появляются от большого кол-ва прослоек софта).

В кои8-р закончились запятые?

Я там падежи перепутал. Мешаются и жрут системные ресурсы. Они. Графический интерфейс и его софт.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от dexpl

Ну так это зависит от представления о кириллице и латинице.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

юзерам текстовых терминалов с локалью KOI8-R

Им нужно не это убожество, а своевременные поставки галоперидола и комната с мягкими стенами.

zabbal ★★★★★
()
Ответ на: комментарий от saahriktu

Ну, Вы, видимо, привыкли переключаться между эмулятором терминала и тяжёлым GUI софтом.

Да, и это не сложнее переключения между приглашением командной строки и тяжелым TUI-софтом вроде того же lynx.

Особенно без мыши

На стандартной 105-клавишной клавиатуре PC keyboard — 105 клавиш, так что мышь для переключения между окнами не необходима.

не всем удобны громоздкие хоткеи

Мышь неудобна, клава неудобна… что ж тогда удобно-то? Тачпад?

dexpl ★★★★★
()
Ответ на: комментарий от dexpl

клава неудобна

Удобна, когда ей управляют сочетанием ядерной консоли и screen'а без добавления лишних сущностей (WM'ов и т.д.).

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от saahriktu

Удобна, когда ей управляют сочетанием ядерной консоли и screen'а без добавления лишних сущностей (WM'ов и т.д.).

Неужели screen'овское ^A+2 удобнее Alt+2 (переключение на второй рабочий стол у меня в openbox)?

dexpl ★★★★★
()
Последнее исправление: dexpl (всего исправлений: 1)
Ответ на: комментарий от dexpl

Я говорю о том, что в случае задействования WM приходится рулить __одновременно__ всеми слоями: 1) консолью 2) screen'ом 3) vim'ами, emacs'ами,... и т.д. 4) WM'ами ...

Одни хоткеи __накладываются__ на другие. Без хоткеев управления WM'ами наслоений меньше.

saahriktu ★★★★★
() автор топика

Я считаю что нужно больше утилит с подобными названиями. Названия можно использовать в качестве паролей, а в случае острых приступов склероза — восстановить из архива новостей ЛОРа. Практично же!

h578b1bde ★☆
()
Ответ на: комментарий от anonymous

Я книжки не в столбик читаю. Этот режим для других задач. И у меня уже тонны книжек, которые я получил другими способами без этой утилиты.

saahriktu ★★★★★
() автор топика
Ответ на: комментарий от anonymous
  • Зачем прыгать с кодировки на кодировку? А если потом появится ещё какая-нибудь VUG-256, то все с радостью на неё перепрыгнут и переконвертируют свои коллекции текстовых файлов? Не проще ли выбрать кодировку один раз в жизни?
  • Экономия системных ресурсов; тексты занимают меньше места на носителях и в оперативке и быстрее обрабатываются;
  • Можно продолжать юзать <<main (int argc, char **argv)>>, strncpy, strncmp, printf,... и другие неюникодные функции;
  • Можно переместить указатель на подстроку со смещением N символов просто прописав <<strptr + N>> без привлечения лишних сущностей в лице ICU (для отфильтровывания диакритики и других модификаторов);
  • В ядерной консоли по-прежнему размер символа может быть не больше чем 32x32 пикселя, а весь шрифт может весить не более чем 64 Кб. Отсюда и проблемы с кол-вом символов более чем 256. На уровне ядра. Поэтому юзерам ядерной консоли без иксов особой разницы нет, и можно продолжать извлекать преимущества KOI8-R.
  • И т.д.
saahriktu ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.