LINUX.ORG.RU
ФорумTalks

Новая версия Яролита (форк ГОСТ 16876-71, табл 2)

 , ,


0

2

Выпущена новая версия яролита. Она почти равна русскому подмножеству ГОСТ 16876-71 (ISO/R 9:1968) (так случайно получилось).

V chashhakh juga zhil by citrus? Da, no falqshivyjj ehkzempljar!

Отличия от ГОСТ:

ь = q (перевернули мягкий знак)
ъ = jq (твёрдый знак разрезали и перевернули)
† = j8224j // любой юникод тоже представим
// Переключение языка с помощью последовательности
Ajj da xesukin xrsyn
// Добавлены дореформенные буквы (но их выкину в пользу братских и "небратских")
http://программирование-по-русски.рф/яролит.яргт/

Дальше изучаем тему. Буду складывать сюда всё, что найду:

http://meganorm.ru/Data2/1/4294835/4294835719.pdf - ГОСТ (ныне упразднён)

https://www.iso.org/standard/3587.html - история

https://www.ub2000.de/ru/kachestvo-perevodov/zaverennye-perevody-soglasno-sta... - пример использования (некоторые организации в германии требуют перевод по этому стандарту)

http://userscripts-mirror.org/scripts/review/89883 - кодировщик на JS для 1968 - неправильный, т.к. в нём й = j, а должно быть jj.

★★★★★

Последнее исправление: den73 (всего исправлений: 7)

Ответ на: комментарий от den73

https://ru.wikipedia.org/wiki/ISO_9 - здесь таблица приведена в удобном виде и обратимость явно декларируется. Но блин я перепутал - ISO 9 и ISO R/9 различаются.

Ещё есть сканированный Pdf с текстовым слоем, но ї в этом pdf не ищется.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 3)
Ответ на: комментарий от den73

Ага, вот что накопал:

В некоторых случаях возможно такое, что органы и ведомства при предоставлении переводов к примеру, с русского языка, желают соответствие их стандарту ISO-R 9.

Ещё упомянут

DIN EN 15038

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 1)
Ответ на: комментарий от djambeyshik

во-первых, чепуха, во-вторых, могу, но не буду.

den73 ★★★★★
() автор топика

В общем, вопрос на данный момент сводится к изучению истории стандарта ISO 9. Для русского языка ISO/R-9 1968 годен (с заменой на q). Нужно понять, почему он был дважды изменён. Википедия, судя по всему, врёт, говоря, что

Ранние версии стандарта (ISO/R 9:1954, ISO/R 9:1968, ISO 9:1986) были основаны на международной системе для образования по языкознанию (научная транслитерация), и отличались применением односторонней транслитерации, в пользу фонетического представления.

, похоже, что это неверный перевод фразы

but have diverged in favour of unambiguous transliteration over phonemic representation

из англоязычной версии.

ISO 9:1995 для РЯ явно хуже (занят x, ы с апострофом). 1986 не могу пока найти.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 1)
Ответ на: комментарий от den73

Ну вот, у меня отобрали первенство по мягкому знаку, а кто и когда - не знаю, следов не нашёл:

TRANSLIT — в предлагаемой системе используются все буквы латинского (английского) алфавита и не используются апострофы и кавычки не характерные для слов русского языка. Мягкий знак в ней заменяется латинской буквой q (похожей на перевёрнутый мягкий знак ь), щ на w (передаётся лишь одной буквой для краткости), разделительный твёрдый знак ъ на j (как и й, только твёрдый знак ъ используется после согласных, а й в остальных случаях). Для однозначного перевода с латиницы в словах с сочетаниями букв йо (йод, йогурт и т.п.), йа и йу используем в качестве разделителя модификатор h (для йод, йогурт — jhod, jhogurt).

Но в целом-то мой транслит лучше, поскольку у меня нет контекстной зависимости транслитерации буквы (этот TRANSLIT можно сломать чем-то вроде ыъ) и есть полезные плюшки.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 2)
Ответ на: комментарий от den73

Короче, основная задача - это найти стандарт 1986 года. Дальше выбрать наиболее интернациональный/политически правильный из 1968 и 1986, внести нужные изменения и тогда работа будет закончена.

den73 ★★★★★
() автор топика
Ответ на: комментарий от den73

чем-то вроде ыъ

Так слов таких не бывает. Если попытаешься произнести вслух, всё-равно или «ы» или «ый» получится.

monk ★★★★★
()
Ответ на: комментарий от Thetan

Как это связано с твоими предыдущими сообщениями?

а) Пиньин не замена транслита, так как фонетически не соответствует целевому языку и его правилам правописания.

б) Для английского языка тоже есть свой транслит, так как угадать по написанию произношение или правильно записать английское написание на слух невозможно.

Фактически, универсальным транслитом является IPA. Но он не умещается в ASCII.

Правда пиньин тоже не помещается, так как диакритики там нет.

И аналог пиньина для русского есть: http://transliteration.ru/gost-7-79-2000/

monk ★★★★★
()
Ответ на: комментарий от monk

На письме может быть всё, что угодно. Но не суть.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 1)
Ответ на: комментарий от Einstok_Fair

Твёрдый и мягкий знак кодируются не [a-zA-Z]. Для массы случаев не подойдёт. Более того, они кодируются какой-то диакритикой, которая, может быть, даже с кодом >256. Впрочем, неважно.

Как минимум, это ещё одно доказательство того, что решаемая мной задача актуальна.

den73 ★★★★★
() автор топика
Ответ на: комментарий от den73

Для массы случаев не подойдёт.

речь шла про емэйл.

нам нужен RFC 2822, пункт 3.4.1, там написано:
addr-spec = local-part «@» domain
local-part = dot-atom / quoted-string / obs-local-part
dot-atom = [CFWS] dot-atom-text [CFWS]
dot-atom-text = 1*atext *("." 1*atext)
atext = ALPHA / DIGIT / "!" / «#» / «$» / «%» / «&» / «'» / «*» / «+» / "-" / «/» / «=» / "?" / «^» / «_» / «`» / «{» / «|» / «}» / «~»

Присмотревшись к списку допустимых символов, видим тут и «'», и «`»
что ещё нужно для счастья?

Какие-такие сценарии использования?

Einstok_Fair ★★☆
()
Последнее исправление: Einstok_Fair (всего исправлений: 3)
Ответ на: комментарий от den73

Более того, они кодируются какой-то диакритикой, которая, может быть, даже с кодом >256.

А загуглить ascii table религия не позволяет? ` == 96

Как минимум, это ещё одно доказательство того, что решаемая мной задача актуальна решена.

Поправил.

Даже в моём провинциальном ВУЗе говорили, что любая научная работа начинается с изучения работ предшественников. Я увидев Вашу тему, сходу нашёл ISO 9, о котором здесь вы пишете так, как будто только что о нём узнали. Но, если я правильно понял Ваши задачи, ISO 9 — не подходит, а вот указанный выше ГОСТ 7.79-2000 вполне подходит. Значит яролит не нужен? Что ж, остаётся лишь посочувствовать велосипедостроителям, труд их тяжёл и бессмысленен.

Deleted
()
Ответ на: комментарий от Einstok_Fair

А теперь попробуй создать аккаунт в gmail с ' или `.

den73 ★★★★★
() автор топика
Ответ на: комментарий от Deleted

Жить, не имея мозга, тоже тяжело. Прочитай хотя бы заголовок:

Яролитерация - обратимая транслитерация, пригодная для идентификаторов

Во многих ли языках программирования можно вставить ` в идентификатор?

den73 ★★★★★
() автор топика
Ответ на: комментарий от den73

С ходу не могу придумать пример, когда необходимо использовать транслитерированный идентификатор, может у Вас есть такой пример?

Deleted
()
Ответ на: комментарий от Deleted

у Вас есть такой пример?

да, у него есть такие примеры, несколько штук, около десятка:
https://budden73.livejournal.com/37189.html
нужно пройти по этой ссылке и начать читать после слов «А где применяется обратимый транслит?»

Einstok_Fair ★★☆
()
Последнее исправление: Einstok_Fair (всего исправлений: 1)
Ответ на: комментарий от Deleted

Очевидные языки не поддерживающие юникод в идентификаторах, если требуется именовать идентификаторы порусски.

kremator666
()
Ответ на: комментарий от Einstok_Fair

О, я тут выше в теме писал, что нужна новая профессия «ассистент по чтению». Вот ты уже стал таким ассистентом. Потому что люди абсолютно не могут осилить зайти по ссылке и прочитать один абзац текста.

Ни один из упомянутых в Википедии стандартов транслитерации кириллицы непригоден для кодирования имён пользователей, E-mail, идентификаторов в программах. Эти стандарты либо превращают некоторые буквы в знаки препинания, либо по преобразованному тексту нельзя восстановить исходный (например, «эй» нельзя отличить от «ей», а Пашу - от Пасхи). Мы предлагаем Яролит - ещё один (не 15-й, а даже 16-й, ха-ха) стандарт транслитерации. Ссылка на более подробное обоснование.

То ли это специфика темы транслита, то ли это эпидемия дислексии :( При том, что вроде эти люди - ИТ инженеры, которые должны обладать высоким интеллектом и способностью прочитать намного более, чем один абзац. Это точно не специфика ЛОРа - на обероновском форуме ровно то же самое. Из трёх человек один предлагал мне ГОСТы, а другой юникод проповедовал.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 2)
Ответ на: комментарий от den73

ты наверняка читал этот топик:
https://lingvoforum.net/index.php/topic,52304.0.html

там точно такая цель - 26 букв и реверсивность.

Меня смущает ненаучность подхода. Почему-бы не собрать статистику, да не сделать варианты на её основе формальным способом?

Einstok_Fair ★★☆
()
Ответ на: комментарий от den73

я абстрактно. Есть одни цепочки символов (кириллические), есть другие цепочки символов (англоалфавитные), нужно сделать взаимно однозначное соответствие. Почему это делается руками, а не на основе математической модели?

Einstok_Fair ★★☆
()
Последнее исправление: Einstok_Fair (всего исправлений: 1)
Ответ на: комментарий от Einstok_Fair

Нет, не читал. Когда я это начинал, я посмотрел коротенько существующие системы транслита и не нашёл подходящей. Я знаю примерно о 5 попытках создания любительского обратимого транслита, но их наверняка гораздо больше. Сравни их, если тебе не лень. Сказать, какой из них лучше - во многом вкусовщина. Но нет ни одного, кроме моего, в котором есть переключатели языка и сочетания для ввода произвольного юникода. Кроме того, он случайно оказался пригоден для кодирования множества других кириллических языков (моей заслуги тут нет).

Если тебя интересует частота повторения букв, то я её применил при выборе между двухбуквенным ы и двухбуквенным й. Но есть ещё и приемлемость. Я хотел разработать то, что можно внедрить в широкую практику. Есть определённая культура, против которой особо не попрёшь. Так что свободы в выборе букв очень мало. Тут особо науку не пристегнёшь.

Например, замена j на y в ya лично у меня вызвала культурное отторжение, поскольку yar красивее для моего глаза, чем jar (джар какой-то это для меня, учившего английский). Я опросил столько людей, сколько смог. Эту тему я тоже для этого завёл, чтобы об этом спросить. Но я не предвидел, что эпидемия дислексии, и не смог довести дело до опроса :(

То, что у меня в итоге получился почти точно стандарт 68 года (а в 68 году СССР ещё не так сильно деградировал), как раз говорит о том, что я всё делал правильно, независимо от методики.

А дальше возникают вопросы, которые вне области моего комфорта, потому что касаются уже не русского языка. Иметь транслит для большего числа кириллических языков - это мега-круто, но я не знаю этих языков и не могу оценить качество решений.

Тут начинается уже «наука», на которую сейчас нет ресурсов. Сравнить стандарты разных лет, понять, почему не задействовали q и w. Например, может быть там тоже предусмотрены «расширения для пользователя» или существует какой-то более объемлющий набор стандартов, в которые вложены данные. Мне называли такие слова, как UTF5 и UTF6, а я даже не погуглил пока, что это. То ли это шутка, то ли что-то из лингвистики.

Чтобы окончательно доделать яролит, нужно всё это прорешать.

den73 ★★★★★
() автор топика
Ответ на: комментарий от Einstok_Fair

Потому что транслит уже используется, есть традиция. Если Вася превратится в XUJJ, то это никто не будет использовать. Т.е. если решать задачу, допустим, краткости. А таких преобразований вообще может быть безконечное количетсво, они легко строятся «руками» без всякой науки.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 1)
Ответ на: комментарий от Einstok_Fair

Кого их? Речь шла про использование транслита в идентификаторах языка программирования.

Deleted
()
Ответ на: комментарий от Einstok_Fair

Punycode

Thus the domain name «bücher.tld» would be represented in ASCII as «xn--bcher-kva.tld».

Вот за такое как раз можно убивать. Это можно было только специально придумать, чтобы отбить у всех охоту пользоваться родной письменностью и родным языком и перейти на основную латиницу и английский. А значит это - акт агрессии.

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 1)
Ответ на: комментарий от Einstok_Fair

Ок, можно подать в суд, а то сейчас опять начнётся :( Всё, я ушёл в другое окно, работать.

den73 ★★★★★
() автор топика
Ответ на: комментарий от den73

это - акт агрессии.

закодируй, да запусти комплект корневых серверов с другой кодировкой. Чтобы латиница в кириллицу перекодировалось неудобным способом. Убивать сразу - это непропорциональное применение силы.

Einstok_Fair ★★☆
()
Ответ на: комментарий от Einstok_Fair

Вот приятно, когда есть адекватные собеседники, а не только пациенты с дислексией. Даёшь транслитерацию латиницы кириллицей. Форум ыыы.линух.орг.ру. ден73. еинсток_фаир.

У нас больше 26 букв. Подходя формально, можно так:

тэе чуицк броын фох йумпс овер тэе лазы дог

Но это ад, конечно. И потом заставить всех англосаксов выучить русский и заводить в этом свои имена пользователей ЛОЛ. Заставить их произносить свои имена на ломаном русском. Йоэн Леннон. Эарри Поттер. Это будет справедливо, я так думаю.

Мой коллега, который мне рассказал про utf-5, уже использует некий транслит латиницы в кириллицу - я думал, это он от занятости, а теперь думаю, может он это нарочно?

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 2)
Ответ на: комментарий от den73

Вот что он пишет:

Тут три момента. Во-первых, речь не идёт о 100% обратимом транслите. Во-вторых, есть обычаи и даже стандарты.

https://www.artlebedev.ru/transcriptor/turkish/

Для валлийского есть целая советская инструкция

http://cymraeg.ru/lleoedd.html

но все это касается в основном имен собственных и географических названий

в сербско-хорватском есть общепризнанная транслитерация туда-обратно, но это просто язык с двумя алфавитами. Польский хотели при царизме на кириллицу перевести. А так, чтоб с латиницы - я про стандарты не слышал. Я по «ревправсознанию».

http://cymraeg.ru/gramatyka/ это не совсем фонетическая орфография, написание некоторых звуков условное. Но почти обратимое. И чешский

http://cymraeg.ru/renaissance.html

den73 ★★★★★
() автор топика
Последнее исправление: den73 (всего исправлений: 1)
21 июля 2019 г.
var получилось = ПреобразуйСтрокуИзЛатиницы(латиница);
    if (!!!получилось) {
      Неудача('получилась пустота');
    }
    if (!(получилось == должноПолучиться)) {
      Неудача('получилось «'+получилось+'» вместо «'+должноПолучиться+'»');
    } else {
      УдачныхТестов++;
    }
  }

Блин, ты меня прости пожалуйста, но от УдачныхТестов++ я заржал в голос в хорошем смысле =))) Твоему упорству нет предела, я правда слабо понимаю глобальный смысл всего этого, но наверное это моя проблема. Удачи, чё. Мир наполняется красками ~веществ~ необычных подходов к привычному =)

LINUX-ORG-RU ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.