Продолжаем мозговой штурм по переводу кода на русский язык и восстановлению позиций кириллицы в ИТ. С Кои-7 идея, ясное дело, плоха отсутствием латиницы. Но её можно развивать в разных направлениях, чтобы латиница появилась.
Последняя идея, к-рая пришла в голову - следующая. Иногда нам не так уж важно, написан ли текст в кириллице или латинице. В этом случае мы просто возьмём да и добавим в кириллицу недостающие буквы из латиницы. А те, которые пересекаются, будем считать идентичными и присвоим им общий код. При идентификации будем использовать яролит взад, цитирую:
a b c d e f g h i j k l m n o p q r s t u v w x y z
а б ц д е ф г ш и й к л м н о п ь р с т у в ю х ы з
Но не весь, а часть букв выкинем (по ходу дела разберёмся, какие). Тут сразу есть проблема с b и p, которые при одинаковом написании имеет разные смыслы. Но на первый взгляд алфавит для представления латиницы получается такой:
a б ц д э ф г h i j к л м н о п q r s т u в w х y з
Итого мы добавили h i j q r s u w
- всего 8 букв. Вся кириллица остаётся на месте, итого получается:
а б в w г д е ё ж з и i й j к л м н о п q р r с s т у u ф х ц ч ш h щ ъ ы ь э ю я
Протестируем:
Возьмём, например, произвольный текст из «Авторевю»
Ездит на автомобилях Mitsubishi Lancer Evolution IX и ГАЗ-21Р
Текст набран одним шрифтом. На кириллатинице он будет выглядеть так:
Ездит на автомобилях Мiтsuбishi Ланцеr Эволuтioн IХ и ГАЗ-21Р.
Уффф. Хрень какая-то. Но на то и мозговой штурм, чтобы обсуждать хрень.
Плюсами является:
- если впихнуть кириллатиницу в одну раскладку, будет гораздо удобнее печатать. Перевод с английского на русский такой масштабной вещи, как ОС, может быть только поэтапным, поэтому длительное время останется необходимость постоянно переключаться. Эта необходимость очень неприятна.
- некоторые мнемоники (MOV какой-нибудь или ls) вообще вряд ли имеет смысл переводить. Поэтому, если не сделать единую раскладку, неудобство сохранится навсегда. Если же применить кириллатиницу и единую раскладку, то будет лучше.
- если совпадающие буквы поместить в ASЦII, возникнет неявная кириллизация исходных текстов. Хотя предикат isАлпha станет сложнее. Но эта сложность коснётся только новых идентификаторов, содержащих непересекающиеся с латиницей буквы
Минусы:
- для случаев, когда нам нужна именно латиница, придётся отвести отдельные коды букв и изменённые начертания. В Uнiцодэ вряд ли найдётся для них место, хотя я ХЗ. Но это не только минус, но и плюс. Т.к. проблема совпадения начертаний некоторых кириллических и латинских букв достаточно актуальна и всё равно то, что в шрифтах они пишутся одинаков - это баг современных шрифтов
- не совсем ясно, как осуществлять поиск. По идее, поиск по кириллатинице может происходить так:
- если по слову «жук» ясно, что это кириллица, ищем в кириллице
- если по слову «worд» ясно, что латиница, ищем в латинице
- слово «мама» ищем два раза (мама и mama)
- слово «wой» ищем как слово в кириллатинице - не русское и не английское ,
Перемещено leave из development