Русская альтернатива UTF-8

0

0

Здравия!

Есть идея изменить маленько UTF-8 чтобы русские буквы помещались в байт. Мне это надо самому для написания форума, ну и вот думаю,может еще кому пригодится...

Идея простая. То же что и UTF-8, но флаг помещается не в 8-й бит байта, а с 7 байт в отдельном, восьмом байте, составляя 64-битный блок.

Кроме того, 64-й бит по умолчанию выставляется в 1, таким образом значение 0x00 остается прежним - конец строки, и вся кодировка полностью совместима с библиотекой stdio.h, которую я очень люблю...

Далее, если 64-й бит все же 0, то это трактуется так: вся строка написана в кодировке ASCII.

Самое интересное что в первый байт можно поместить Русские буквы. Мне для моих целей нужна Кириллица, строчные буквы Глаголицы. Еще место останется для Греческого (используется в физике и математике), и возможно даже Футарк - для любителей RPG игр.

Если кому идея нравится, я сделаю сайт для дискуссии/публикации стан- дарта и имплементаций...

Успехов!

Ссылка

←	В 3-й федоре гном поломался

нету звука в tuxracer

→

>Есть идея изменить маленько UTF-8 чтобы русские буквы помещались в байт. Мне это надо самому для написания форума, ну и вот думаю,может еще кому пригодится...

Забавно. А английские в два. Чем тебе koi8-r не нравится? Или хочется сделать ШЕСТУЮ русскую кодировку?

jackill ★★★★★
(15.08.05 01:30:24 MSD)

Ссылка

Хватит велосипеды изобретать.

~~mikhail~~ ☆
(15.08.05 01:45:38 MSD)

Ответ на: комментарий от mikhail 15.08.05 01:45:38 MSD

какие велосипеды? Покажи мне хоть едину уникодовую кодировку в которой русские и английские буквы вмещались бы в менее чем два байта.

svyatozar ★★
(15.08.05 02:23:22 MSD) автор топика

Ответ на: комментарий от svyatozar 15.08.05 02:23:22 MSD

>какие велосипеды? Покажи мне хоть едину уникодовую кодировку в которой русские и английские буквы вмещались бы в менее чем два байта.

А греки захотят, чтобы там были английские и греческие, евреи - аналогично и т. д. И где тут тогда единая кодировка?

~~mikhail~~ ☆
(15.08.05 02:36:16 MSD)

Ответ на: комментарий от mikhail 15.08.05 02:36:16 MSD

Вообще места для многих алфавитов хватит, если исключить из них заглавные буквы: заглавные буквы можно и двумя байтами представлять, они не так часто в тексте встречаются...

svyatozar ★★
(15.08.05 02:46:46 MSD) автор топика

Ссылка

да на кол за такое надо!
бля мало cp1251, koi8, utf? бардака мало?
кодировка должна быть одна. и такое понятие как "кодировка" вообще исчезнет.

~~Muromec~~ ☆☆
(15.08.05 05:39:48 MSD)

Господа, может хватит а?
Кодировок итак дофига UTF уже все покрыл,
ненадо больше!

ManJak ★★★★★
(15.08.05 06:07:29 MSD)

Ссылка

Ответ на: комментарий от Muromec 15.08.05 05:39:48 MSD

Не надо кричать, как индюк на сковородке. Не нужна так не нужна - закроем тему. Я ее для своих целей делаю.

Я уже говорил, UTF мне не подходит, она тратит 2 байта на каждую Русскую букву.

svyatozar ★★
(15.08.05 06:54:18 MSD) автор топика

Ответ на: комментарий от svyatozar 15.08.05 06:54:18 MSD

Да нет, я думаю, что он имел в виду, что может, чтоб не плодить кодировки либу сделать, которая конвертнет все что надо в тот 
формат, потом обратно (после обработки прогой).

Если подумать, то звездануться можно будет скоро от них =)

ManJak ★★★★★
(15.08.05 08:12:32 MSD)

Ссылка

Ответ на: комментарий от svyatozar 15.08.05 06:54:18 MSD

>Я уже говорил, UTF мне не подходит, она тратит 2 байта на каждую Русскую букву

ну и что?

geek ★★★
(15.08.05 09:40:29 MSD)

Ответ на: комментарий от svyatozar 15.08.05 02:23:22 MSD

Она поэтому и юникодная, что не надо вмещаться в один байт - каждая буква вмещается в два и этого достаточно для основной массы языков.

jackill ★★★★★
(15.08.05 11:44:21 MSD)

Ссылка

Ответ на: комментарий от geek 15.08.05 09:40:29 MSD

А его надо отправить куда-нить в Германию и заставить переписываться на трех языках сразу.

jackill ★★★★★
(15.08.05 11:45:15 MSD)

> Мне это надо самому для написания форума,

а можно подробнее, если для того чтобы удобнее работать с русским алфавитом,
чтобы он умещался в 256 массиве, то рекомендую взглянуть как это сделано в aspell,
там есть поддрежка юникода, но отводится один байт на символ.

а стандарты да бывают плохие неудобные, но все перевешивается тем что они стандарты, что есть очень и очень хорошо.

anonymous
(15.08.05 12:13:38 MSD)

Ссылка

Ответ на: комментарий от jackill 15.08.05 11:45:15 MSD

Его к нам на Украину - у нас кодировок больше всех! Одной кодировкой больше... одной меньше ... :)

Без связей в комитетах по стандартизации на тебя все будут забивать.

kosmonavt ★
(15.08.05 13:03:57 MSD)

Ответ на: комментарий от kosmonavt 15.08.05 13:03:57 MSD

Комитеты по стандартизации находятся в Штатах, а американцы довольно презрительно относятся ко всему Русскому. Большинство из американцев довольны ASCII, так что, перейдем на транслитерацию? или еще лучше: на английский язык? Нафиг вообще париться с языками?

svyatozar ★★
(15.08.05 18:13:00 MSD) автор топика

Ответ на: комментарий от svyatozar 15.08.05 18:13:00 MSD

Ну почему же им наплевать на русский. Они свою кодировку, та которая iso*5, тоже нам пихали. Только ее никто не использовал. )))

kenneth ★★★
(15.08.05 19:09:11 MSD)

Ссылка

Скоро на ЛОРе кто-нибудь начнет новый язык программирования изобретать :)

Demetrio ★★★★★
(15.08.05 19:42:42 MSD)

Ответ на: комментарий от Demetrio 15.08.05 19:42:42 MSD

Да ладно, если будет лучше, только поддержим!

?!
Неужто я не прав?

ManJak ★★★★★
(15.08.05 20:39:56 MSD)

Ссылка

Ответ на: комментарий от jackill 15.08.05 11:45:15 MSD

А можно меня?
В Ирландию приглашали - отказался (обстоятельства),

ЗЫ
Наверное, пошутил, т.к. и ща откажусь, к счастью, они не изменились =)

ManJak ★★★★★
(15.08.05 20:41:14 MSD)

Ссылка

Ответ на: комментарий от svyatozar 15.08.05 06:54:18 MSD

>Я уже говорил, UTF мне не подходит, она тратит 2 байта на каждую Русскую букву.

А почему не сделать форум в koi8-r или в cp1251?

Harliff ★★★★★
(15.08.05 21:47:24 MSD)

Ответ на: комментарий от Harliff 15.08.05 21:47:24 MSD

>Harliff >А почему не сделать форум в koi8-r или в cp1251?

На форуме будут выкладываться тексты на Старословенском...

svyatozar ★★
(16.08.05 05:03:54 MSD) автор топика

Ответ на: комментарий от svyatozar 16.08.05 05:03:54 MSD

Я конечно не знаток древних алфавитов (не встречал глазками), но там-же только Ъ (ять) добавляется? Имхо твердый знак с ней справится =)

ManJak ★★★★★
(16.08.05 08:41:06 MSD)

Ответ на: комментарий от svyatozar 16.08.05 05:03:54 MSD

Я не совсем понимаю, вы собираетесь еще и своего клиента писать? Ведь ни один браузер о вашей кодировке знать не будет и никто не сможет на форуме ничего написать и прочитать. Попробуйте поискать среди имеющихся подходящую вам, наверняка она существует в UTF8.

kenneth ★★★
(16.08.05 10:45:27 MSD)

Ссылка

Что-то это как-то заумно. Не проще-ли просто в строке байт с 1 в 8-ом бите взять за признак языка, и все следующие строки будут считаться однобайтными символами этого языка? Надо другой - пожалуста - вставляй другой байт переключающий язык.

Переключение языка, по идее, довольно редкая операция, поэтому 99% текста получится в однобайтной кодировке.

UncleAndy ★★★
(16.08.05 11:46:22 MSD)

Ответ на: комментарий от UncleAndy 16.08.05 11:46:22 MSD

Извинияюсь - коря-во как-то все описал. В общем, смысл в введении однобайтного переключателя языка.

UncleAndy ★★★
(16.08.05 11:48:40 MSD)

Ссылка

Ответ на: комментарий от ManJak 16.08.05 08:41:06 MSD

Полная Кириллица содержит 49 букв...

Вывод будет статический, в кодировке UTF-8, так что на клиенте это никак не отразится. То есть будут лежать .html файлы. Они займут много места, но их не надо бакапить...

Байт-переключатель языка сделать, конечно, проще. Но это усложнит разбор грамматики парсером, а так же усложнит сортировку, сделает невозможным доступ к любой букве и так далее - операции очень нужные для промежуточного хранения...

Есть и другой способ, исключающий необходимость 64-битного выравнивания. Он гораздо проще и заключается в модификации ASCII-части UTF8. В ней если немного подвинуть некоторые устаревшие символы, такие как 'device control 1-4' оставить из непечатаемых только 0, TAB, LF, CR и ESC, а так же выбросить заглавные буквы. Ввести новый непечатаемый символ 'shift', сигнализирующий что следующая буква заглавная. При сортировке shift можно легко игнорировать, таким образом упрощается сортировка. У меня уже есть макет кодовой таблицы. Кому интересно - вышлю на мыло.

svyatozar ★★
(16.08.05 18:42:20 MSD) автор топика

Ответ на: комментарий от svyatozar 16.08.05 18:42:20 MSD

К чему всё это?

Только для сохранения места? Не проще ли использовать компрессию?

Кстати ты непоследователен, не хочешь использовать однобайтовый переключатель языка, но тут же вводишь однобайтовый переключатель регистра, и всё потому, что в конкретном твоём приложении СЕГОДНЯ так удобнее. Завтра твои задачи изменяться, и как ты будешь бороться со своей самопальной кодировкой, не предназначенной для сортировки с учётом регистра?

Формат данных нужно использовать по возможности более общий. Если нужно сократить размер и ускорить сортировку - то и решай именно эти задачи (только сначала убедись, что это действительно является проблемой), а не создавай себе ненужных проблем.

P.S. "русский" пишется с маленькой буквы. Это я тебе говорю как русский человек, который не любит когда его родной язык коверкают ненужными прописными буквами.

Teak ★★★★★
(16.08.05 19:31:48 MSD)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	В 3-й федоре гном поломался

General

нету звука в tuxracer

→

Похожие темы