Изобретаю свою кодировку символов, решил начать с разбора уже созданного: CP1251.gz IBM866.gz ISO-8859-5.gz KOI-8.gz MAC-CYRILLIC.gz
Всего в них 348 символов, при этом только 225 встречаются сразу в 3 файлах и только 191 символ во всех пяти. Это что за избыток? Если бы оптимально подойти, так даже юникод бы был не нужен.
Взял википедию, распарсил (100 метров текста, без html), получил такую статистику:
7930095 -- 32 ( )
3121686 -- 1080 (и)
3047308 -- 10 (newline)
2727631 -- 1072 (а)
2660128 -- 1077 (е)
2507843 -- 1086 (о)
2016752 -- 1090 (т)
1864330 -- 1085 (н)
1801039 -- 1089 (с)
1560947 -- 1088 (р)
1243790 -- 1074 (в)
1157556 -- 1082 (к)
1087145 -- 46 (.)
968049 -- 1076 (д)
967860 -- 111 (o)
918355 -- 1083 (л)
907342 -- 105 (i)
891229 -- 101 (e)
831035 -- 115 (s)
824269 -- 1087 (п)
733941 -- 97 (a)
702895 -- 1103 (я)
685540 -- 1084 (м)
673506 -- 110 (n)
664169 -- 1091 (у)
658174 -- 49 (1)
582796 -- 116 (t)
565215 -- 47 (/)
548710 -- 114 (r)
517877 -- 1099 (ы)
504408 -- 1073 (б)
454062 -- 1079 (з)
452653 -- 48 (0)
416049 -- 1100 (ь)
407703 -- 44 (,)
368651 -- 50 (2)
366363 -- 1075 (г)
352360 -- 1081 (й)
325533 -- 53 (5)
319754 -- 1078 (ж)
318320 -- 99 (c)
315863 -- 1095 (ч)
315031 -- 109 (m)
312899 -- 108 (l)
282834 -- 57 (9)
281910 -- 107 (k)
266933 -- 1094 (ц)
254630 -- 117 (u)
253757 -- 56 (8)
240258 -- 112 (p)
228629 -- 104 (h)
227408 -- 1042 (В)
224604 -- 51 (3)
215619 -- 55 (7)
208874 -- 73 (I)
201042 -- 54 (6)
192741 -- 100 (d)
189071 -- 58 (:)
181948 -- 0 ()
179733 -- 52 (4)
169519 -- 98 (b)
165862 -- 41 ())
163832 -- 40 (()
162130 -- 103 (g)
160669 -- 45 (-)
158650 -- 8212 (—)
157646 -- 1057 (С)
150448 -- 69 (E)
149826 -- 124 (|)
142652 -- 34 (")
140720 -- 1097 (щ)
134240 -- 1055 (П)
129408 -- 102 (f)
127147 -- 119 (w)
124803 -- 1054 (О)
120406 -- 1096 (ш)
118526 -- 83 (S)
117908 -- 70 (F)
117333 -- 1093 (х)
110915 -- 120 (x)
108591 -- 121 (y)
102798 -- 183 (·)
102082 -- 1048 (И)
102043 -- 1102 (ю)
96918 -- 59 (;)
95518 -- 1092 (ф)
92157 -- 42 (*)
91549 -- 1101 (э)
91527 -- 1053 (Н)
90432 -- 65 (A)
86069 -- 1059 (У)
84928 -- 66 (B)
83979 -- 1058 (Т)
80931 -- 84 (T)
77966 -- 118 (v)
74973 -- 68 (D)
72832 -- 82 (R)
72026 -- 1050 (К)
71584 -- 1056 (Р)
70031 -- 77 (M)
68987 -- 76 (L)
67174 -- 64 (@)
62347 -- 78 (N)
60582 -- 80 (P)
60075 -- 1040 (А)
57134 -- 1052 (М)
55951 -- 71 (G)
55103 -- 86 (V)
54232 -- 67 (C)
48727 -- 8226 (•)
48016 -- 1105 (ё)
46030 -- 1060 (Ф)
44632 -- 1069 (Э)
43205 -- 85 (U)
38891 -- 1047 (З)
37864 -- 1041 (Б)
34758 -- 160 ( )
33634 -- 91 ([)
33556 -- 1044 (Д)
33075 -- 93 (])
28855 -- 75 (K)
28664 -- 1043 (Г)
28593 -- 72 (H)
27359 -- 87 (W)
26463 -- 187 (»)
26459 -- 79 (O)
26457 -- 171 («)
26377 -- 1071 (Я)
25550 -- 1045 (Е)
24323 -- 106 (j)
23610 -- 122 (z)
23561 -- 33 (!)
23520 -- 88 (X)
19422 -- 2494 (া)
19010 -- 39 (')
17882 -- 61 (=)
17810 -- 231 (ç)
16799 -- 123 ({)
16721 -- 1051 (Л)
15952 -- 2480 (র)
15028 -- 2366 (ा)
14400 -- 74 (J)
13446 -- 125 (})
13122 -- 8234 ( )
12975 -- 8236 ( )
12562 -- 215 (×)
11964 -- 2495 (ি)
11930 -- 269 (č)
10506 -- 89 (Y)
10149 -- 113 (q)
9994 -- 95 (_)
9228 -- 252 (ü)
9094 -- 63 (?)
9028 -- 1063 (Ч)
8366 -- 126 (~)
8294 -- 1061 (Х)
7309 -- 1098 (ъ)
7213 -- 1064 (Ш)
6998 -- 353 (š)
6755 -- 241 (ñ)
6705 -- 60 (<)
6702 -- 62 (>)
6558 -- 2346 (प)
6157 -- 224 (à)
5734 -- 226 (â)
5723 -- 2344 (न)
5523 -- 234 (ê)
5305 -- 4312 (ი)
5301 -- 229 (å)
5296 -- 4304 (ა)
5236 -- 4325 (ქ)
5059 -- 2349 (भ)
4995 -- 1062 (Ц)
4794 -- 8206 ( )
4636 -- 233 (é)
4355 -- 2352 (र)
4242 -- 1111 (ї)
4012 -- 235 (ë)
3903 -- 90 (Z)
3857 -- 957 (ν)
3850 -- 953 (ι)
3839 -- 940 (ά)
3839 -- 951 (η)
3832 -- 954 (κ)
3829 -- 917 (Ε)
3804 -- 3618 (ย)
3796 -- 3607 (ท)
3795 -- 3652 (ไ)
3670 -- 43 (+)
3413 -- 8209 (‑)
3386 -- 7871 (ế)
3058 -- 371 (ų)
2954 -- 205 (Í)
2900 -- 1070 (Ю)
2844 -- 2350 (म)
2743 -- 1110 (і)
2696 -- 37 (%)
2588 -- 7879 (ệ)
2586 -- 232 (è)
2464 -- 8220 (“)
2458 -- 225 (á)
2412 -- 1046 (Ж)
2349 -- 8221 (”)
1842 -- 242 (ò)
1839 -- 601 (ə)
1477 -- 1377 (ա)
1442 -- 1408 (ր)
1419 -- 1397 (յ)
1413 -- 1344 (Հ)
1407 -- 81 (Q)
1241 -- 1049 (Й)
1171 -- 8470 (№)
1093 -- 38 (&)
1056 -- 8211 (–)
966 -- 8593 (↑)
849 -- 8217 (’)
847 -- 176 (°)
568 -- 228 (ä)
521 -- 3240 (ನ)
486 -- 1067 (Ы)
458 -- 35 (#)
452 -- 237 (í)
418 -- 9658 (►)
418 -- 9668 (◄)
416 -- 8594 (→)
402 -- 8230 (…)
397 -- 279 (ė)
396 -- 381 (Ž)
388 -- 1065 (Щ)
374 -- 8592 (←)
361 -- 248 (ø)
324 -- 1179 (қ)
318 -- 1178 (Қ)
284 -- 244 (ô)
282 -- 1460 (ִ)
278 -- 243 (ó)
276 -- 1025 (Ё)
268 -- 3277 (್)
261 -- 3221 (ಕ)
260 -- 3233 (ಡ)
255 -- 1068 (Ь)
251 -- 227 (ã)
249 -- 2879 (ି)
249 -- 651 (ʋ)
249 -- 2822 (ଆ)
249 -- 2835 (ଓ)
249 -- 2908 (ଡ଼)
245 -- 177 (±)
231 -- 245 (õ)
227 -- 96 (`)
223 -- 250 (ú)
203 -- 8224 (†)
Тут есть все нужное, включая «ёлочки», длинные тире "—" и прочие нужные при оформлении текста символы. Даже ế, которое оказывается не такое уж малоиспользуемое. Вопрос: чем думали авторы CP1251 + IBM866 + ISO-8859-5 + KOI-8 + MAC-CYRILLIC? Ведь если бы подойти правильно к делу создания кодировки, то острой необходимости для юникода бы и небыло!
Особенно порадовали баги в i18n, где таблицы символов местами кривые:
<U> /x55 <U0055> LATIN CAPITAL LETTER U
<U:> /x55 <U00DC> LATIN CAPITAL LETTER U WITH DIAERESIS
Ответ на:
комментарий
от Begemoth
Ответ на:
комментарий
от Begemoth
Ответ на:
комментарий
от Begemoth
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от Gary
Ответ на:
комментарий
от Terrens
Ответ на:
комментарий
от DNA_Seq
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от dimon555
Ответ на:
комментарий
от Suigintou
Ответ на:
комментарий
от prorok2k
Ответ на:
комментарий
от EmStudio
Ответ на:
комментарий
от anonymous_incognito
Ответ на:
комментарий
от EmStudio
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.
Похожие темы
- Форум Pythonpoint, кириллица, кодировка (2005)
- Форум кодировка кириллицы для man (2006)
- Форум Используемая память (2006)
- Форум Кириллица (2010)
- Форум кириллица (2004)
- Форум кириллица (2004)
- Форум [вещества] Просто вещества (2009)
- Форум [вещества]совсем вещества (2009)
- Форум [вещества] (2010)
- Форум [Вещества] (2009)