кодирование текста

0

1

Так исторически сложилось что при кодировании текста кодируется писменность, конкретно каждый символ. Но может много лучше кодировать слова: корни и морфологию, или даже предложения. То есть парсить еще до записи в файл. Это даст затем больше свободы для ввода и отображения текста.

Не будет орфографических ошибок, систему письменности при вводе и отображении можно будет выбирать. Например кто-то набирает текст транслитом, а вы затем читаете в кирилице.

Ссылка

←	[Украинцев тред] «Ми - Хлопці З Бандерштадту»

[Звук] ЦАП

→

← 1 2 →

Извращенец.

Deleted
(10.11.11 23:24:30 MSK)

Ссылка

Есть какой-то язык, тут на ЛОРе ссылку давали. Вот там одно слово — это как одно предложение...

Bad_ptr ★★★★★
(10.11.11 23:25:26 MSK)

Ответ на: комментарий от Bad_ptr 10.11.11 23:25:26 MSK

немецкий?

aiqu6Ait ★★★★
(10.11.11 23:28:03 MSK)

Я видел 3 варианта написания «Киев» иностранцами. Как в таком случае ваша кодировка будет такое воспринимать?? И как быть с диалектами?? И новые слова, мати? Сколько байт будет занимать слово в даной кодировки?? (если перебрать хотя-бы 1*E4+незнакомые слова)

ymuv ★★★★
(10.11.11 23:28:40 MSK)

Удали 1 тему, ты 2 разы создал.

ymuv ★★★★
(10.11.11 23:29:17 MSK)

Ссылка

Ответ на: комментарий от Bad_ptr 10.11.11 23:25:26 MSK

желтизна. Хотя может арахау?

~~eklalstE~~
(10.11.11 23:30:42 MSK) автор топика

Ссылка

> Но может много лучше кодировать слова: корни и морфологию, или даже предложения.

Еще чуть-чуть, и ты изобретешь иероглифы.

Manhunt ★★★★★
(10.11.11 23:30:55 MSK)

Назад в будущее. От фонетического письма - обратно к иероглифам!

r_asian ★☆☆
(10.11.11 23:31:12 MSK)

Ссылка

Ответ на: комментарий от Manhunt 10.11.11 23:30:55 MSK

Опередил, чертяка

r_asian ★☆☆
(10.11.11 23:31:37 MSK)

Ссылка

Ответ на: комментарий от aiqu6Ait 10.11.11 23:28:03 MSK

Как вариант — чукотский.

ТС говорит бред.

buddhist ★★★★★
(10.11.11 23:33:12 MSK)

Я буду засорять вашу сеть традиционно кодированными символами. Unicode, мать его так, для кого придумали? Для твоего широкого канала же! Байт на символ! Подумать только! Лучше пусть будет 16 мегабайт на корень, а окончания пусть подбираются сами, по значению, на машине пользователя. А для планшетов есть Dasher.

CYB3R ★★★★★
(10.11.11 23:33:43 MSK)

Ссылка

Вот вам хороший язык:
http://ru.wikipedia.org/wiki/Ифкуиль

Bad_ptr ★★★★★
(10.11.11 23:34:10 MSK)

Ответ на: комментарий от ymuv 10.11.11 23:28:40 MSK

не больше а даже меньше чем при кодировании символа

~~eklalstE~~
(10.11.11 23:34:13 MSK) автор топика

Ответ на: комментарий от eklalstE 10.11.11 23:34:13 MSK

А теперь придумай, как это по-нормальному вводить. И, может, я попробую накостылять ввод кандзей твоим способом.

x3al ★★★★★
(10.11.11 23:35:41 MSK)

Ссылка

Ответ на: комментарий от Manhunt 10.11.11 23:30:55 MSK

Я не иероглифы хочу, а очифровку слов.

~~eklalstE~~
(10.11.11 23:36:08 MSK) автор топика

Ответ на: комментарий от eklalstE 10.11.11 23:36:08 MSK

Когда дойдёшь до проблемы омонимов и изменяемости слов (есть во многих языках), упрёшься в иероглифы.

x3al ★★★★★
(10.11.11 23:37:49 MSK)

Ссылка

Китайская письменность похожа немного. Но учить это сложно слишком, и новое обозначение для например «парсер» нужно будет рисовать и стандартизировать.

Tark ★★
(10.11.11 23:38:22 MSK)

Ответ на: комментарий от eklalstE 10.11.11 23:36:08 MSK

Считай иероглиф рукописным баркодом для обозначения цифрового кода слова.

Tark ★★
(10.11.11 23:39:30 MSK)

Ссылка

Ответ на: комментарий от buddhist 10.11.11 23:33:12 MSK

Это не замена сушествующеим кодировкам, а приятное дополнение к ним. Обычный текст можно будет легко сгенерировать при надобности.

~~eklalstE~~
(10.11.11 23:40:49 MSK) автор топика

Буквенное написание кодирует произношение. Если символ == слово, то нельзя будет читать незнакомые слова, например.

~~Yareg~~ ★★★
(10.11.11 23:42:27 MSK)

Ответ на: комментарий от eklalstE 10.11.11 23:40:49 MSK

Поздравляю, ты почти изобрёл японский.

x3al ★★★★★
(10.11.11 23:42:43 MSK)

Ответ на: комментарий от x3al 10.11.11 23:42:43 MSK

>Обычный текст можно будет легко сгенерировать при надобности.

1 — сокращённый корень. Фактически иероглиф.

Один — обычный текст, сгенерированный при надобности.

x3al ★★★★★
(10.11.11 23:43:33 MSK)

Ссылка

Ответ на: комментарий от Bad_ptr 10.11.11 23:34:10 MSK

Именно он и натолкнул меня на эту мысль(косвенно)

~~eklalstE~~
(10.11.11 23:44:00 MSK) автор топика

Ссылка

Ответ на: комментарий от Yareg 10.11.11 23:42:27 MSK

символ != слово. Представление то которое захочешь в конкретный момент. Хоть цветом

~~eklalstE~~
(10.11.11 23:51:02 MSK) автор топика

Ссылка

Ответ на: комментарий от buddhist 10.11.11 23:33:12 MSK

>ТС говорит бред.

ну это само собой

aiqu6Ait ★★★★
(10.11.11 23:52:38 MSK)

Ссылка

Ответ на: комментарий от Tark 10.11.11 23:38:22 MSK

вы все пытаетесь на уровне писмености пример привести. Абстрагируйтесь от неё совсем. Может оно вообще потоком байтов в мозг пойдет. Это уже от конкретной среды сообщения зависит

~~eklalstE~~
(10.11.11 23:56:09 MSK) автор топика

Ответ на: комментарий от eklalstE 10.11.11 23:56:09 MSK

Нет никакой разницы между письменностью и потоком байтов. Нет разницы, кодировать понятия буквами или цифрами. В любом случае сложится символьная система, которая будет подобием письменности.

Tark ★★
(11.11.11 00:00:27 MSK)

Ответ на: комментарий от Tark 11.11.11 00:00:27 MSK

Это будет на столько же письменость сколь и фонетика.

~~eklalstE~~
(11.11.11 00:03:35 MSK) автор топика

Ответ на: комментарий от eklalstE 11.11.11 00:03:35 MSK

С чего бы это? Есть определенный объект «А», есть действие «Б», есть другой человек. Как ему передать что над объектом «А» совершено действие «Б»?
Либо это будет записано аналогом иероглифов(один иероглиф это 2 просто байта), либо аналогом букв. Какой еще способ можете предложить?

Tark ★★
(11.11.11 00:06:31 MSK)

Главное, чтобы такие «изобретатели», как ТС, до чурсенки не доползли...

~~Eddy_Em~~ ☆☆☆☆☆
(11.11.11 00:06:33 MSK)

Ответ на: комментарий от Tark 11.11.11 00:06:31 MSK

Лучше конечно бы записывать байтами смысл, а уже язык, письменость выбирались при прочтении

~~eklalstE~~
(11.11.11 00:12:11 MSK) автор топика

Ответ на: комментарий от eklalstE 11.11.11 00:12:11 MSK

Что такое смысл? Если любые свойства объекта и отношения как-то записать байтами, это будет уже «язык».

Tark ★★
(11.11.11 00:13:46 MSK)

Ссылка

Ответ на: комментарий от eklalstE 11.11.11 00:12:11 MSK

А лучше вообше обшаться передачей указателя на денотат

~~eklalstE~~
(11.11.11 00:15:01 MSK) автор топика

Ссылка

Ответ на: комментарий от Eddy_Em 11.11.11 00:06:33 MSK

>Главное, чтобы такие «изобретатели», как ТС, до чурсенки не доползли...

чурсенки

кто-что такой/такое??

ymuv ★★★★
(11.11.11 00:15:23 MSK)

езжай ка ты ТС в японию :)

shty ★★★★★
(11.11.11 00:17:36 MSK)

Ссылка

прочитал оп-пост, подумал, что тему создал известный неадекват grusha, ан нет

Hrenomoto
(11.11.11 00:19:52 MSK)

Ответ на: комментарий от Eddy_Em 11.11.11 00:06:33 MSK

не я так другой. Я не хочу ничего изобретать, я хочу чтоб оно уже давно было

~~eklalstE~~
(11.11.11 00:21:09 MSK) автор топика

Ссылка

Алгоритм Хаффмана?

Вы только что изобрели архиватор. Крутотень.

mkengzii
(11.11.11 00:21:55 MSK)

лучше кодировать сразу смысл - тогда можно будет язык выбирать, на котором тебе отобразить надо.

olegsov ★
(11.11.11 00:22:31 MSK)

Ответ на: комментарий от Hrenomoto 11.11.11 00:19:52 MSK

где он неадекват. Хотя кастуйте всех неадекватов в тред. Они много адекватнее среднестатистических лоровцев

~~eklalstE~~
(11.11.11 00:24:42 MSK) автор топика

Ссылка

Ответ на: комментарий от olegsov 11.11.11 00:22:31 MSK

Круто. А еще круче допилить автоматические переводчики с английского. Вы именно это и предложили в итоге.

mkengzii
(11.11.11 00:24:57 MSK)

Ссылка

Ответ на: комментарий от mkengzii 11.11.11 00:21:55 MSK

кинь ссылку на архиватор которым можно перегнать текст записанный транслитом в кирилицу

~~eklalstE~~
(11.11.11 00:29:30 MSK) автор топика

Ссылка

Ответ на: комментарий от Yareg 10.11.11 23:42:27 MSK

Для незнакомых слов можно добавить словарь непосредственно в файл.

~~eklalstE~~
(11.11.11 00:34:03 MSK) автор топика

Ссылка

Я один понял, что ТС имеет в виду не написание слова, а фонетический метаязык для хранения и передачи данных, чтобы при чтении можно было бы преобразовывать из метаязыка на язык читающего? А при записи наоборот соответственно

Loki13 ★★★★★
(11.11.11 00:37:41 MSK)

Ссылка

Проблема в балансе размера словаря и минимальной единицы кодирования.

Jetty ★★★★★
(11.11.11 00:38:41 MSK)

Идея хороша. Думать долго над реализацией. Однако. Однако это уберёт кучу i386^xen ограничений.

~~darkshvein~~ ☆☆
(11.11.11 00:45:17 MSK)

Ссылка

Ответ на: комментарий от Jetty 11.11.11 00:38:41 MSK

для этого нужно определять языковой набор. Да и в пределах одного языка можно разбить словарь на части. Весить все равно будет меньше чем при посимвольном восьмибайтном кодировании.

~~eklalstE~~
(11.11.11 00:47:15 MSK) автор топика