кодирование текста

0

1

Так исторически сложилось что при кодировании текста кодируется писменность, конкретно каждый символ. Но может много лучше кодировать слова: корни и морфологию, или даже предложения. То есть парсить еще до записи в файл. Это даст затем больше свободы для ввода и отображения текста.

Не будет орфографических ошибок, систему письменности при вводе и отображении можно будет выбирать. Например кто-то набирает текст транслитом, а вы затем читаете в кирилице.

Ссылка

←	[Украинцев тред] «Ми - Хлопці З Бандерштадту»

[Звук] ЦАП

→

← 1 2 →

Ответ на: комментарий от Igron 11.11.11 01:08:09 MSK

Может и грамотный, но вот очень мне не нравится то, что он идет на поводу у всяких медвепутов в плане уничтожения России.

~~Eddy_Em~~ ☆☆☆☆☆
(11.11.11 01:10:43 MSK)

Ответ на: комментарий от aiqu6Ait 10.11.11 23:28:03 MSK

>немецкий

Ифкуил.

Yasenfire
(11.11.11 01:43:08 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 11.11.11 01:10:43 MSK

> Может и грамотный, но вот очень мне не нравится то, что он идет на поводу у всяких медвепутов в плане уничтожения России.

Уничтожение России происходило в 91-95 годах, когда у нас зарплата была по семь (!!!) долларов.

Igron ★★★★★
(11.11.11 01:53:09 MSK)

Ответ на: комментарий от Igron 11.11.11 01:53:09 MSK

Ну, то были вообще лихие времена, когда народ против народа пер, а не против бандитов из Кремля.

~~Eddy_Em~~ ☆☆☆☆☆
(11.11.11 01:54:54 MSK)

Ответ на: комментарий от Eddy_Em 11.11.11 01:54:54 MSK

> Ну, то были вообще лихие времена, когда народ против народа пер, а не против бандитов из Кремля.

FAQ по жопоголизму читали?

Igron ★★★★★
(11.11.11 01:56:20 MSK)

десяти байтов будет более чем достаточно на слово. А пунктуация, союзы частицы предлоги вообще ничего не весят, их можно припаковать к соответствующему слову.

~~eklalstE~~
(11.11.11 01:57:24 MSK) автор топика

Ответ на: комментарий от Igron 11.11.11 01:56:20 MSK

Нет

~~Eddy_Em~~ ☆☆☆☆☆
(11.11.11 02:01:32 MSK)

Ответ на: комментарий от eklalstE 11.11.11 01:57:24 MSK

это для русского рассмотрел.

~~eklalstE~~
(11.11.11 02:01:49 MSK) автор топика

Ссылка

Ответ на: комментарий от eklalstE 11.11.11 01:57:24 MSK

А на слово с ошибкой? Ну там превед?

Tark ★★
(11.11.11 02:10:50 MSK)

Ты изобрел китайский язык. Спешу тебя заверить, что орфографических ошибок китайцы делают очень много. Очень часто они забывают правильное написание иероглифа и ошибаются в написании. Очень часто они вообще не знают написания того или иного слова и подставляют другие, подходящие по звучанию, знакомые им иероглифы.

Как наша училка (русская девушка) на курсах китайского языка говаривала: «Китайцы? Носители языка? Ну-ну! Они Вам напишут и наговорят такого, что мама не горюй!». Нет ну да, конечно, некоторые китайцы очень высоко образованны.

И да, китайский язык постепенно, сам собой смещается в сторону слогового и даже буквенного письма. Так например, старые слова (которым сотни - тысячи лет) чаще всего записываются одним иероглифом, редко двумя. А современные слова часто записываются тремя - четырьмя иероглифами (редко двумя), иногда и более. А заимствования и вообще иногда фонетическими иероглифами записываются.

Вообще, 95% носителей любого языка, знают родной язык хуже, чем иностранцы, этот язык изучающие.

ansky ★★★★★
(11.11.11 02:17:19 MSK)

Ссылка

Ответ на: комментарий от Manhunt 10.11.11 23:30:55 MSK

> Еще чуть-чуть, и ты изобретешь иероглифы.

Иероглиф - это один слог, не более того
Хотя да, многие слова состоят из одного иероглифа

Но вот для русского языка с его окончаниями будет проблема - либо кодировать все возможные варианты слова, либо вычислять нужный в процессе отображения текста, анализируя все предложение.

Система, предложенная ТС, как раз подойдет для китайского языка, где нету окончаний, падежей, спряжений и т.д, каждая запись просто будет кодировать последовательность от 1 до N иероглифов

Harald ★★★★★
(11.11.11 02:18:36 MSK)

Ответ на: комментарий от Tark 11.11.11 02:10:50 MSK

Можно в словарь добавить можно представить как привет и инфу что оно в олбанском. Можно дополнительный олбанский словарь

~~eklalstE~~
(11.11.11 02:20:00 MSK) автор топика

Иероглифическое письмо, Ыфкуиль, иврит — много их :)

~~KRoN73~~ ★★★★★
(11.11.11 02:23:39 MSK)

Ссылка

Ответ на: комментарий от eklalstE 11.11.11 02:20:00 MSK

Ага, еще добавим указание языка, добавим обозначение того имя ли собственное, добавим указание падежа и выйдет у нас одно слово будет занимать байт 15. При том, что среднее слово в русском языке по статистике употребления занимает 5 букв, что при юникодной кодировке занимает 10 байт.
И это не считая того, что для многих понятий нет возможности их обозначить кроме как слово. Например «чувство», как его иначе обозначить?

Tark ★★
(11.11.11 02:26:48 MSK)

Ответ на: комментарий от Harald 11.11.11 02:18:36 MSK

Если сравнивать с письменностью то это будет никакое не иероглифическое письмо, а ифкуильское морфофонетическое

~~eklalstE~~
(11.11.11 02:29:12 MSK) автор топика

Ответ на: комментарий от Tark 11.11.11 02:26:48 MSK

Из корня и словообразовательного уточнителя

~~eklalstE~~
(11.11.11 02:32:02 MSK) автор топика

Ответ на: комментарий от Tark 11.11.11 02:26:48 MSK

Языки как я уже сказал оглашаются один раз за файл, либо по необходимости. Еще сам язык можно разбить на области. Например повседневный, медицинский, компьютерный. Тогда можно байт до шести слово укоротить

~~eklalstE~~
(11.11.11 02:36:42 MSK) автор топика

Ответ на: комментарий от eklalstE 11.11.11 02:32:02 MSK

Уже пришли к отдельным корням. Это кстати похоже на японский становится действительно очень. Чем это будет отличаться просто от хранения корня и уточнителя на японском? 2 байта на корень, 2 байта на уточнитель.

Tark ★★
(11.11.11 02:37:09 MSK)

Ответ на: комментарий от eklalstE 11.11.11 02:36:42 MSK

Ты не придумывай, а прикидывай. Сколько в сумме это байт выходит уже? Как будет меняться область, если каждое другое слово может относится к другой области?

Tark ★★
(11.11.11 02:38:30 MSK)

Ответ на: комментарий от Tark 11.11.11 02:37:09 MSK

Я про это и вел речь. В первом сообщении же указал: корни и морфологию

~~eklalstE~~
(11.11.11 02:40:10 MSK) автор топика

Ссылка

Ответ на: комментарий от Tark 11.11.11 02:38:30 MSK

Может, но это будут скорее влючения в несколько более однородный текст. Чтобы все слова с разных областей были редкость.

~~eklalstE~~
(11.11.11 02:43:13 MSK) автор топика

Ответ на: комментарий от eklalstE 11.11.11 02:43:13 MSK

Редкость. И что? Как с этим работать то? Каждое слово может быть на другом языке, либо из другой области. А это значит, что нужно выделить биты для указания этого факта. И таких штук много.
Как уже сказали, это действительно чем-то напоминает алгоритм Хаффмана.

Tark ★★
(11.11.11 02:45:30 MSK)

Ответ на: комментарий от Tark 11.11.11 02:45:30 MSK

ну да. Нужно разбивать на блоки и указывать словари используемые в нем. Чем меньше словарей и однородней текст, тем он меньше весить будет

~~eklalstE~~
(11.11.11 02:49:58 MSK) автор топика

Ссылка

Я, кажется, понимаю, о чем идет речь, но в наше время, когда видео потоком через Интернет передают, непонятно, зачем это нужно.

Орфографических ошибок будет ровно столько же, сколько бывает их при автоматической проверке орфографии. Какая разница, что спросить у пользователя: «У вас слово неправильно написано, исправить?» или «Неизвестное слово, исправите, или закодировать как есть?».

Систем транслита существует несколько, и не каждый транслитерирующий точно придерживается хотя бы одной. Потом, проще транслитерировать или обратно восстановить текст у клиента.

proud_anon ★★★★★
(11.11.11 03:04:13 MSK)

Ответ на: комментарий от proud_anon 11.11.11 03:04:13 MSK

Ну да, а помимо того, что не нужно, еще ведь проблем кучу вызовет. Несовместимость словарей сразу обеспечивает головную боль.

proud_anon ★★★★★
(11.11.11 03:05:01 MSK)

Ссылка

Ответ на: комментарий от eklalstE 11.11.11 00:47:15 MSK

Это «условная выгода», на практике она не очевидна. А накладные расходы на передачу словаля из точки А в точку Б сведут на нет вые плюсы.

Jetty ★★★★★
(11.11.11 03:46:01 MSK)

Ссылка

китайский? не?

ktk ★★★★
(11.11.11 08:03:51 MSK)

Ссылка

Этим занимались ещё на войне. Отправляли телеграммы с орфографическими ошибками, чтобы немцы не понимали их.

ZenitharChampion ★★★★★
(11.11.11 08:10:28 MSK)

Ссылка

Ответ на: комментарий от Harald 11.11.11 02:18:36 MSK

>Иероглиф - это один слог, не более того

Иероглиф — это одна морфема, как правило корень. Хотя в китайском есть и фонетические иероглифы.

Но вот для русского языка с его окончаниями будет проблема

Японцы дописывают синтаксическую мишуру обычной азбукой. Получается сносно.

x3al ★★★★★
(11.11.11 08:23:59 MSK)

Ссылка

Ответ на: комментарий от eklalstE 11.11.11 02:29:12 MSK

>морфофонетическое

Эм. Нафиг тебе ещё и фонетика?

x3al ★★★★★
(11.11.11 08:24:16 MSK)

Ответ на: комментарий от Eddy_Em 11.11.11 02:01:32 MSK

> Нет

Рекомендую.

Igron ★★★★★
(11.11.11 09:42:29 MSK)

Ссылка

Ответ на: комментарий от x3al 11.11.11 08:24:16 MSK

для лексикона. Я не по своей воле этот пример привел, а для того чтоб показать что иероглифы тут непричем. Да тут вообще письменость любая непричем, это 'binary text'.

~~eklalstE~~
(11.11.11 09:47:54 MSK) автор топика