LINUX.ORG.RU
ФорумTalks

кодирование текста


0

1

Так исторически сложилось что при кодировании текста кодируется писменность, конкретно каждый символ. Но может много лучше кодировать слова: корни и морфологию, или даже предложения. То есть парсить еще до записи в файл. Это даст затем больше свободы для ввода и отображения текста.

Не будет орфографических ошибок, систему письменности при вводе и отображении можно будет выбирать. Например кто-то набирает текст транслитом, а вы затем читаете в кирилице.

Ответ на: комментарий от Igron

Может и грамотный, но вот очень мне не нравится то, что он идет на поводу у всяких медвепутов в плане уничтожения России.

Eddy_Em ☆☆☆☆☆
()
Ответ на: комментарий от Eddy_Em

> Может и грамотный, но вот очень мне не нравится то, что он идет на поводу у всяких медвепутов в плане уничтожения России.

Уничтожение России происходило в 91-95 годах, когда у нас зарплата была по семь (!!!) долларов.

Igron ★★★★★
()
Ответ на: комментарий от Eddy_Em

> Ну, то были вообще лихие времена, когда народ против народа пер, а не против бандитов из Кремля.

FAQ по жопоголизму читали?

Igron ★★★★★
()

десяти байтов будет более чем достаточно на слово. А пунктуация, союзы частицы предлоги вообще ничего не весят, их можно припаковать к соответствующему слову.

eklalstE
() автор топика

Ты изобрел китайский язык. Спешу тебя заверить, что орфографических ошибок китайцы делают очень много. Очень часто они забывают правильное написание иероглифа и ошибаются в написании. Очень часто они вообще не знают написания того или иного слова и подставляют другие, подходящие по звучанию, знакомые им иероглифы.

Как наша училка (русская девушка) на курсах китайского языка говаривала: «Китайцы? Носители языка? Ну-ну! Они Вам напишут и наговорят такого, что мама не горюй!». Нет ну да, конечно, некоторые китайцы очень высоко образованны.

И да, китайский язык постепенно, сам собой смещается в сторону слогового и даже буквенного письма. Так например, старые слова (которым сотни - тысячи лет) чаще всего записываются одним иероглифом, редко двумя. А современные слова часто записываются тремя - четырьмя иероглифами (редко двумя), иногда и более. А заимствования и вообще иногда фонетическими иероглифами записываются.

Вообще, 95% носителей любого языка, знают родной язык хуже, чем иностранцы, этот язык изучающие.

ansky ★★★★★
()
Ответ на: комментарий от Manhunt

> Еще чуть-чуть, и ты изобретешь иероглифы.

Иероглиф - это один слог, не более того
Хотя да, многие слова состоят из одного иероглифа

Но вот для русского языка с его окончаниями будет проблема - либо кодировать все возможные варианты слова, либо вычислять нужный в процессе отображения текста, анализируя все предложение.

Система, предложенная ТС, как раз подойдет для китайского языка, где нету окончаний, падежей, спряжений и т.д, каждая запись просто будет кодировать последовательность от 1 до N иероглифов

Harald ★★★★★
()
Ответ на: комментарий от Tark

Можно в словарь добавить можно представить как привет и инфу что оно в олбанском. Можно дополнительный олбанский словарь

eklalstE
() автор топика

Иероглифическое письмо, Ыфкуиль, иврит — много их :)

KRoN73 ★★★★★
()
Ответ на: комментарий от eklalstE

Ага, еще добавим указание языка, добавим обозначение того имя ли собственное, добавим указание падежа и выйдет у нас одно слово будет занимать байт 15. При том, что среднее слово в русском языке по статистике употребления занимает 5 букв, что при юникодной кодировке занимает 10 байт.
И это не считая того, что для многих понятий нет возможности их обозначить кроме как слово. Например «чувство», как его иначе обозначить?

Tark ★★
()
Ответ на: комментарий от Harald

Если сравнивать с письменностью то это будет никакое не иероглифическое письмо, а ифкуильское морфофонетическое

eklalstE
() автор топика
Ответ на: комментарий от Tark

Языки как я уже сказал оглашаются один раз за файл, либо по необходимости. Еще сам язык можно разбить на области. Например повседневный, медицинский, компьютерный. Тогда можно байт до шести слово укоротить

eklalstE
() автор топика
Ответ на: комментарий от eklalstE

Уже пришли к отдельным корням. Это кстати похоже на японский становится действительно очень. Чем это будет отличаться просто от хранения корня и уточнителя на японском? 2 байта на корень, 2 байта на уточнитель.

Tark ★★
()
Ответ на: комментарий от eklalstE

Ты не придумывай, а прикидывай. Сколько в сумме это байт выходит уже? Как будет меняться область, если каждое другое слово может относится к другой области?

Tark ★★
()
Ответ на: комментарий от Tark

Я про это и вел речь. В первом сообщении же указал: корни и морфологию

eklalstE
() автор топика
Ответ на: комментарий от Tark

Может, но это будут скорее влючения в несколько более однородный текст. Чтобы все слова с разных областей были редкость.

eklalstE
() автор топика
Ответ на: комментарий от eklalstE

Редкость. И что? Как с этим работать то? Каждое слово может быть на другом языке, либо из другой области. А это значит, что нужно выделить биты для указания этого факта. И таких штук много.
Как уже сказали, это действительно чем-то напоминает алгоритм Хаффмана.

Tark ★★
()
Ответ на: комментарий от Tark

ну да. Нужно разбивать на блоки и указывать словари используемые в нем. Чем меньше словарей и однородней текст, тем он меньше весить будет

eklalstE
() автор топика

Я, кажется, понимаю, о чем идет речь, но в наше время, когда видео потоком через Интернет передают, непонятно, зачем это нужно.

Орфографических ошибок будет ровно столько же, сколько бывает их при автоматической проверке орфографии. Какая разница, что спросить у пользователя: «У вас слово неправильно написано, исправить?» или «Неизвестное слово, исправите, или закодировать как есть?».

Систем транслита существует несколько, и не каждый транслитерирующий точно придерживается хотя бы одной. Потом, проще транслитерировать или обратно восстановить текст у клиента.

proud_anon ★★★★★
()
Ответ на: комментарий от proud_anon

Ну да, а помимо того, что не нужно, еще ведь проблем кучу вызовет. Несовместимость словарей сразу обеспечивает головную боль.

proud_anon ★★★★★
()
Ответ на: комментарий от eklalstE

Это «условная выгода», на практике она не очевидна. А накладные расходы на передачу словаля из точки А в точку Б сведут на нет вые плюсы.

Jetty ★★★★★
()

китайский? не?

ktk ★★★★
()

Этим занимались ещё на войне. Отправляли телеграммы с орфографическими ошибками, чтобы немцы не понимали их.

ZenitharChampion ★★★★★
()
Ответ на: комментарий от Harald

>Иероглиф - это один слог, не более того

Иероглиф — это одна морфема, как правило корень. Хотя в китайском есть и фонетические иероглифы.

Но вот для русского языка с его окончаниями будет проблема

Японцы дописывают синтаксическую мишуру обычной азбукой. Получается сносно.

x3al ★★★★★
()
Ответ на: комментарий от x3al

для лексикона. Я не по своей воле этот пример привел, а для того чтоб показать что иероглифы тут непричем. Да тут вообще письменость любая непричем, это 'binary text'.

eklalstE
() автор топика
Ответ на: комментарий от x3al

По моему тут писменость никаким боком, не ужели это сложно понять.

eklalstE
() автор топика
Ответ на: комментарий от aiqu6Ait

> немецкий?

Это к тому что фраза «Hallo Mädchen. Ich bin Ihre neue Klempner!» коасочно описывает то , что будет происходить ближайший час?

iBliss
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.