LINUX.ORG.RU
ФорумTalks

кодирование текста


0

1

Так исторически сложилось что при кодировании текста кодируется писменность, конкретно каждый символ. Но может много лучше кодировать слова: корни и морфологию, или даже предложения. То есть парсить еще до записи в файл. Это даст затем больше свободы для ввода и отображения текста.

Не будет орфографических ошибок, систему письменности при вводе и отображении можно будет выбирать. Например кто-то набирает текст транслитом, а вы затем читаете в кирилице.

Извращенец.

Deleted
()

Есть какой-то язык, тут на ЛОРе ссылку давали. Вот там одно слово — это как одно предложение...

Bad_ptr ★★★★★
()

Я видел 3 варианта написания «Киев» иностранцами. Как в таком случае ваша кодировка будет такое воспринимать?? И как быть с диалектами?? И новые слова, мати? Сколько байт будет занимать слово в даной кодировки?? (если перебрать хотя-бы 1*E4+незнакомые слова)

ymuv ★★★★
()

Удали 1 тему, ты 2 разы создал.

ymuv ★★★★
()

> Но может много лучше кодировать слова: корни и морфологию, или даже предложения.

Еще чуть-чуть, и ты изобретешь иероглифы.

Manhunt ★★★★★
()

Назад в будущее. От фонетического письма - обратно к иероглифам!

r_asian ★☆☆
()

Я буду засорять вашу сеть традиционно кодированными символами. Unicode, мать его так, для кого придумали? Для твоего широкого канала же! Байт на символ! Подумать только! Лучше пусть будет 16 мегабайт на корень, а окончания пусть подбираются сами, по значению, на машине пользователя. А для планшетов есть Dasher.

CYB3R ★★★★★
()
Ответ на: комментарий от eklalstE

А теперь придумай, как это по-нормальному вводить. И, может, я попробую накостылять ввод кандзей твоим способом.

x3al ★★★★★
()
Ответ на: комментарий от eklalstE

Когда дойдёшь до проблемы омонимов и изменяемости слов (есть во многих языках), упрёшься в иероглифы.

x3al ★★★★★
()

Китайская письменность похожа немного. Но учить это сложно слишком, и новое обозначение для например «парсер» нужно будет рисовать и стандартизировать.

Tark ★★
()
Ответ на: комментарий от eklalstE

Считай иероглиф рукописным баркодом для обозначения цифрового кода слова.

Tark ★★
()
Ответ на: комментарий от buddhist

Это не замена сушествующеим кодировкам, а приятное дополнение к ним. Обычный текст можно будет легко сгенерировать при надобности.

eklalstE
() автор топика

Буквенное написание кодирует произношение. Если символ == слово, то нельзя будет читать незнакомые слова, например.

Yareg ★★★
()
Ответ на: комментарий от x3al

>Обычный текст можно будет легко сгенерировать при надобности.

1 — сокращённый корень. Фактически иероглиф.

Один — обычный текст, сгенерированный при надобности.

x3al ★★★★★
()
Ответ на: комментарий от Bad_ptr

Именно он и натолкнул меня на эту мысль(косвенно)

eklalstE
() автор топика
Ответ на: комментарий от Yareg

символ != слово. Представление то которое захочешь в конкретный момент. Хоть цветом

eklalstE
() автор топика
Ответ на: комментарий от Tark

вы все пытаетесь на уровне писмености пример привести. Абстрагируйтесь от неё совсем. Может оно вообще потоком байтов в мозг пойдет. Это уже от конкретной среды сообщения зависит

eklalstE
() автор топика
Ответ на: комментарий от eklalstE

Нет никакой разницы между письменностью и потоком байтов. Нет разницы, кодировать понятия буквами или цифрами. В любом случае сложится символьная система, которая будет подобием письменности.

Tark ★★
()
Ответ на: комментарий от eklalstE

С чего бы это? Есть определенный объект «А», есть действие «Б», есть другой человек. Как ему передать что над объектом «А» совершено действие «Б»?
Либо это будет записано аналогом иероглифов(один иероглиф это 2 просто байта), либо аналогом букв. Какой еще способ можете предложить?

Tark ★★
()
Ответ на: комментарий от eklalstE

Что такое смысл? Если любые свойства объекта и отношения как-то записать байтами, это будет уже «язык».

Tark ★★
()
Ответ на: комментарий от eklalstE

А лучше вообше обшаться передачей указателя на денотат

eklalstE
() автор топика
Ответ на: комментарий от Eddy_Em

>Главное, чтобы такие «изобретатели», как ТС, до чурсенки не доползли...

чурсенки

кто-что такой/такое??

ymuv ★★★★
()

езжай ка ты ТС в японию :)

shty ★★★★★
()
Ответ на: комментарий от Eddy_Em

не я так другой. Я не хочу ничего изобретать, я хочу чтоб оно уже давно было

eklalstE
() автор топика

лучше кодировать сразу смысл - тогда можно будет язык выбирать, на котором тебе отобразить надо.

olegsov
()
Ответ на: комментарий от Hrenomoto

где он неадекват. Хотя кастуйте всех неадекватов в тред. Они много адекватнее среднестатистических лоровцев

eklalstE
() автор топика
Ответ на: комментарий от olegsov

Круто. А еще круче допилить автоматические переводчики с английского. Вы именно это и предложили в итоге.

mkengzii
()
Ответ на: комментарий от mkengzii

кинь ссылку на архиватор которым можно перегнать текст записанный транслитом в кирилицу

eklalstE
() автор топика
Ответ на: комментарий от Yareg

Для незнакомых слов можно добавить словарь непосредственно в файл.

eklalstE
() автор топика

Я один понял, что ТС имеет в виду не написание слова, а фонетический метаязык для хранения и передачи данных, чтобы при чтении можно было бы преобразовывать из метаязыка на язык читающего? А при записи наоборот соответственно

Loki13 ★★★★★
()

Идея хороша. Думать долго над реализацией. Однако. Однако это уберёт кучу i386^xen ограничений.

darkshvein ☆☆
()
Ответ на: комментарий от Jetty

для этого нужно определять языковой набор. Да и в пределах одного языка можно разбить словарь на части. Весить все равно будет меньше чем при посимвольном восьмибайтном кодировании.

eklalstE
() автор топика
Ответ на: комментарий от ymuv

кто-что такой/такое??

Чуркистр чуркозования.

Eddy_Em ☆☆☆☆☆
()

Ха-ха. Словарь юникода весит пару метров, наверное. А тут такое количество данных будет уходить на одну словоформу. Кстати, вы любите xml?

Igron ★★★★★
()
Ответ на: комментарий от Eddy_Em

> Главное, чтобы такие «изобретатели», как ТС, до чурсенки не доползли...

Да ладно, Фурс грамотный мужик, главное научиться различать его вбросы от реальных мыслей.

Igron ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.