LINUX.ORG.RU
Ответ на: комментарий от AlexKiriukha

Хреново. А есть ли какой-то инструмент, который будет приводить текст в порядок, заменяя литеры на соотвествующие основному языку?

Т.е., например, в украинском тексте менять латинские i на украинские?

Usruser
() автор топика
Ответ на: комментарий от Usruser

Upd. попробовал немецкий, турецки и испанский. В этих случаях вышло как в примере [3]. Думаю разница в базе - латинская/кириллица.

AlexKiriukha ★★★★
()

Точно помню что в турецкой локали есть неожиданные особенности с изменением регистра буквы i.

maxcom ★★★★★
()

Добро пожаловать в реальный юникод, Нео.

BceM_IIpuBeT ★★☆☆☆
()
Ответ на: комментарий от Usruser

Про это ничего не знаю, если и было такое, то давно. Знаю, что ı по звуку это что-то ы-образное. И соответственно I это большая Ы.

vtVitus ★★★★★
()
Последнее исправление: vtVitus (всего исправлений: 1)
Ответ на: комментарий от maxcom

буквы i

Скоро будут признанные Россией форки «украинской i»: «донецкая i» и «луганская i».

P.S. maxcom, это не 4.3 и 4.1, а исключительно лингвистический троллинг прогноз, ибо каждая страна имеет право на свою букву i :)

quickquest ★★★★★
()

А ещё буква ё может быть как одной буквой, там и буквой е с двумя точками, то бишь двумя буквами.

Ну то, что русская о и английская o отличаются, думаю, и так очевидно.

Legioner ★★★★★
()
Ответ на: комментарий от Usruser

Есть https://codebox.net/pages/homoglyph-detection и всякие https://www.npmjs.com/package/unhomoglyph но они про «привести текст с потенциально кривыми буквами к пригодному для поиска виду». Внутреннее представление — нечитабельное и в латиннице, а не в основном языке.

x3al ★★★★★
()

Вот, например, есть ли какая-то разница между английской, немецкой, украинской и турецкой литерами «i»?

Конечно. Ведь это разные буквы. Вы путаете глиф, который может быть тождественен для разных букв и относится к шрифту и буквы конкретного алфавита, описываемые юникодом.

Собственно ещё до него они различались в старых однобайтных кодировках. Русская «А» и английская «A» - всегда были разными буквами.

Т.е., например, в украинском тексте менять латинские i на украинские?

Что значит «в украинском тексте менять латинские i»? Откуда они там взялись?

atrus ★★★★★
()

Обнаружил, что в Уникоде нет любимых венгерских букв cs, ny и dzs. Мне думается, это неправильно.

Miguel ★★★★★
()
Ответ на: комментарий от Miguel

Дякуємо Google Translate за переклад попереднього коментаря.

Miguel ★★★★★
()
Ответ на: комментарий от Legioner

там и буквой е с двумя точками, то бишь двумя буквами

Не может. Буква Ё считается единой и неделимой. Это не диакритика.

X512 ★★★★★
()
Ответ на: комментарий от X512

Вот что любят на ЛОРе, так это нести херню с безапеляционным видом.

UnicodeData.txt (выделена «каноническая декомпозиция»):

...
0401;CYRILLIC CAPITAL LETTER IO;Lu;0;L;0415 0308;;;;N;;;;0451;
...                                    ^^^^^^^^^
0451;CYRILLIC SMALL LETTER IO;Ll;0;L;0435 0308;;;;N;;;0401;;0401
...                                  ^^^^^^^^^
alegz ★★★★
()
Ответ на: комментарий от alegz

Это ваши буржуйские Юникоды не уважают суверенный русский алфавит.

X512 ★★★★★
()

Занятно, что в Latex в математическом режиме в принципе изначально нет комманд для греческих букв, совпадающих с латиницей, например, \Alpha. Типа никто по формулам искать не будет. При этом, по крайней мере в pdflatex, часть символов (например, δ, Π) преобразуется в тестовый слой нормально, и по ним можно искать, в т.ч. case insensitive, а вот ∆ почему-то нет.

Есть вроде unicode-math, но он с pdftex не дружит.

octy ★★
()
Ответ на: комментарий от TheAnonymous

А белорусское i в юникоде не совпадает с украинским?

Это белорусам лучше знать, но у них тоже «разброд и шатание»: Минск одни называют Мiнск, а другие Менск ©.

quickquest ★★★★★
()
Ответ на: комментарий от pandrey

Я так не пробовал (ё пробовал), но скорей всего ты прав. Я вообще хотел сказать, что задача топикстартера по-нормальному особо и не решается, слишком намудрили юдишки со своими языками и потом с юникодом. Надо просто принимать текст, в некоторых случаях прогонять нормализацию, а чаще всего просто пользовать как есть и всё тут.

Legioner ★★★★★
()
Ответ на: комментарий от atrus

Собственно ещё до него они различались в старых однобайтных кодировках. Русская «А» и английская «A» - всегда были разными буквами.

Которые в «коях» различались только битом :)

anc ★★★★★
()

Кроме i и і, есть ещё ı̇ :)

Gary ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.