Сравниваем строки с Юлией Высоцкой

1

3

Имеется таблица:

create table t (
    "path" text primary key,
    ...
);

Безо всяких там переопределённых collation, дефолтное collation базы – en_US.utf8, connection charset – тоже UTF8.

В таблице этой есть строка со значением path = '/private/auto_test_intern/U3.json' (зуб даю, значение именно такое: 33 байта, все символы – в обычном ASCII).

Делаем:

-- отдаёт 1 строку; length = 33:
select length("path"::bytea), * from t where "path" like '/private/auto_test_intern/U3.json'; 

-- 0 строк:
select * from t where "path" = '/private/auto_test_intern/U3.json';

-- 1 строка:
select * from t where "path" like '/private/auto_test_intern/U3.json' and substr("path", 1, 33) = '/private/auto_test_intern/U3.json';

Вопрос: ЧЗНх во втором запросе?!

←	Использование UUIDv7 в качестве токена авторизации

Как правильно проитерировать ноды в yq?

→

А индекса там нет? Если есть он мог побиться поэтому выборка по нему во втором кейсе не срабатывает.

anonymous
(26.03.2025 16:44:20 +00:00)

Не знаю, как в сабже, но подстрока должна быть 1,32 Первый символ и еще 32.

dmitry237 ★★★★☆
(26.03.2025 16:56:21 +00:00)

Ответ на: комментарий от anonymous 26.03.2025 16:44:20 +00:00

А индекса там нет?

Если я правильно понял, то в постгресе для первичного ключа индекс автоматически создаётся

annulen ★★★★★★★★★★★★★★
(26.03.2025 17:03:53 +00:00)

Ответ на: комментарий от anonymous 26.03.2025 16:44:20 +00:00

Спасибо, помогло:

reindex table t;

Индекс, разумеется, есть: это ж PK. Мысль такая пробегала, но как-то не задержалась: это ж что должно случиться в транзакционной СУБД, чтобы индекс побился.

pr849 ★
(26.03.2025 17:06:15 +00:00) автор топика

Ответ на: комментарий от pr849 26.03.2025 17:06:15 +00:00

что должно случиться в транзакционной СУБД, чтобы индекс побился.

Ищи причину, для начала проверяй аппаратуру - оперативку, файловую систему, жесткий диск/ssd.
Reset'ы были??

Atlant ★★★★★★★★
(27.03.2025 02:14:23 +00:00)

Ответ на: комментарий от Atlant 27.03.2025 02:14:23 +00:00

Товарищи на созвоне говорят, что не исключено, что косяк возник из-за переноса базы (хз откуда куда, я в ихних инфраструктурных игрищах не участвую). Интересно, возможно ли такое при backup/restore – в процессе restore индексы временно задизаблены, а по завершении restore не построились. (Впрочем, не настолько интересно, чтобы гуглить.)

pr849 ★
(27.03.2025 07:14:25 +00:00) автор топика

Ответ на: комментарий от pr849 26.03.2025 17:06:15 +00:00

Ох ты ж как круто anon догадался. Может, если хочет. А может он сам этот индекс и сломал?

blex ★★★
(27.03.2025 11:03:21 +00:00)

Ответ на: комментарий от blex 27.03.2025 11:03:21 +00:00

Лучше бы рассказали, как такое вообще может быть на исправном железе, чтобы индекс сломался. Я прочитал эту тему и мне стало страшно.

vbr ★★★★★
(27.03.2025 12:01:29 +00:00)

Используйте субд oracle, такого там нет.

q137
(27.03.2025 17:25:54 +00:00)

Ответ на: комментарий от vbr 27.03.2025 12:01:29 +00:00

А я прочитал эту тему и мне стало страшно что я совершенно забыл SQL (или все таки кто делал эту таблицу бредил).

"path" text primary key,

mx__ ★★★★★★★★★★★★
(27.03.2025 17:46:43 +00:00)

Ответ на: комментарий от vbr 27.03.2025 12:01:29 +00:00

СУБД linter такое не допустит, там все хорошо.

q137
(27.03.2025 18:08:21 +00:00)

text primary key

не надо так делать

Obezyan ☆
(27.03.2025 18:56:17 +00:00)

Ответ на: комментарий от pr849 26.03.2025 17:06:15 +00:00

Индекс, разумеется, есть: это ж PK

Точно, я это просмотрел.

anonymous
(27.03.2025 19:59:37 +00:00)

Ответ на: комментарий от vbr 27.03.2025 12:01:29 +00:00

Лучше бы рассказали, как такое вообще может быть на исправном железе, чтобы индекс сломался. Я прочитал эту тему и мне стало страшно.

Никак не может, для этого нужно его явно сломать. Выше написано что такое получилось при переносе базы с отключением перестроения индексов. Что-то там менялось в collation, уж не помню при переезде на новую версию постгреса, или это с системной collation было связано, соответственно логический порядок сравнения строк менялся, из-за этого индексы, если их не перестроить, неправильно работали. Но про миграцию этого кейса было на каждом углу написано.

anonymous
(27.03.2025 20:01:42 +00:00)

Ответ на: комментарий от Obezyan 27.03.2025 18:56:17 +00:00

не надо так делать

При такой безапелляционной формулировке - вон из профессии. Текстовые PK - самое обычное дело, в общем случае их применимость зависит от задачи конечно же.

anonymous
(27.03.2025 20:04:18 +00:00)

Ответ на: комментарий от anonymous 27.03.2025 20:04:18 +00:00

При такой безапелляционной формулировке - вон из профессии.

закукарекал анонимус, выгоняйте обезъяна, пробуйте.

Текстовые PK - самое обычное дело

для недоучек

теперь обоссу вас по пунктам:

Безапелляционная формулировка - это «никогда не при каких обстоятельствах не смейте так делать», что отличается от «не надо так делать».
В подавляющем большинстве случаев текстовые PK это результат непродуманной архитектуры БД из-за недостатка знаний и опыта. PK практически во всех базах данных является ссылкой на конкретные данные в таблице поэтому использование строковых ключей большой длины работает медленнее и жрет больше памяти при прочих равных. Причем чем больше база тем хуже работает. Простое правило - чем меньше ключ тем быстрее запрос. Вот полнотекстовые индексы это вполне нормальное явление, а текстовые первичные ключи - нет, если мы говорим не о студенческой лабе на 1000 записей.

Обеткайте, следующий.

Obezyan ☆
(27.03.2025 20:28:22 +00:00)

Ответ на: комментарий от Obezyan 27.03.2025 20:28:22 +00:00

Безапелляционная формулировка - это «никогда не при каких обстоятельствах не смейте так делать», что отличается от «не надо так делать».

Пока ты не написал «как правило» или «в большинстве случаев», никакой разницы нет, котик. На самом деле так даже хуже - если бы ты написал «никогда не при каких обстоятельствах не смейте так делать» все бы сразу поняли что ты дурачок и слушать не стали, а «не надо» же примут за чистую монету и повторять будут.

В подавляющем большинстве случаев

Вот ты и дал заднюю. И почему же ты сразу так не сказал?

это результат непродуманной архитектуры БД из-за недостатка знаний и опыта

Такое исключать, конечно, нельзя, как и любую другую дичь, но я считаю что именно «в большинстве случаев» это таки результат того что данные должны индексироваться по строковому ключу.

PK практически во всех базах данных является ссылкой на конкретные данные в таблице поэтому использование строковых ключей большой длины работает медленнее и жрет больше памяти при прочих равных

Чем что? Для данных которые естественным образом идентифицируются строкой, например домены, альтернативой текстовому ключу будет два индекса - искусственный serial pk и всё тот же текстовый, необходимость в котором никуда не делась, и который в роли вторичного индекса потребляет столько же ресурсов. Два индекса будут гарантировано жрать больше памяти и работать медленнее на запись.

А будет ли быстрее чтения по serial pk зависит, опять же, от кейса. Возможно их вообще не будет, если запросы приходят с тем же естественным ключом. Возможно они будут намного медленнее, потому что у текстовых индексов есть порядок (это значит, например, что сджойнить две таблицы по домену можно дешевейшим index (only) scan, вместо хэширований или сортировок) и локальность (это значит, например, что если хранить инвертированный домен и нам приходит пачка запросов на его поддомены, то чтобы их можно нужно поднять в память всего одну страницу индекса, а не тыкаться по всему диску). Возможно, конечно, и медленнее, если нужно приджойнить таблицу с нелокальными данными - он порядка строк мы ничего не выиграем, а от размера индекса проиграем. Или просто при случайных чтениях.

Причем чем больше база тем хуже работает

Это сбивающее с толку заявление, ибо асимптотика индекса не зависит от размера ключа, только константа меняется. «Чем больше база тем хуже работает» любой btree ключ.

а текстовые первичные ключи - нет, если мы говорим не о студенческой лабе на 1000 записей.

Только студенческие базы на 1000 записей ты и видел, если не встречал юзкейзов для text PK. Просвещайся, дорогой.

anonymous
(27.03.2025 21:04:11 +00:00)

Ответ на: комментарий от anonymous 27.03.2025 21:04:11 +00:00

Не осилил эту стену плача дальше первого абзаца. Анонимус это автослив при споре. Обтекайте.

Obezyan ☆
(27.03.2025 22:50:39 +00:00)

Ответ на: комментарий от mx__ 27.03.2025 17:46:43 +00:00

И что тут не так?

vbr ★★★★★
(28.03.2025 08:19:37 +00:00)

Ответ на: комментарий от anonymous 27.03.2025 20:01:42 +00:00

У топикстартера строка из ASCII, там collation не должен ни на что влиять вроде бы…

vbr ★★★★★
(28.03.2025 08:20:08 +00:00)

Ответ на: комментарий от vbr 28.03.2025 08:19:37 +00:00

Ну я слишком старый и для меня первичный ключ это однозначность по которому можно прийти к нужной строке.

Не ну можно прийти к … что мол допускается, но это уже на самом деле изврат.

mx__ ★★★★★★★★★★★★
(28.03.2025 09:38:18 +00:00)

Ответ на: комментарий от vbr 28.03.2025 08:20:08 +00:00

collation не должен ни на что влиять вроде бы

строго говоря это не так. задаются правила упорядочивания строк содержащих числа, правила сравнения (ci), то есть это влияет и на строки обычных латинских символов и цифр. но в постгресе это в более продвинутых collation.

asdpm
(28.03.2025 09:54:23 +00:00)

Ответ на: комментарий от vbr 27.03.2025 12:01:29 +00:00

я думаю это чушь и ничего не поломалось.

там или продвинутая collation которая зависит от системных библиотек, которые незаметно обновились и оно документировано сломалось (и всех уведомило ворнингами), или, как он говорит сам, «они переносили базу» так

asdpm
(28.03.2025 09:57:31 +00:00)

Ответ на: комментарий от vbr 28.03.2025 08:19:37 +00:00

обновлено

у быдла первичный ключ обязательно должен быть одной колонкой, обязательно должен быть int, обязательно должен автомачески присваиваться монотонно и только вперед и он обязательно должен быть суррогатный. никакой другой не может у быдла

asdpm
(28.03.2025 09:59:56 +00:00)
Последнее исправление: asdpm 28.03.2025 10:05:24 +00:00 (всего исправлений: 1)

Я думаю что Юлия Высоцкая определённо должна быть красивее чем строки.

sin_a ★★★★★★★★★★★★★★★★★★
(28.03.2025 10:07:40 +00:00)

Ответ на: комментарий от sin_a 28.03.2025 10:07:40 +00:00

Она совершенно точно не красивее строк с SSO в которые влезает sizeof() байт с учётом терминирующего \0. Она более похожа на COW строки с рефкаунтами - кому-то может и зайдёт, в целом же такое себе.

anonymous
(28.03.2025 11:46:18 +00:00)

Ответ на: комментарий от asdpm 28.03.2025 09:59:56 +00:00

А ещё должна быть вторая колонка с UUID, для внешних ссылок, чтобы враг не догадался. Особо продвинутые делают UUIDv7, чтобы он возрастал (типа индексы так компактней), но при этом их в душе гложут сомнения - достаточно ли это безопасно?

vbr ★★★★★
(28.03.2025 12:34:26 +00:00)

Ответ на: комментарий от vbr 28.03.2025 12:34:26 +00:00

о, uuid - это считается модно, продвинуто. замечал, что некоторые пока поступают проще: если хотят сгенерировать случайную hard-to-guess строку (зачем-то, для сесурити), то обязательно считают хеш-функцию. не важно от чего, можно от случайного числа или даже от колонки id (где сами знаете что). главное чтобы хеш. получившаяся шестандцатеричная букво-цифренная строка выглядит очень «шифровано», а вызов hash() в коде дает гораздо больше уверенности в сравнении вызовом randStr()

asdpm
(28.03.2025 13:15:30 +00:00)

Ответ на: комментарий от q137 27.03.2025 17:25:54 +00:00

Используйте субд oracle, такого там нет.

ню-ню «смеялись всем отделом» (с)

https://www.youtube.com/watch?v=w5YwKwxfyLQ

vtVitus ★★★★★★★★★★
(29.03.2025 18:45:08 +00:00)
Последнее исправление: vtVitus 29.03.2025 18:50:11 +00:00 (всего исправлений: 1)

Ответ на: комментарий от asdpm 28.03.2025 09:59:56 +00:00

Лучше уж так. Хуже у школьников думающих что они понимают принцип SQL, а потом мало того что это начинает жутко тормозить, так еще и работает не понятно как.

mx__ ★★★★★★★★★★★★
(29.03.2025 20:31:28 +00:00)

←	Использование UUIDv7 в качестве токена авторизации

Development

Как правильно проитерировать ноды в yq?

→

Похожие темы