Эффективная по кешу случайная перестановка элементов массива

0

2

Задача из реальной жизни:

Есть массив uint64_t F[N] на 17GB, где N ~= 10^9. Лежит на диске, можно mmap-ить.

Есть условно случайная перестановка элементов этого массива, т.е. последовательность indices из N различных чисел 1..N.

Перестановка определяется неявно умной хеш-функцией (MPHF), т.е. (условно) не хранится в памяти, а вычисляется как indices(i) = MPHF(F[i]).

Собственно требуется переставить элементы F по этой перестановке, но:

Используя до 10GB памяти, лучше меньше (ограничение AWS Lambda),
Не насилуя диск мелкими рандомными IOPS шириной 8 байт.

Очевидно, можно, условно, разделить 17GB на блоки по 1GB, формируя F’ в 17 проходов. 1GB в памяти, писать в обход кеша, всё что мимо блока – отбрасываем. Тут тоже вопрос – как бы сгруппировать записи, чтобы писать не по 8 байт в рандомной позиции, а по 64 (кеш линию).

Но чуйка подсказыает, что для такой простой задачи должен быть 10 раз исследован оптимальный классический подход в базах данных. Гугл что-то молчит.

Ссылка

←	Pull request voidlinux на github

Компоновщик ассемблера ругается

→

Если вычисление этой твоей MPHF для всех элементов много быстрее их линейной записи и чтения на диск, то можешь выделить окно в 8гб для левой половины результата, переставить с записью в RAM, отбрасывая промахи, а потом линейной слить на диск. Повторить для всех окон.

t184256 ★★★★★
(14.03.23 17:59:29 MSK)

Хочется как в анекдоте про чайник свети к уже решённой задаче. По сути это внешняя сортировка массива, где искомый порядок определяется a<b <=> MPHF(a) < MPHF(b).

Waterlaz ★★★★★
(14.03.23 18:06:30 MSK)

Ответ на: комментарий от Waterlaz 14.03.23 18:06:30 MSK

Хм, кстати да, интересно что выиграет – сортировка n*logn, но с последовательным доступом, или линейная перестановка в памяти со случайным доступом блоками в 3 прохода, 3 = log log 10^9, например.

snizovtsev ★★★★★
(14.03.23 18:57:44 MSK) автор топика
Последнее исправление: snizovtsev 14.03.23 18:58:01 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от t184256 14.03.23 17:59:29 MSK

Вычисление MPHF медленнее, конечно. Но оно состоит из похожих операций, правда не перестановки, а группировки элементов по хешу. Я не записал время операций в блокнотик прежде чем рефакторить всё это, но ирония была в том, что однопоточное построение MPHF (сложный алгоритм) по времени, кажется, получалось сравнимо с тупой перестановкой 17GB из-за cache miss. Т.е. 2х кратно увеличивалось время обработки на банальной перестановке элементов.

Собственно спрашиваю «исследована ли эта тема» ещё потому, что может я зря упарываюсь делать это всё руками на C++ (ещё и через страшный Apache Arrow C++ API), и в каком-нибудь clickhouse всё это можно сделать эффективно из коробки правильным sql.

snizovtsev ★★★★★
(14.03.23 19:12:57 MSK) автор топика
Последнее исправление: snizovtsev 14.03.23 19:18:08 MSK (всего исправлений: 5)

Ссылка

Но чуйка подсказыает, что для такой простой задачи должен быть 10 раз исследован оптимальный классический подход в базах данных. Гугл что-то молчит.

Гугл скрывает :-)

супер алгоритм называется ПЕРЕСТАНОВКА (частный случай СОРТИРОВКИ, когда вместо веса позиционный индекс), потому-что это она и есть, просто на собесе вам запудрили мозг кривой постановкой задачи.

Не взрывая мозг теорией графов/парасочетаний и деревьями диапазонов - просто возьмите подходящий по оценке память/скорость алгоритм "сортировка на внешнем носителе", ваша функция MPHF - это вес.

MKuznetsov ★★★★★
(15.03.23 03:13:33 MSK)

Ответ на: комментарий от Waterlaz 14.03.23 18:06:30 MSK

Транзитивность выполняется? Многие алгоритмы сортировки не могут работать со странными правилами сравнения.

~~bo4ok~~ ★
(15.03.23 03:27:43 MSK)

Ответ на: комментарий от MKuznetsov 15.03.23 03:13:33 MSK

Кэп не читатель. Я же написал, где ваши цифры. Совсем не очевидно, что будет быстрее – сортировка где «log n == 20» или разбиение на блоки и случайный доступ. Вероятно можно совместить.

Но да, я протупил, что можно забить на линейность и тупо сортировать. Особенно учитывая, что сейчас есть всякие SIMD реализации вроде highway.

И это, кстати, не собес, а вполне реальный набор данных. Хочу переделать хеш таблицу в кучу на arrow + perfect hash + mmap.

snizovtsev ★★★★★
(15.03.23 03:32:47 MSK) автор топика
Последнее исправление: snizovtsev 15.03.23 03:34:08 MSK (всего исправлений: 1)

Ответ на: комментарий от snizovtsev 15.03.23 03:32:47 MSK

Не занимайтесь хернёй, читайте основополагающие книги. Ключевые слова Сортировка и реиндекс (иногда ребейз), там всё написано.

MKuznetsov ★★★★★
(15.03.23 03:36:17 MSK)

Ответ на: комментарий от MKuznetsov 15.03.23 03:36:17 MSK

Основополагающие книги я ещё в школе прочитал, вы прочитайте внимательней что требуется, прежде чем писать.

snizovtsev ★★★★★
(15.03.23 03:38:03 MSK) автор топика

Ссылка

Ответ на: комментарий от snizovtsev 15.03.23 03:32:47 MSK

Совсем не очевидно, что будет быстрее – сортировка где «log n == 20» или разбиение на блоки и случайный доступ.

Напиши да проверь на маленьком подмножестве. Тут кода вроде не слишком много выходит.

~~hateyoufeel~~ ★★★★★
(15.03.23 08:08:37 MSK)

Ссылка

Ответ на: комментарий от bo4ok 15.03.23 03:27:43 MSK

Транзитивность выполняется? Многие алгоритмы сортировки не могут работать со странными правилами сравнения.

Как ты можешь задавать такие вопросы?! :) Конечно же выполняется:

a<b, b<c   =>   MPHF(a) < MPHF(b), MPHF(b) < MPHF(c)   = >   MPHF(a) < MPHF(c)   =>   a<c

Waterlaz ★★★★★
(15.03.23 13:06:15 MSK)

Ссылка

Если можно создать новый файл, я бы сначала посчитал индексы и сохранил бы старшие 4 бита в память, получатся сожрёт полгига, а потом уже на основании полученной карты собирал бы последовательно исходные элементы, соответстивующие текущему блоку, вычислял бы их индекс, помещал бы в гигабайтный буфер в память, а потом уже блок из буфера писал.

Если нужно менять порядок на месте, разделил бы весь массив на блоки, для каждого блока завёл бы текущий индекс, дальше последовательно искал бы в каждом блоке первый элемент, этому блоку не принадлежащий, после чего устраивал бы обмены этих элементов. По завершении этого шага у меня были бы блоки, в которых только те элементы, которые должны находиться в этих блоках. Дальше уже тривиально, переставить элементы внутри одного гигабайтного блока несложно. Минус - потенциально двойная перезапись файла, но при этом и чтения и записи последовательно внутри каждого блока.

khrundel ★★★★
(17.03.23 11:39:13 MSK)
Последнее исправление: khrundel 17.03.23 11:42:16 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Pull request voidlinux на github

Development

Компоновщик ассемблера ругается

→

Похожие темы