Взял мастер, т.е. всё более-менее свежее.
Имеем:
void *
MEMCPY (void *dstpp, const void *srcpp, size_t len)
{
unsigned long int dstp = (long int) dstpp;
unsigned long int srcp = (long int) srcpp;
/* Copy from the beginning to the end. */
/* If there not too few bytes to copy, use word copy. */
if (len >= OP_T_THRES)
{
/* Copy just a few bytes to make DSTP aligned. */
len -= (-dstp) % OPSIZ;
BYTE_COPY_FWD (dstp, srcp, (-dstp) % OPSIZ);
/* Copy whole pages from SRCP to DSTP by virtual address manipulation,
as much as possible. */
PAGE_COPY_FWD_MAYBE (dstp, srcp, len, len);
/* Copy from SRCP to DSTP taking advantage of the known alignment of
DSTP. Number of bytes remaining is put in the third argument,
i.e. in LEN. This number may vary from machine to machine. */
WORD_COPY_FWD (dstp, srcp, len, len);
/* Fall out and copy the tail. */
}
/* There are just a few bytes to copy. Use byte memory operations. */
BYTE_COPY_FWD (dstp, srcp, len);
return dstpp;
}
Вроде всё self-documented, но поясню: Смотрим, достаточно ли байтов, чтобы копировать пачкой или не стоит мараться. Если достаточно, копируем следующим образом:
- Сначала копируем байтами, чтобы выровнять адресацию до 8, чтобы можно было копировать по выровненному адресу сразу по страницам. (BYTE_COPY_FWD)
- Копируем по 8 байт чтобы добить до размера страницы (внутри PAGE_COPY_FWD_MAYBE)
- Копируем по страницам сколько можем (внутри PAGE_COPY_FWD_MAYBE)
- Копируем по 8 байт сколько можем (WORD_COPY_FWD)
- Копируем байтами остатки. (BYTE_COPY_FWD)
Так вот. Писал я себе подобный алгоритм для своей либы, вот только в режиме самой ядерной проверки компилем и асаном он мне говорил, что в граничных случаях такой алгоритм говно и я ничего не понимаю в алгоритмах, потому что:
(Для простоты опустим копирование страницами, для общего понимания проблемы оно сейчас не важно, тем более что в текущей реализации glibc для i386 оно ВНЕЗАПНО не реализовано) Положим на вход идут адреса 0x7f и 0x17f и нужно скопировать 20 байт.
- Чтобы добить до границы выравнивания по 8 копируем один байт из 0x17f в 0x7f (L теперь 19)
- Теперь копируем по 8 while (L>8).
- Добиваем остаток байтами.
Ура, мы скопировали. Никакого misalign access и все асаны-сасаны молчат.
А теперь берем адреса 0xf7 и 0x181
- Добиваем до границы 8 байт - копируем 1 байт. Теперь адреса 0x80 и 0x182
- Ииии… Всё, дальше копировать блоками нельзя - мы либо будем читать по невыравненному адресу либо писать, если попытаемся выровняться по источнику. ASAN и в том и другом случае мне жужжит, что если я хочу быть пай-мальчиком, то так нельзя.
Вопросы:
- Почему у glibc это канает? Я прожамкал их сорцы, там нет решения этой проблемы.
Чтобы качнуть сорцы: git clone git://sourceware.org/git/glibc.git
P.S. Если знаете кого-то, кто на форуме может теоретически ответить - кастаните в тред, плиз. P.P.S. Это, конечно, забавно, что gcc на -O0/1/2 игнорит оптимизацию алгоритма и разворачивает его только на -О3 (xmm во все поля): https://gcc.godbolt.org/z/LpJg6s , но странно, что такой же реализации нет в glibc - одна из них все равно медленнее, почему не заменить более медленную реализацию более быстрой в одном из источников?