[C][pool based memory allocator]

Ответ на: комментарий от tailgunner 14.09.10 01:45:41 MSD

Это понятно. Непонятно другое - при обращении к другому объекту ты всё равно попадешь на другой TLB entry, так в чем профит? В одном месте сэкономил, в другом - потратил сэкономленное.

А другого объекта может и не быть.

mv ★★★★★
(14.09.10 02:02:45 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 02:02:45 MSD

>> Это понятно. Непонятно другое - при обращении к другому объекту ты всё равно попадешь на другой TLB entry, так в чем профит? В одном месте сэкономил, в другом - потратил сэкономленное.

А другого объекта может и не быть.

Если его нет, то и границу страницы никто не пересечет :)

tailgunner ★★★★★
(14.09.10 02:05:29 MSD)

Ответ на: комментарий от Boy_from_Jungle 14.09.10 01:51:41 MSD

а выравнивание для чего тогда?!

Выравнивание где?

mv ★★★★★
(14.09.10 02:05:32 MSD) автор топика

Ответ на: комментарий от tailgunner 14.09.10 02:05:29 MSD

Если его нет, то и границу страницы никто не пересечет :)

С чего бы вдруг?

mv ★★★★★
(14.09.10 02:06:46 MSD) автор топика

Можно поинтересоваться, что мешает от-mmap-ить кусок памяти и отщипывать от него необходимые буферы? Располагать участки рядом в (виртуальном) адресном пространестве легко, вычислить попадание на границу страниц - тоже.

staseg ★★★★★
(14.09.10 02:11:59 MSD)

Ответ на: комментарий от staseg 14.09.10 02:11:59 MSD

Написать всё самому ничто не мешает, кроме собственной лени и светлой надежды, что уже всё каким-то добряком давно написано.

mv ★★★★★
(14.09.10 02:13:55 MSD) автор топика

Ссылка

Ответ на: комментарий от mv 14.09.10 02:06:46 MSD

>>> А другого объекта может и не быть.

Если его нет, то и границу страницы никто не пересечет :)

С чего бы вдруг?

С того, что некому - другого объекта нет // К.О.

tailgunner ★★★★★
(14.09.10 02:16:53 MSD)

Ответ на: комментарий от tailgunner 14.09.10 02:16:53 MSD

С того, что некому - другого объекта нет // К.О.

А куда девать этот объект, который на границу страницы попался?

На вот тебе...

#include <stdio.h>
#include <stdint.h>
#include <sys/mman.h>
#include <assert.h>

uint64_t inline rdtsc()
{
    uint64_t ticks;

    asm volatile ("rdtsc\n"
                  "movl %%eax, (%%rsi)\n"
                  "movl %%edx, 4(%%rsi)\n"
                  :
                  :"S"(&ticks)
                  : "eax", "edx", "memory"
        );
    return ticks;
}

#define N 1280

int main()
{
    char *tmp;
    uint64_t *ptr, t1, t2;
    int i, j, k;

    tmp = mmap(0, 4096 * 2 * N, PROT_READ | PROT_WRITE,
                     MAP_PRIVATE | MAP_ANONYMOUS | MAP_POPULATE, -1, 0);
    assert(tmp != MAP_FAILED);
    ptr = (uint64_t *)tmp;
    for (j = 0; j < 2; j++, ptr = (uint64_t *)(tmp + 4092)) {
        uint64_t *ptr1 = ptr;
        t1 = rdtsc();
        for (k = 0; k < 1ULL<<8; k++) {
            for (ptr = ptr1, i = 0; i < N; i++, ptr += 4096 / 8)
                *ptr += 1;
        }
        t2 = rdtsc();
        printf("% 10ld\n", t2 - t1);
    }
    return 0;
}

$ ./123
  39282342
 258812631

mv ★★★★★
(14.09.10 02:21:30 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 02:21:30 MSD

У меня 32-бит машина %)

tailgunner ★★★★★
(14.09.10 02:25:22 MSD)

Ответ на: комментарий от tailgunner 14.09.10 02:25:22 MSD

У меня 32-бит машина %)

Специально для тебя, с 32-битным ptr & co.

$ ./123
  42371373
 259329807

mv ★★★★★
(14.09.10 02:27:48 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 02:27:48 MSD

>> У меня 32-бит машина %)

Специально для тебя, с 32-битным ptr & co.

Исходник дай :)

tailgunner ★★★★★
(14.09.10 02:31:18 MSD)

Ответ на: комментарий от tailgunner 14.09.10 02:31:18 MSD

Ну, блин, ленивый какой :) Исходник не дам, патч накладывай :-D

--- border.c    2010-09-14 00:34:19.200000379 +0200
+++ border32.c    2010-09-14 00:34:46.700000380 +0200
@@ -22,18 +22,19 @@
 int main()
 {
     char *tmp;
-    uint64_t *ptr, t1, t2;
+    uint32_t *ptr;
+    uint64_t t1, t2;
     int i, j, k;
 
     tmp = mmap(0, 4096 * 2 * N, PROT_READ | PROT_WRITE,
                      MAP_PRIVATE | MAP_ANONYMOUS | MAP_POPULATE, -1, 0);
     assert(tmp != MAP_FAILED);
-    ptr = (uint64_t *)tmp;
-    for (j = 0; j < 2; j++, ptr = (uint64_t *)(tmp + 4092)) {
-        uint64_t *ptr1 = ptr;
+    ptr = (uint32_t *)tmp;
+    for (j = 0; j < 2; j++, ptr = (uint32_t *)(tmp + 4094)) {
+        uint32_t *ptr1 = ptr;
         t1 = rdtsc();
         for (k = 0; k < 1ULL<<8; k++) {
-            for (ptr = ptr1, i = 0; i < N; i++, ptr += 4096 / 8)
+            for (ptr = ptr1, i = 0; i < N; i++, ptr += 4096 / 4)
                 *ptr += 1;
         }
         t2 = rdtsc();

mv ★★★★★
(14.09.10 02:36:17 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 02:36:17 MSD

Да ты издеваешься %) Где патч на rdtsc?

tailgunner ★★★★★
(14.09.10 02:41:46 MSD)

Ответ на: комментарий от tailgunner 14.09.10 02:41:46 MSD

Нафиг rdtsc патчить? tsc весь путь 64-битным был.

mv ★★★★★
(14.09.10 02:42:24 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 02:42:24 MSD

> Нафиг rdtsc патчить? tsc весь путь 64-битным был.

tsc да, но %rsi у меня нету :)

tailgunner ★★★★★
(14.09.10 02:46:48 MSD)

Ответ на: комментарий от tailgunner 14.09.10 02:46:48 MSD

tsc да, но %rsi у меня нету :)

use esi, Luke! ;)

mv ★★★★★
(14.09.10 02:47:49 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 02:47:49 MSD

Кстати, почему 1280? Ты не выходишь за границы TLB?

tailgunner ★★★★★
(14.09.10 03:05:00 MSD)

Ответ на: комментарий от tailgunner 14.09.10 03:05:00 MSD

Кстати, почему 1280?

Подбирал наиболее красивый результат, естественно =)

Ты не выходишь за границы TLB?

Да вообще за все границы выхожу. Если у кого кэш слишком жирный, смело увеличивайте в несколько раз, пока опять плохо не станет =)

mv ★★★★★
(14.09.10 03:10:16 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 03:10:16 MSD

>> Ты не выходишь за границы TLB?

Да вообще за все границы выхожу.

Не, ну это нечестно :) Выход за границы всегда ведет к существенной разнице - задействуются тупо другие codepaths и что там у процессоров...

tailgunner ★★★★★
(14.09.10 03:11:50 MSD)

Ссылка

Ответ на: комментарий от mv 14.09.10 02:05:32 MSD

а выравнивание для чего тогда?!

Выравнивание где?

Постоянное выравнивание всего подряд на 2/4 и т д байт далеко не всегда полезно, а если мало кеша, то даже и вредно. Тут стоит понимать, что тормоза при обращении по невыровненому адресу происходят только тогда, когда считываемые данные находятся в разных кеш-линиях.

mv, может стоит посмотреть в сторону ядреных слабов? То есть вытащить их из ядра, спилить выступающие части...

AF ★★★
(14.09.10 08:04:06 MSD)

Ответ на: комментарий от mv 14.09.10 03:10:16 MSD

Колись. Что ты там пишешь такое, что нужен очень высокий КПД оптимизации? Видеокодек?

С какого момента за более высокую скорость надо платить хорошую цену. Стоит ли оно того? Обращать слишком много внимания на особенности работы кеша, выравнивания страниц памяти и т.д. не стоит. Завтра все поменяется и увеличение производительности сменится его уменьшением.

Кстати в моем примере очередь свободных объектов лучше заменить на стек. Будет проще и понятней.

pathfinder ★★★★
(14.09.10 08:17:51 MSD)

Ответ на: комментарий от pathfinder 14.09.10 08:17:51 MSD

http://www.linux.org.ru/gallery/screenshots/5210874

anonymous
(14.09.10 08:24:57 MSD)

Ссылка

Ответ на: комментарий от AF 14.09.10 08:04:06 MSD

> mv, может стоит посмотреть в сторону ядреных слабов? То есть вытащить их из ядра, спилить выступающие части...

libumem это оно и есть

mukoh ★
(14.09.10 09:29:04 MSD)

Ссылка

Ответ на: комментарий от mv 14.09.10 02:47:49 MSD

use esi, Luke! ;)

kvt:~/tmp/11$ gcc a.c
a.c: In function `rdtsc':
a.c:10: error: unknown register name `edx' in `asm'
a.c:10: error: unknown register name `eax' in `asm'

А можно патч для спарка64?

ttnl ★★★★★
(14.09.10 10:19:09 MSD)

Ответ на: комментарий от ttnl 14.09.10 10:19:09 MSD

А можно патч для спарка64?

gettimeofday() вместо rdtsc(). И getpagesize(), если страница не 4кб.

mv ★★★★★
(14.09.10 10:59:25 MSD) автор топика

Ссылка

Ответ на: комментарий от AF 14.09.10 08:04:06 MSD

Постоянное выравнивание всего подряд на 2/4 и т д байт далеко не всегда полезно, а если мало кеша, то даже и вредно.

Если не i7, то всегда полезно. С i7, впрочем, у меня есть практическое подозрение, что он всё равно не всегда так круто оптимизирует доступ к невыровненным данным.

Тут стоит понимать, что тормоза при обращении по невыровненому адресу происходят только тогда, когда считываемые данные находятся в разных кеш-линиях.

Различных ситуаций, где тормоза вылазят, хватает.

mv ★★★★★
(14.09.10 11:09:37 MSD) автор топика

Ответ на: комментарий от pathfinder 14.09.10 08:17:51 MSD

Колись. Что ты там пишешь такое, что нужен очень высокий КПД оптимизации? Видеокодек?

ПО для более быстрого и точного наступления очередного финансового кризиса ;)

С какого момента за более высокую скорость надо платить хорошую цену. Стоит ли оно того? Обращать слишком много внимания на особенности работы кеша, выравнивания страниц памяти и т.д. не стоит.

Вот поэтому у всех us и даже ms, а у нас ns.

Завтра все поменяется и увеличение производительности сменится его уменьшением.

Завтра всё будет работать на том же железе, для которого проводилась оптимимзация. Если железа будет не хватать, а на новом будут тормоза, то под новое опять будет проведена оптимизация. Небесплатно, разумеется.

mv ★★★★★
(14.09.10 11:31:51 MSD) автор топика

Ссылка

Ответ на: комментарий от mv 14.09.10 11:09:37 MSD

int *ptr = (int*)0xC;
int a = *prt;

Что тут будет тормозить?

AF ★★★
(14.09.10 13:50:38 MSD)

Ответ на: комментарий от AF 14.09.10 13:50:38 MSD

Что тут будет тормозить?

А что тут должно тормозить?

mv ★★★★★
(14.09.10 13:59:17 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 13:59:17 MSD

А что тут должно тормозить?

Так вот и я о чем!

Тем не менее, чуть выше:

Тут стоит понимать, что тормоза при обращении по невыровненому адресу происходят только тогда, когда считываемые данные находятся в разных кеш-линиях.

Различных ситуаций, где тормоза вылазят, хватает.

AF ★★★
(14.09.10 14:04:28 MSD)

Ответ на: комментарий от AF 14.09.10 14:04:28 MSD

А что тут должно тормозить?

Так вот и я о чем!

* (mod #xc 4)

0

Что здесь не выровненно?

mv ★★★★★
(14.09.10 14:06:20 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 14:06:20 MSD

ХЗ, я лиспом не владею

AF ★★★
(14.09.10 14:08:57 MSD)

Ответ на: комментарий от mv 14.09.10 14:06:20 MSD

Я собственно, хотел узнать, при каких условиях i7 «не всегда так круто оптимизирует доступ к невыровненным данным»

AF ★★★
(14.09.10 14:10:03 MSD)

Ответ на: комментарий от AF 14.09.10 14:08:57 MSD

ХЗ, я лиспом не владею

Ну посчитай на сях, ёпт.

mv ★★★★★
(14.09.10 14:11:03 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 14:11:03 MSD

>Ну посчитай на сях, ёпт.

Не вопрос, только обьясни словами, что оно делает)

AF ★★★
(14.09.10 14:12:20 MSD)

Ответ на: комментарий от AF 14.09.10 14:12:20 MSD

Не вопрос, только обьясни словами, что оно делает)

А что твой пример должен был продемонстрировать? Что 12 не кратно 4?

mv ★★★★★
(14.09.10 14:14:49 MSD) автор топика

Ответ на: комментарий от AF 14.09.10 14:10:03 MSD

Я собственно, хотел узнать, при каких условиях i7 «не всегда так круто оптимизирует доступ к невыровненным данным»

Исследований не проводил, но при работе с дофига разреженной памяти замечал, что i7 ведёт себя хуже, если адрес не выровненный.

mv ★★★★★
(14.09.10 14:17:48 MSD) автор топика

Ответ на: комментарий от mv 14.09.10 14:14:49 MSD

>А что твой пример должен был продемонстрировать? Что 12 не кратно 4?

Блиин! Я ж хотел для адреса 13 взять. Извини, что запутал.

А спросить хотел следующее - что может тормозить при доступе к невыровненным данным, если: а) данные находятся в одной линейке б) линейка находится в кеше

AF ★★★
(14.09.10 14:19:28 MSD)

Ответ на: комментарий от mv 14.09.10 14:17:48 MSD

>Исследований не проводил, но при работе с дофига разреженной памяти замечал, что i7 ведёт себя хуже, если адрес не выровненный.

Понятно. Но, имхо, врядли тут выравнивание виновато.

AF ★★★
(14.09.10 14:23:07 MSD)

Ссылка

Ответ на: комментарий от mv 13.09.10 23:18:29 MSD

>>obstack?

GPL?

LGPL. Это же glibc!

~~linuxfan~~ ★
(14.09.10 14:25:21 MSD)

Ссылка

Ответ на: комментарий от pathfinder 14.09.10 00:17:56 MSD

>Вот фантазия на тему. :)

Че-та неправильный какой-то C. Если с крестами, так можно сразу буст взять, там есть как раз такие пулы.

~~linuxfan~~ ★
(14.09.10 14:26:59 MSD)

Ссылка

Ответ на: комментарий от mv 14.09.10 01:35:51 MSD

>ОДИН объект не должен лежать на границе страниц.

Можешь подвести под этот тезис разумное объяснение? А также разумно объяснить, почему один объект, размазанный по двум страницам, хуже, чем два объекта на разных страницах?

P. S. что-то я смотрю, занятия лиспом скатились к сношению битиков, которые скобочными средствами не делаются, вот и приходится возвращаться к истокам?

~~linuxfan~~ ★
(14.09.10 14:31:19 MSD)

Ответ на: комментарий от AF 14.09.10 14:19:28 MSD

А спросить хотел следующее - что может тормозить при доступе к невыровненным данным, если: а) данные находятся в одной линейке б) линейка находится в кеше

Если проц не нехалем (i7 и соотв. зеоны), то тормозит только в путь.

mv ★★★★★
(14.09.10 14:31:42 MSD) автор топика

Ссылка

Ответ на: комментарий от tailgunner 14.09.10 01:45:41 MSD

>В одном месте сэкономил, в другом - потратил сэкономленное.

А мужики не в курсе, что существует TLB cache и даже инструкция для его сброса? Если бы все реально обстояло так плохо, как вы с mv думаете, современные приложения тормозили бы интенсивнее порядка эдак на два.

~~linuxfan~~ ★
(14.09.10 14:34:14 MSD)

Ответ на: комментарий от linuxfan 14.09.10 14:34:14 MSD

> А мужики не в курсе, что существует TLB cache и даже инструкция для его сброса?

В usermode? Я лично не в курсе.

Если бы все реально обстояло так плохо, как вы с mv думаете

Я думаю, что, когда рабочее множество программы превышает размер кэша TLB, она начинает тормозить из-за того, что страниц в этом кэше нет. Если ты считаешь как-то по-другому - объясни, почему.

tailgunner ★★★★★
(14.09.10 14:38:22 MSD)

Ответ на: комментарий от mv 14.09.10 02:21:30 MSD

>for (j = 0; j < 2; j++, ptr = (uint64_t *)(tmp + 4092))

У вас выравнивание отклеилось (4092 % 8 = 4).

~~linuxfan~~ ★
(14.09.10 14:50:06 MSD)

Ответ на: комментарий от linuxfan 14.09.10 14:31:19 MSD

Можешь подвести под этот тезис разумное объяснение? А также разумно объяснить, почему один объект, размазанный по двум страницам, хуже, чем два объекта на разных страницах?

Я, наверное, не правильно объяснил, что сразу два человека не так поняли. Но хотел сказать, что объект на одной странице лучше, чем этот же объект на двух страницах, т.е. лежит на их границе. Про два объекта на разных страницах речь не шла.

Объясняется легко: вместо одного tlb lookup надо два делать.

mv ★★★★★
(14.09.10 14:50:17 MSD) автор топика

Ответ на: комментарий от linuxfan 14.09.10 14:34:14 MSD

Если бы все реально обстояло так плохо, как вы с mv думаете, современные приложения тормозили бы интенсивнее порядка эдак на два.

Они и так тормозят. Вы просто не видели, как работают быстрые, вручную вылизанные программы =)

mv ★★★★★
(14.09.10 14:51:33 MSD) автор топика

Ссылка

Ответ на: комментарий от mv 14.09.10 14:50:17 MSD

> Но хотел сказать, что объект на одной странице лучше, чем этот же объект на двух страницах, т.е. лежит на их границе

Я так и понял. Но цифры от твоего теста кажутся сильно завышенными.

tailgunner ★★★★★
(14.09.10 14:52:34 MSD)

Ответ на: комментарий от tailgunner 14.09.10 14:38:22 MSD

Я думаю, что, когда рабочее множество программы превышает размер кэша TLB, она начинает тормозить из-за того, что страниц в этом кэше нет. Если ты считаешь как-то по-другому - объясни, почему.

Факт, что замусоривание кэша TLB ведёт почти к такому же просаживанию скорости, как замусоривание обычного кэша.

mv ★★★★★
(14.09.10 14:52:35 MSD) автор топика

Ссылка

Похожие темы