LockFree очередь сообщений в shared memory - какие хорошие реализации?

1

4

Итак, имеем следующую задачу. Один (или несколько) процессов вычитывают из сети сообщения. Несколько других процессов обрабатывают эти сообщения. Т.е. апи приблизительно такой -

retcode_t push(void* data, int size);
retcode_t pop(void* data, int max_size, int* size);

При том это все рабоатет на уровне сообщения. Т.е. если вставили тру кусочка по 100, 200, и 300 то и выберем 100, 200, 300 а не 600 одним куском.

Хотелось бы это сделать без блокировок. Писателей/читателей от 4 до 50

Ссылка

←	python signal threading

Удаление факта из семантического графа

→

Показаны ответы на комментарий. Показать все комментарии.

Хотелось бы это сделать без блокировок

«Есть такая тема - нужна машина, чтобы могла ездить, летать и плавать. Хотелось бы чтобы она была без колес, винтов, крыльев и без двигателя».

Примитивы синхронизации - мутексы, семафоры и т.п. в любом случае будут, явно или неявно.

~~no-dashi~~ ★★★★★
(14.08.13 03:10:04 UTC)
Последнее исправление: no-dashi 14.08.13 03:10:55 UTC (всего исправлений: 1)

Ответ на: комментарий от no-dashi 14.08.13 03:10:04 UTC

А атомарная операция - это, наверное, такой неявный мутекс, спрятанный внутри процессорной инструкции, а поэтому и весь алгоритм всё равно будет на адских блокировках.

Sorcerer ★★★★★
(14.08.13 03:31:58 UTC)

Ответ на: комментарий от Sorcerer 14.08.13 03:31:58 UTC

А очередь - это такая атомарная структура данных, обрабатываемая процессором за один такт, да?

~~no-dashi~~ ★★★★★
(14.08.13 03:49:00 UTC)

Ответ на: комментарий от no-dashi 14.08.13 03:49:00 UTC

Конечно, разве может быть иначе? В современных процессорах вообще имеется высокоуровневая инструкция POST_TO_LOR.

Sorcerer ★★★★★
(14.08.13 04:06:58 UTC)

Ссылка

Ответ на: комментарий от no-dashi 14.08.13 03:10:04 UTC

Вот тут подборка ссылок на эту тему. Но меня скорее интересует опыт практического использования, чем теоретические изыскания. Кстати, как раз похожая структура встроена в ядро линукса

Мутексы могут и быть, но например использоваться не каждую вставку а один раз из 100. Или вообще без мутекса.

vromanov ★★★
(14.08.13 05:01:14 UTC) автор топика

Ответ на: комментарий от vromanov 14.08.13 05:01:14 UTC

Тебе онанизмом заниматься, или задачу решить? Там же понятным по белому в первой же статье по данной ссылке говорят, что lock-free зачастую намного менее производительны, чем структуры с блокировками.

~~no-dashi~~ ★★★★★
(14.08.13 05:32:00 UTC)

Ответ на: комментарий от no-dashi 14.08.13 05:32:00 UTC

Мне важнее не дергать примитивы синхронизации из ядра. Т.к. это приводит к тормозам. Проблема в том, что вот у меня 10 процессов и все они делают похожую работу.

выбирают сообщение из очереди
проверяют что никто уже не работает с подобным сообщением (от того-же пользователя)
логируют его
записывают его в буффер трасировки
учитывают в статистике
обработка, куча запросов к бд, LUA итд, генерация ответа
записываем ответ в буфер трассировки
логируем ответ
помечаем, что закончили работу с этим пользоваетелем
засовываем в исходящую очередь

и на каждом шаге блокировка. Проблемы начинаются когда загрузка ЦПУ достаточна велика и количество потоков больше числа ядер. В этом случе система может на 3-5 секунд войти в состяние 100% загрузки ЦПУ. К сожалению, не всегда получается деражать количества процеесов небольшим. Я готов пойти на небольшое падение производительности, но отсутвие затыков для меня КРИТИЧНО, т.к. система почти realtime. Протормозим с ответом - пользователеь не получит доступа к интернету.

vromanov ★★★
(14.08.13 06:04:48 UTC) автор топика

Ответ на: комментарий от vromanov 14.08.13 06:04:48 UTC

В этом случе система может на 3-5 секунд войти в состяние 100% загрузки ЦПУ.

Когда большинство потоков ожидают освобождения мутекса загрузка ЦПУ не может быть 100%

Absurd ★★★
(14.08.13 06:50:49 UTC)

Ответ на: комментарий от vromanov 14.08.13 06:04:48 UTC

Так блокировки надо делать разумные, там где надо на то что надо ровно на нужное время. И извини, но у тебя просто неправильная архитектура. Введи диспетчер нагрузки, который будет сам опрашивать очередь, помнить какой обработчик чем занимается и озадачивать обработчики - и «внезапно» у тебя проблемы с блокировками в очереди исчезнут сами собой, и останется только синхронизировать принимающую события часть и диспетчер нагрузки.

~~no-dashi~~ ★★★★★
(14.08.13 06:59:05 UTC)
Последнее исправление: no-dashi 14.08.13 07:00:26 UTC (всего исправлений: 1)

Ответ на: комментарий от vromanov 14.08.13 06:04:48 UTC

В 99.9% случаев проблема с блокировками лежит не в неправильной архитектуре приложения.

~~no-dashi~~ ★★★★★
(14.08.13 07:01:22 UTC)

Ответ на: комментарий от Absurd 14.08.13 06:50:49 UTC

Если используются, например, адаптивные мутексы то вполне могут. Просто потоки крутятся в цикле и ждут освобождения лока

vromanov ★★★
(14.08.13 07:08:41 UTC) автор топика

Ответ на: комментарий от no-dashi 14.08.13 06:59:05 UTC

В этом направлении мы тоже думаем. Часть проблем этим будет решена, но не все. Можно будетпросто завести несколько небольших очередей по числу воркеров и перекладывать сообщения из большой очереди в маленькие.

vromanov ★★★
(14.08.13 07:11:37 UTC) автор топика

Ссылка

Ответ на: комментарий от vromanov 14.08.13 06:04:48 UTC

Вообще я похоже писал похожую систему лет 5 назад. Там очередью служила оракловая таблица, в которую новые задания добавлялись при помощи простого insert-а. Треды-рабочие ее разгребали не по одному а сразу по MIN(queue_size, 50) штук. Там в оракле можно писать запросы вида update Job set Status='PENDING' where Status='NEW' and RowNum <50 bulk collect into OutputArray c последующим возвратом этого OutputArray в виде резалтсета. Тред получал эксклюзивную копию этих 50 штук джобов и дальше работал с ними без блокировок. Таким образом количество блокировок на один джоб снижалось в 50 раз.

Absurd ★★★
(14.08.13 07:14:20 UTC)
Последнее исправление: Absurd 14.08.13 07:15:36 UTC (всего исправлений: 1)

Ответ на: комментарий от no-dashi 14.08.13 07:01:22 UTC

У нас кроме этого есть куча других проблем, которые мы успешно решаем. Сервер успевает обрабатывать 8-10 тысяч сообщений по DIAMETER и/или 20-50 тысяч HTTP запросов в секунду на обычном десктопе. При этом он успевает еще выполнить >100 000 запросов в базу данных, реплицировать состояние на второй узел кластера и делать еще кучу полезных дел, напрмер, писать в лог по 20 тысяч строк в секунду

vromanov ★★★
(14.08.13 07:16:31 UTC) автор топика

Ответ на: комментарий от Absurd 14.08.13 07:14:20 UTC

эээээ.... И скорость выборки небось была 100-1000 сообщений в секунду? У нас есть и такое. Но мы просто удаляем по одной строчке с использование DELETE first 1 from events where .... RETURNING col1, col2; Все равно дальше будут блокировки, но речь идет не о блокировках на уровне BD, а на уровне объектов внутри приложения

vromanov ★★★
(14.08.13 07:21:38 UTC) автор топика

Ответ на: комментарий от no-dashi 14.08.13 06:59:05 UTC

я уже просил этого воинствующего ламера перестать писать код...

... но он не слушает.

anonymous
(14.08.13 07:40:09 UTC)

Ответ на: комментарий от vromanov 14.08.13 07:16:31 UTC

100 000 запросов в базу данных, реплицировать состояние на второй узел кластера и делать еще кучу полезных дел, напрмер, писать в лог по 20 тысяч строк в секунду

И это все «на обычном десктопе» ? Хороший у вас десктоп, с рейдом из SSD/SAS дисков, похоже.

А что за БД, позволяющая делать 100к QPS?

Slader ★
(14.08.13 07:54:05 UTC)

Ответ на: комментарий от vromanov 14.08.13 07:21:38 UTC

Все равно дальше будут блокировки, но речь идет не о блокировках на уровне BD, а на уровне объектов внутри приложения

А что, передавать объекты из треда в тред не по одному а сразу по 100 никак? Я чтобы избежать потерь на синхронизацию просто обмениваюсь большими кусками данных. Делаю рингбуффер в который объекты кладутся по одному, а берутся сразу все первым обратившимся. Жалоб на перформанс нету обычно.

Absurd ★★★
(14.08.13 08:26:13 UTC)

Ответ на: я уже просил этого воинствующего ламера перестать писать код... от anonymous 14.08.13 07:40:09 UTC

Хотелось бы увидеть примеры ВАШИХ успешных приложений. Пример моего - http://www.reget.com.

vromanov ★★★
(14.08.13 08:27:27 UTC) автор топика

Ответ на: комментарий от Slader 14.08.13 07:54:05 UTC

База данных TimesTen. На десктопе стоит обычный винчестер.

WDC WD5000AAKS-00E4A0 Intel(R) Core(TM) i7 CPU K 875 @ 2.93GHz

vromanov ★★★
(14.08.13 08:32:00 UTC) автор топика

Ссылка

Ответ на: комментарий от Absurd 14.08.13 08:26:13 UTC

Это будет плохо. Время обработки одного сообщения около 0.3-0.6 ms. Сейчас процессы обрабатывают сообщения сразу после их получения. Если брать 100 штук, то последнее из сотни будет обработано спустя 30-60 мс, что многовато, т.к. сейчас среднее время ответа померянное на стороне тестовой тулы 2 ms. Т.е. при таком походе мы сразу увеличиваем среднее время ответа в 10-20 раз.

vromanov ★★★
(14.08.13 08:38:24 UTC) автор топика

Ответ на: комментарий от vromanov 14.08.13 08:38:24 UTC

Время обработки одного сообщения около 0.3-0.6 ms. Сейчас процессы обрабатывают сообщения сразу после их получения. Если брать 100 штук, то последнее из сотни будет обработано спустя 30-60 мс, что многовато, т.к. сейчас среднее время ответа померянное на стороне тестовой тулы 2 ms.

Ну не фиксированно по 100 штук, а жадным образом. То есть первый пришедший возьмет все что есть. Потом второй пришедший возьмет все что успело накопиться в интервале времени между тем как все забрал первый и освободился второй. Система стабилизируется - скажем, за время пока до очереди добегает очередной освободившийся в ней накапливается в среднем 10 штук. Все равно они обрабатываются последовательно на физическом уровне. Только если делать по одному джобу на тред, эту последовательность будет перематывать планировщик задач.

Absurd ★★★
(14.08.13 08:48:04 UTC)

Ответ на: комментарий от Absurd 14.08.13 08:48:04 UTC

Делали уже так. Под нагрузкой как раз все стремится к худшему варианту, плюс растет время под локом, т.к. приходится получать пачку данных. С этой точки зрения более оптимально разделить очередь на несколько.

vromanov ★★★
(14.08.13 09:07:27 UTC) автор топика

Ответ на: комментарий от vromanov 14.08.13 08:27:27 UTC

померяемся гениталиями

ya.ru

anonymous
(14.08.13 09:16:04 UTC)

Ответ на: померяемся гениталиями от anonymous 14.08.13 09:16:04 UTC

не увидел там надписи «разработано ананимусом» :(. Где искать?

vromanov ★★★
(14.08.13 09:26:33 UTC) автор топика

Ответ на: комментарий от vromanov 14.08.13 09:26:33 UTC

имя анонимусу — легион

потому и не написано

anonymous
(14.08.13 09:28:59 UTC)

Ответ на: имя анонимусу — легион от anonymous 14.08.13 09:28:59 UTC

Вот и шагайте...

vromanov ★★★
(14.08.13 09:37:48 UTC) автор топика

Ответ на: комментарий от vromanov 14.08.13 09:37:48 UTC

хамство собеседникам...

...не прибавит ничего к вашему тёмному невежеству

anonymous
(14.08.13 10:14:28 UTC)

Ответ на: комментарий от vromanov 14.08.13 09:07:27 UTC

растет время под локом, т.к. приходится получать пачку данных.

Чему там расти? Берущий передает ссылку на массив куда под локом кладется несколько указателей. Массив thread-local фиксированного размера, переаллокаций не происходит.

Absurd ★★★
(14.08.13 10:57:10 UTC)

Ответ на: комментарий от Absurd 14.08.13 10:57:10 UTC

Можно и так.. Но у нас в очередь запихивает один процесс, а другие выбирают. Т.е. сообщения лежат не в куче, а самой очереди фиксированного размера. При выборке тело сообщения копируется в буффер, после чего на его место уже может быть помещено другое сообщение в случае переполнения очереди. При вашем подходе место придется резревировать до окончания обработки сообщения. А потом еще рализовать алгоритм для склейки освобожденных кусков, если обработка будет заканичиваться не в той последовательности, как вычитывание. Вот это как раз стоит сделать в lockless очереди.

vromanov ★★★
(14.08.13 11:07:08 UTC) автор топика

Ссылка

Ответ на: комментарий от vromanov 14.08.13 06:04:48 UTC

вынеси лог в отдельный поток со своей очередью, обработчики пусть без блокировки толкают сообщения в очередь лога. Все равно запись в файл(или куда ты там пишешь) - это последовательная операция, требующая блокировки. Если логгер будет один, то пропадет проблема непоследовательности записей в лог. Также снизится влияние на риалтайм, т.к. обработчики будут заниматься обработкой данных, а не ждать разблокировки лога. Тоже самое можно сделать со статистикой, и «буффером трассировки»(что бы это ни было у тебя), короче все отложенные операции можно выделить в отдельные «вялотекущие» потоки.

codeogre
(14.08.13 12:01:20 UTC)

Ответ на: комментарий от vromanov 14.08.13 06:04:48 UTC

Протормозим с ответом - пользователеь не получит доступа к интернету.

Ошибка проектирования

nerdogeek ★
(14.08.13 12:11:47 UTC)

Ответ на: комментарий от Sorcerer 14.08.13 03:31:58 UTC

На просто атомарных далеко не уедешь. Там часто все основано на CAS операциях, а они могут хорошенько бороться за ресурсы на большом количестве потоков.

~~vertexua~~ ★★★★★
(14.08.13 12:20:23 UTC)

Ссылка

Ответ на: хамство собеседникам... от anonymous 14.08.13 10:14:28 UTC

хамство собеседникам...
...не прибавит ничего к вашему тёмному невежеству

Ух ты. :) Анонимус на ЛОРе рассуждает о недопустимости хамства.

pathfinder ★★★★
(14.08.13 13:20:32 UTC)

Ответ на: комментарий от pathfinder 14.08.13 13:20:32 UTC

о недопустимости хамства

Где это вы углядели?

anonymous
(14.08.13 13:21:57 UTC)

Ссылка

Ответ на: комментарий от codeogre 14.08.13 12:01:20 UTC

«обработчики пусть без блокировки толкают сообщения в очередь лога» об этом и вопрос. Нужна очередь куда можно толкать без блокировки. А так именно так и сделано. Есть очередь, есть отдельный процесс который пишет все на диск.

vromanov ★★★
(14.08.13 14:48:18 UTC) автор топика

Ссылка

Ответ на: комментарий от nerdogeek 14.08.13 12:11:47 UTC

На самом деле зависит от настроек, но ничего хорошего не будет. Либо не получат доступа коому он нужен, либо получат доступ те, кому нельзя. Тут проектировали не мы, это стандарты 3gpp.

vromanov ★★★
(14.08.13 14:51:05 UTC) автор топика