Вообще переодически раз в месяц в полтора случается:
BUG soft lockup CPU X stuck for Xs
спасает только ребут сервера.
Пробовал починить с увеличением watchdog_thresh
до 60, и теперь он умирает еще чаще но уже с
task blocked for more than 120 seconds
(процесс разный каждый раз), правда оно в данном случае еще дает пробовать соединяться по ssh, но это уже нереально, и опять же спасает только ребут.
Нагрузка всегда в пределах 1-3%, хотя бывают пики, после ребута же вообще может быть la 43-47 (Intel(R) Xeon(R) CPU D-1541 @ 2.10GHz) минуту-две пока все разогревается/раздупляется.