ubuntu server зависает при простое намертво
Проблема: Система при простое случайным образом зависает и не реагирует ни на какие действия - не пингуется, по ssh не заходит, при подключении монитора статичная картинка tty, где даже курсор не мигает, на клавиатуре не меняются диоды scroll/caps/num lock, однако post код на матери «AA», вертушки крутятся, внутренности в оптимальных температурах. Бывает 4-6 дней работает, бывает через 12 часов после включения (выборка маленькая, раз 7 зависал и только при простое) Лечится только хардребутом. Зависает после разных использований сервера:
- Включал и никак не использовал сервер
- Включал и в течение всего периода активно использовал ресурсы системы
- Включал и устраивал стресстесты
Система:
- ubuntu server 22.04.4
- 2x Xeon E5-2698 V4
- 8x 32GB samsung DDR ECC 2400 M393A4K40CB1-CRC
- HUANANZHI X99-F8D PLUS (биос родной)
- 2x ssd 980 pro 500 gb в программном рейд 1 (/boot, /)
- 2x ssd 870 evo 2tb в программном рейд 1 (/var)
- бп на 850 ватт, подключен в ИБП на 1,2 квт
- свопа нет (при недостатке ресурсов выделил бы файл для свопа)
Проведенные мероприятия: в systemlogs, kern.log ничего полезного нет, только в systemlogs ежечасно cron отписку давал, поэтому можно только примерное время отвала сервера узнать
На системе кроме clickhouse (бд) и питона ничего не установлено. Устраивал стресстесты - через memtest86 минуя убунту, через консоль с помощью stress-ng нагружал процессор всеми 80 потоками (были микро зависания, через ssh команды по 30 секунд выполнялись, но это из-за 100% нагрузки. при меньшем количестве занятых потоков ничего не зависало) и пытался переполнить оперативку (ставил количество памяти 300gb, отсутствие свопа не ломало систему). Также заполнял оперативную память и нагружал процессор через базу данных, а также через python (основными инструментами, с которыми будет работать сервер) - никаких отвалов или ошибок. при всех тестах температуры открытых компонентов не превышали 70 градусов (тепловизором измерял). После стресс тестов все работает исправно.
такой же стек (и еще немного мусора), только на ubuntu desktop. стоит на виртуалке на винде и зависаний не было
Если не эти зависания, технически сервер исправно работает. В чем может быть причина? как еще можно проверить