LINUX.ORG.RU

словить дамп ядра

 , , , ,


0

1

Имеется Supermicro материнка с 8 gpus, CentOS 7.3, ядро последнее из коробки. Машина виснет часто и рандомайзно как сразу после загрузки, так и во время расчетов на gpu. Виснет намертво без логов и сообщений в консоль. Вероято вина железа. Вопрос - как отловить эту проблему для пруфа. Пробовал kdump & crash - работает и dump создается но только если руками самостоятельно инициировать crash. При «рабочем» звисании ничего не создается и на sysrq комбинации не реагирует (sysrq включен). Все возможные варианты ключей panic в sysctl включены. Как отловить хоть какие-то логи?

Бут в дебаг + нетконсоль, но если это хардварная проблема, то вряд ли поможет.

post-factum ★★★★★
()

присоединяюсь

MicroServer Gen8 под Fedora25(ядро 4.10) система вставала колом ни в /var/log/messages, ни в /var/log/dmesg никаких намёков. Система просто отваливалась, чёрный экран - интерфейсы молчат. Где-то промелькнул плевок в сторону ядер > 4. Поставил Centos 7(ядро3.9) - тоже самое - что так фризит - нипанятна. На каких телодвижениях система встревала - тоже не улавливал никакой закономерности. Пробовал играться с параметрами энергосбережения в биос - эффект нулевой. Раз в сутки система встревала в произвольное время. Под w2k16 трое суток полёт нормальный. Печаль(.

akulishov
()
Ответ на: присоединяюсь от akulishov

Если оно делает oops, то поймать его не так сложно - ramoops настроить наверно проще всего.

Вот если оно тихо умирает, то это беда. Теоретически может помочь ядро собранное с доп. отладочными фичами.

vel ★★★★★
()
Последнее исправление: vel (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.