Домашний сервер стал внезапно перезагружаться с ошибкой machine check exception. Иногда и просто когда ничего не делает, но более менее гарантированно если заставить его обучать модели машинного обучения (на процессоре) и параллельно качать торренты. Я уже отсоединил подозрительную плашку оперативной памяти, видеокарту, подключил к другому блоку питанию, а он продолжает перезагружаться. Не сразу, а через часик после включения. В логах о причине перезагрузки или ошибках ничего не написано, но подключив дисплей, я поймал следующую ошибку
mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 0: b200000000030005
mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffba0f5388> {rcu_nmi_enter+0x18/0x60}
mce: [Hardware Error]: TSC bc1a9e6e07e
mce: [Hardware Error]: PROCeSSOR 0:306a9 TIME 1611499491 SOCKET 0 APIC 0 microcode 12
mce: [Hardware Error]: Run the above through 'mcelog --ascii'
mce: [Hardware Error]: Machine check: Processor context corrupt
Kernel panic - not syncing: Fatal machine check
Kernel Offset: 0x39000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
Я установил mcelog, засунул в него первые четыре строки, но яснее не стало. Вот что он вывел:
Hardware event. This is not a software error.
CPU 0 BANK 0 TSC bc1a9e6e07e
RIP !INEXACT! 10:ffffffffba0f5388
STATUS b200000000030005 MCGSTATUS 5
RIP: rcu_nmi_enter+0x18/0x60}
PROCeSSOR 0:306a9 TIME 1611499491 SOCKET 0 APIC 0 microcode 12
Подстрока ошибки «rcu_nmi_enter+0x18/0x60» каждый раз разная. В чем причина? Что делать? Как найти проблему?