LINUX.ORG.RU

Компьютер перезагружается с MCE

 


1

3

Домашний сервер стал внезапно перезагружаться с ошибкой machine check exception. Иногда и просто когда ничего не делает, но более менее гарантированно если заставить его обучать модели машинного обучения (на процессоре) и параллельно качать торренты. Я уже отсоединил подозрительную плашку оперативной памяти, видеокарту, подключил к другому блоку питанию, а он продолжает перезагружаться. Не сразу, а через часик после включения. В логах о причине перезагрузки или ошибках ничего не написано, но подключив дисплей, я поймал следующую ошибку

mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 0: b200000000030005
mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffba0f5388> {rcu_nmi_enter+0x18/0x60}
mce: [Hardware Error]: TSC bc1a9e6e07e
mce: [Hardware Error]: PROCeSSOR 0:306a9 TIME 1611499491 SOCKET 0 APIC 0 microcode 12
mce: [Hardware Error]: Run the above through 'mcelog --ascii'
mce: [Hardware Error]: Machine check: Processor context corrupt
Kernel panic - not syncing: Fatal machine check
Kernel Offset: 0x39000000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)

Я установил mcelog, засунул в него первые четыре строки, но яснее не стало. Вот что он вывел:

Hardware event. This is not a software error.
CPU 0 BANK 0 TSC bc1a9e6e07e 
RIP !INEXACT! 10:ffffffffba0f5388
STATUS b200000000030005 MCGSTATUS 5
RIP: rcu_nmi_enter+0x18/0x60}
PROCeSSOR 0:306a9 TIME 1611499491 SOCKET 0 APIC 0 microcode 12

Подстрока ошибки «rcu_nmi_enter+0x18/0x60» каждый раз разная. В чем причина? Что делать? Как найти проблему?

★★

Последнее исправление: hlebushek (всего исправлений: 3)

У меня подобным образом сбоило в OpenSuSE Leap с каким-то ядром сразу после обновления на 15.2. Через несколько минорных обновлений ядра «прошло»: теперь раз в пару дней зависает мгновенно и наглухо. Правда был момент перед этим, что компьютер не грузился и я переставил все 4 плашки памяти в свободные слоты. Память одинаковая из 1 набора, если что. Обновление BIOS не помогло.

saper ★★★★★
()

аппаратная ошибка, чё не ясно?

anonymous
()
Ответ на: комментарий от vel

Прописывание intel_idle.max_cstate=1 в опции ядра привело к поднятию температуры на каждом ядре на 20 градусов с 30+ до 50+. Уж лучше пусть вылетает, чем такой шум и печка летом.

saper ★★★★★
()

Вроде бы я решил проблему, разобрав компьютер совсем совсем, пересмазав термопасту процессора и подключив все заново, но не вставляя в корпус

hlebushek ★★
() автор топика
Ответ на: комментарий от hlebushek

В таком случае, наверно, дело было в перегреве. А если так, то вполне можно вставить назад в корпус.

aureliano15 ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.