LINUX.ORG.RU

Hardware Error: Machine check events logged, помогите разобраться.

 , ,


2

2

Ночи доброй ЛОР. Писал я код в Android Studio, все как обычно, но тут вывалился ABRT с сообщением «A problem occurred in kernel package», открыл в самом ABRT, внизу подпись

The kernel log indicates that hardware errors were detected. This is most likely not a software problem.

Это меня насторожило, только полез в гугл, как вдруг ABRT репортит еще об одной ошибке, такой же, причем у обоих статус Can't be reported.
Заглянул в dmesg, последние строки там такие

[28201.933132] kvm [12089]: vcpu0 disabled perfctr wrmsr: 0xc1 data 0xabcd
[30362.987032] SELinux: initialized (dev tmpfs, type tmpfs), uses transition SIDs
[30722.332510] mce: [Hardware Error]: Machine check events logged
[30782.289185] mce: [Hardware Error]: Machine check events logged
Соб-но у меня вопросы такие: Что это было? Какой на самом деле корень проблемы и куда копать? Паранойя потому, что это новая система, собранная пару недель назад, ОЗУ проверял, ошибок нет, S.M.A.R.T. ссд накопителя смотрел, тоже ничего подозрительного. Помоги разобраться, ЛОР.

UPD: Нашел лог MCE, но что значит?

Apr 20 22:07:01 workstation.localdomain mcelog[750]: Hardware event. This is not a software error.
Apr 20 22:07:01 workstation.localdomain mcelog[750]: MCE 0
Apr 20 22:07:01 workstation.localdomain mcelog[750]: CPU 3 BANK 0
Apr 20 22:07:01 workstation.localdomain mcelog[750]: TIME 1429549621 Mon Apr 20 22:07:01 2015
Apr 20 22:07:01 workstation.localdomain mcelog[750]: MCG status:
Apr 20 22:07:01 workstation.localdomain mcelog[750]: MCi status:
Apr 20 22:07:01 workstation.localdomain mcelog[750]: Corrected error
Apr 20 22:07:01 workstation.localdomain mcelog[750]: Error enabled
Apr 20 22:07:01 workstation.localdomain mcelog[750]: MCA: Internal parity error
Apr 20 22:07:01 workstation.localdomain mcelog[750]: STATUS 90000040000f0005 MCGSTATUS 0
Apr 20 22:07:01 workstation.localdomain mcelog[750]: MCGCAP c09 APICID 6 SOCKETID 0
Apr 20 22:07:01 workstation.localdomain mcelog[750]: CPUID Vendor Intel Family 6 Model 60
Apr 20 22:08:01 workstation.localdomain mcelog[750]: Hardware event. This is not a software error.
Apr 20 22:08:01 workstation.localdomain mcelog[750]: MCE 0
Apr 20 22:08:01 workstation.localdomain mcelog[750]: CPU 0 BANK 0
Apr 20 22:08:01 workstation.localdomain mcelog[750]: TIME 1429549681 Mon Apr 20 22:08:01 2015
Apr 20 22:08:01 workstation.localdomain mcelog[750]: MCG status:
Apr 20 22:08:01 workstation.localdomain mcelog[750]: MCi status:
Apr 20 22:08:01 workstation.localdomain mcelog[750]: Corrected error
Apr 20 22:08:01 workstation.localdomain mcelog[750]: Error enabled
Apr 20 22:08:01 workstation.localdomain mcelog[750]: MCA: Internal parity error
Apr 20 22:08:01 workstation.localdomain mcelog[750]: STATUS 90000040000f0005 MCGSTATUS 0
Apr 20 22:08:01 workstation.localdomain mcelog[750]: MCGCAP c09 APICID 0 SOCKETID 0
Apr 20 22:08:01 workstation.localdomain mcelog[750]: CPUID Vendor Intel Family 6 Model 60

UPD2: Нагуглил вот что: http://unix.stackexchange.com/questions/165222/mce-error-mca-internal-parity-...
Там внизу пишут про связь KVM, 32 бит и этой ошибки.
Эмулятор ведра как раз 32 битный, но пока не уверен до конца, из-за этого ли.

Перемещено JB из talks

★★★★

Последнее исправление: Jefail (всего исправлений: 2)

Ответ на: комментарий от carasin

Это не выход, мне больше интересно где можно найти этот самый лог, посмотрел journalctl - ничего, dmesg - тоже пусто, /usr/sbin/mcelog ничего не вернул.

Jefail ★★★★
() автор топика
Ответ на: комментарий от eabi

Отписал ниже

/usr/sbin/mcelog
ничего не вернул.

Jefail ★★★★
() автор топика
Последнее исправление: Jefail (всего исправлений: 1)
Ответ на: комментарий от ncrmnt

Прочитайте пожалуйста UPD2, только что добавил, проверка памяти в memtest ошибок не выдала.

Jefail ★★★★
() автор топика
Ответ на: комментарий от atrus

Разгона нет, температура была не выше 57, да и система не фризится / ребутается, просто ABRT начинает сыпать этой ошибкой, сейчас, кстати, 3-яя вылезла, в логе все тоже самое.

Jefail ★★★★
() автор топика
Ответ на: комментарий от i_gnatenko_brain

=)

Я раньше честно пытался оставить эту вундервафлю в системе и отправлять с её помощью крэшрепорты. Но иногда оно меня настолько задалбывало своей назойливостью, что однажды я решился на этот отчаянный шаг :)

С тех пор эта операция является одной из первой в списке TODO после инсталляции системы.

carasin ★★★★★
()
Ответ на: комментарий от mv

Их всего 2 и судя по всему дело не в них (посмотрите UPD2).
Нашел строгую закономерность: Ошибка валится только когда запущен эмулятор ведра от студии (он 32 битный), стоит его закрыть - тишина.

Jefail ★★★★
() автор топика
Последнее исправление: Jefail (всего исправлений: 1)
Ответ на: комментарий от mv

Вы не поняли, ошибка вообще не относится к ОЗУ, она вызвана процессором

MCA: Internal parity error

Другое дело, что на некоторых форумах упоминается ложная природа этой ошибки, которая проявляется связкой Haswell + KVM + 32bit система внутри, что соответствует моей конфигурации.

Jefail ★★★★
() автор топика
Последнее исправление: Jefail (всего исправлений: 1)

Если не ошибаюсь, ловил подобное из-за интелового видео на Sandy Bridge. Intel HD 3000

Deleted
()
Ответ на: комментарий от Jefail

ошибка вообще не относится к ОЗУ, она вызвана процессором

вынимай процессоры по одному

imul ★★★★★
()
Ответ на: комментарий от eR

man yum:

       remove or erase
              Are used to remove the specified  packages  from  the
              system  as well as removing any packages which depend
              on the package  being  removed.  remove  operates  on
              groups,  files,  provides and filelists just like the
              «install» command.(See Specifying package  names  for
              more information)

              Note that «yum» is included in the protected_packages
              configuration, by default.  So you can't accidentally
              remove yum itself.

              The remove_leaf_only configuration changes the behav‐
              iour of this command to only  remove  packages  which
              aren't required by something else.

              The     clean_requirements_on_remove    configuration
              changes the behaviour of this command to also  remove
              packages that are only dependencies of this package.

              Because  remove does a lot of work to make it as easy
              as possible to use, there are  also  a  few  specific
              remove  commands «remove-n», «remove-na» and «remove-
              nevra». These only work on package names, and do  not
              process wildcards etc.

carasin ★★★★★
()
Последнее исправление: carasin (всего исправлений: 2)
4 октября 2015 г.

Хоть тема уже давно протухла, вот описание проблемы: https://bugs.launchpad.net/qemu/ bug/1307225

Если вкратце - это очередная бага у процессоров Haswell, возникает при работе виртуализации. Пострадали даже серверные Xeon'ы. У нас с постоянной периодичностью с этой ошибкой валятся все 10 серверов с виртуализацией от VMware. Пришлось им даже в саппорт писать, чтобы узнать как отключить падение при MCE-событиях.

Не лечится никак, но при этом баг вроде-бы безопасен. Intel по какой-то причине не хочет вносить изменения в микрокод чтобы отключить данный MCE-Event (возможно не может). В FreeBSD, например, данные события для Haswell'а (status==90000040000f0005) вообще фильтруются. В ядро линукс почему-то до сих пор не внесли нужные исправления (или опять-же не могут).

Короче, если с этим событием ничего не ломается, забейте.

DawnCaster ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.