LINUX.ORG.RU

Непонятное зависание (AMD/ASUS)

 , , ,


0

4

Есть домашний мини-сервачок с процессором AMD Athlon 5150 на материнке ASUS AM1M-A.

Проблема в том, что он рандомно виснет. Ни конкретного времени зависания, ни постоянного интервала между зависаниями нет, сервер может проработать пару часов, а может и пару недель (аналогичные зависания были даже во время установки системы). При зависании в консоль никакая паника не падает (через netconsole тоже, всё ложится наглухо), в логах тоже ничего нет. Но обязательно на экране вокруг символов появляются красные точечки а-ля тень от этих самых символов (фото 1, фото 2).

Что я уже успел попробовать: выключал ACPI, ASPM, NMI, IOMMU, полностью выключал и блэклистил модуль radeon (в чисто текстовой консоли 80×25 тот же результат), тасовал ядра от 3.13 до 3.17, менял ФС (были подозрения на кривой код btrfs, но сейчас ext4, и результат тот же), гонял память memtest'ом, обновил BIOS до последней версии. Ничто из вышеперечисленного не помогло и не указало, в чём причина.

Подозрение, конечно, на материнку, но менять её хочется уже в самом крайнем случае, потому как вдруг это таки софтовая проблема.

Просьба подсказать, куда копать дальше, и особенно просьба высказаться по характерным артефактам на экране, если такие кому-то когда-то встречались.

★★★★★

Последнее исправление: post-factum (всего исправлений: 2)

А графика, видимо, интегрированная? Есть возможность выключить в биосе и поставить внешнюю?

Kiborg ★★★
()
Ответ на: комментарий от Kiborg

Да, интегрированная в процессор. Выключить можно, только у меня нет внешней на замену.

post-factum ★★★★★
() автор топика

конфиги ядра не помешало в студию

Наблюдалось похожее, когда перепутаны опции архиектуры ядра для amd intel. Проверяй соответствие ядер и архитектур, опции.

Поставить app-admin/mcelog

anonymous
()
Ответ на: комментарий от anonymous

конфиги ядра не помешало в студию

Стоковое убунтовое 3.13 и самопальное pf-kernel (.config).

mcelog пишет:

Starting Machine Check Exceptions decoder: CPU is unsupported

Хотя в ядре оно есть:

pf@defiant:~ » zgrep -i mce /proc/config.gz
CONFIG_X86_MCE=y
CONFIG_X86_MCE_INTEL=y
CONFIG_X86_MCE_AMD=y
CONFIG_X86_MCE_THRESHOLD=y
CONFIG_X86_MCE_INJECT=m
CONFIG_EDAC_DECODE_MCE=m
CONFIG_EDAC_MCE_INJ=m
CONFIG_XEN_MCE_LOG=y

И в проце, по идее, тоже:

pf@defiant:~ » grep -o mce /proc/cpuinfo | wc -l
4
post-factum ★★★★★
() автор топика
Ответ на: комментарий от post-factum

что за «CONFIG_MJAGUAR=y»? патчи?

# CONFIG_MK8 is not set
# CONFIG_MK10 is not set
# CONFIG_MBARCELONA is not set
# CONFIG_MBOBCAT is not set
# CONFIG_MBULLDOZER is not set
# CONFIG_MPILEDRIVER is not set
CONFIG_MJAGUAR=y
# CONFIG_MPSC is not set
# CONFIG_MATOM is not set
# CONFIG_MCORE2 is not set
# CONFIG_MCOREI7 is not set
# CONFIG_MCOREI7AVX is not set
# CONFIG_MCOREAVXI is not set
# CONFIG_MCOREAVX2 is not set
# CONFIG_GENERIC_CPU is not set
# CONFIG_MNATIVE is not set

попробуй поставь CONFIG_MK8=y для начала или CONFIG_GENERIC_CPU=y

в убунтовском конфиге тоже надо проверить эту секцию: Processor type and features -> Processor Family

Если не поможет - смотреть дальше на предмет валидных AMD-опций и уместности INTEL-опций. В моём случае ЕМНИП отработало.

Еще перегрев конечно.

anonymous
()
Ответ на: комментарий от anonymous

В стоковом убунтовом ядре стоит так:

# CONFIG_MK8 is not set
CONFIG_GENERIC_CPU=y

CONFIG_MJAGUAR=y — это сторонний патч, да, но без него поведение то же.

Перегрев исключаю и по датчикам, и по касанию пальцами.

По всему интелопохожему:

pf@defiant:~ » grep -i intel /boot/config-3.17.0-pf2 | grep -v "^#"
CONFIG_HAVE_INTEL_TXT=y
CONFIG_X86_INTEL_LPSS=y
CONFIG_X86_MCE_INTEL=y
CONFIG_AGP_INTEL=y
CONFIG_INTEL_GTT=y
CONFIG_SND_HDA_INTEL=m
CONFIG_INTEL_MID_DMAC=m
CONFIG_INTEL_IOATDMA=m
CONFIG_INTEL_IOMMU=y
CONFIG_INTEL_IOMMU_FLOPPY_WA=y
CONFIG_INTEL_RAPL=m
CONFIG_INTEL_TXT=y
CONFIG_CRYPTO_CRC32C_INTEL=y
CONFIG_CRYPTO_GHASH_CLMUL_NI_INTEL=m
CONFIG_CRYPTO_AES_NI_INTEL=m

С виду тут нужны только криптоштуки и звук, остальное я хз, необходимо ли оно в этой системе.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Оставил так:

pf@defiant:~/src/kernel/linux-3.17-pf2 » grep INTEL .config | grep -v "^#"
CONFIG_SND_HDA_INTEL=m
CONFIG_CRYPTO_CRC32C_INTEL=y
CONFIG_CRYPTO_GHASH_CLMUL_NI_INTEL=m
CONFIG_CRYPTO_AES_NI_INTEL=m

и отправил на пересборку. О результатах отпишусь.

post-factum ★★★★★
() автор топика

Попробуй временно в UEFI отключить все опции энергосбережения, возможно одна из них глючит.

Ещё, как вариант, nmi_watchdog=0 в параметры загрузки ядра.

haku ★★★★★
()
Последнее исправление: haku (всего исправлений: 2)
Ответ на: комментарий от haku

nmi_watchdog=0

Это делал. По идее, именно эта штука убрала варнинги на одной из фоток. Но от зависаний не помогло. Ну и падало, кстати, не после варнингов NMI, они могли продолжать сыпаться и дальше при работающей системе. Иногда висло вообще без этих варнингов.

Попробуй временно в UEFI отключить все опции энергосбережения

Записал, попробую.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от post-factum

эти штуки индифферентны

проверь CONFIG_CPU_SUP_AMD

Хотя, если CONFIG_GENERIC_CPU=y должно работать, причина может быть и не в этом.

Попробуй еще CONFIG_MK8=Y

А как система ведёт себя без видео - в текстовом/терминальном режиме?

dmesg еще

anonymous
()

с недавних пор тоже ловлю похожие глюки: то работает неделю, то виснет через час после ребута

поначалу нашел глюк в RCU, вернее настройки кривые были в ядре какой-то процесс заваливался и запуск какой-то новой задачи вешал систему
перебрал конфиг - теперь либо висим либо нет

чаще виснет в цацках или видео, со звуковыми эффектами (иногда звук монотонно зацикливается, иногда начинает завывать какой-то синусоидой)
думал может блок питания здыхает, не хватает мощности на 4 винта, видуху, юсб и пр.
пока проверить никак

часто некоторые проги при выходе выбрасывают чет типо:
[152987.314112] conftest[24591]: segfault at 0 ip 00000030410918da sp 00007fffb149bf38 error 4 in libc-2.20.so[3041000000+191000]
но все работает дальше

заметил после добавления флагов в QtGUI перестали запускаться скайп и дизайнер
оказалось lto, пересобрал QtGUI без lto - опять запускаются

сижу, и небольшими порциями пересобираю все что было собрано с lto, авось попустит

anTaRes ★★★★
()
Ответ на: комментарий от anonymous

проверь CONFIG_CPU_SUP_AMD

Это есть.

pf@defiant:~ » grep -i amd /boot/config-3.17.0-pf2 | grep -v "^#"
CONFIG_CPU_SUP_AMD=y
CONFIG_X86_MCE_AMD=y
CONFIG_MICROCODE_AMD=y
CONFIG_MICROCODE_AMD_EARLY=y
CONFIG_AMD_NUMA=y
CONFIG_X86_AMD_FREQ_SENSITIVITY=m
CONFIG_AMD_NB=y
CONFIG_PATA_AMD=m
CONFIG_AMD_PHY=m
CONFIG_HW_RANDOM_AMD=m
CONFIG_I2C_AMD756=m
CONFIG_I2C_AMD756_S4882=m
CONFIG_I2C_AMD8111=m
CONFIG_GPIO_AMD8111=m
CONFIG_AGP_AMD64=y
CONFIG_USB_AMD5536UDC=m
CONFIG_EDAC_AMD64=m
CONFIG_AMD_IOMMU=y
CONFIG_AMD_IOMMU_STATS=y
CONFIG_AMD_IOMMU_V2=m
CONFIG_KVM_AMD=m

Попробуй еще CONFIG_MK8=Y

Могу, конечно, а чем это лучше CONFIG_GENERIC_CPU для тестирования?

А как система ведёт себя без видео - в текстовом/терминальном режиме?

Иксы на этой системе никогда и не запускались. Голый терминал.

dmesg

Даю.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от anTaRes

поначалу нашел глюк в RCU, вернее настройки кривые были в ядре какой-то процесс заваливался и запуск какой-то новой задачи вешал систему
перебрал конфиг - теперь либо висим либо нет

Обычно RCU не приводит к артефактам на экране. Ну и не 5 же релизов подряд в такой критичной подсистеме.

чаще виснет в цацках или видео, со звуковыми эффектами (иногда звук монотонно зацикливается, иногда начинает завывать какой-то синусоидой)

Тут не работают ни со звуком, ни с видео.

думал может блок питания здыхает, не хватает мощности на 4 винта, видуху, юсб и пр.

Как вариант, конечно, хотя там и жрать нечему — две сетевухи, SSD и маломощный проц. И БП Залмановский.

post-factum ★★★★★
() автор топика
Последнее исправление: post-factum (всего исправлений: 1)
Ответ на: комментарий от post-factum

у тебя видео не очень хорошо инициируется - либо отключи его, либо сконфигурируй как положено. Начни с устранения ошибки, что не находит фирмварь - поставь, укажи где взять фирмварь для твоего радеона.

Не исключен перегрев видео.

anonymous
()
Ответ на: комментарий от anonymous

Это какие конкретно строки dmesg об этом говорят?

Я модуль radeon вообще выключал, имеет ли значение фирмварь при его выключении? Ну и напоминаю, что видео встроенно в проц, и оно не нагружено, как, собственно, и сам проц. Но и когда нагружено (например, при сборке ядра в 4 потока), тоже ОК.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от post-factum

смотри там: [ 6.094846] radeon 0000:00:01.0: Direct firmware load for radeon/kabini_pfp.bin failed with error -2

без фирмвари устройство скорее неуправляемое - по крайней мере управление питанием не работает, но обычно это на ноутах актуально.

anonymous
()
Ответ на: комментарий от anonymous

А, это с установкой 3.17 поменялось, оно ищет фирмварь, где названия файлов маленькими буквами, а в системе лежат файлы с названиями большими буквами. В 3.16 грузилось, хотя это, как видно, на проблему не повлияло.

Попробую скопировать фирмварь и переименовать.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от anonymous

memtest за ночь ничего не выявил, но я и так собирался докупить ещё одну планку, заодно и протестирую.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от post-factum

Я как раз тоже за встроенное видео и ошибку где-то там, внутри. «Надежно вызвать» аппаратную ошибку — это какой-то оксюморон, но можно попробовать «надежно избежать» этой ошибки, т. е. проверить что с внешним видео проблемы нет (или она есть, и дело в чем-то другом).

Kiborg ★★★
()
Ответ на: комментарий от post-factum

А, это с установкой 3.17 поменялось, оно ищет фирмварь, где названия файлов маленькими буквами, а в системе лежат файлы с названиями большими буквами.

Ты точно корректный микрокод ему подсунул в итоге? Для разных ядер может быть нужен разный.

anonymous
()

и особенно просьба высказаться по характерным артефактам на экране

Если бы ты не рассказал свою историю, то мне бы показалось, что твою материнку в буквальном смысле запекали в духовке. Но сейчас ее либо нужно выбрасывать либо запекать снова.

anonymous_sama ★★★★★
()
Ответ на: комментарий от Ford_Focus

Да, но он надёжно не воспроизводится по заранее известному сценарию.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от inoremap

Ооо, очень похоже, спасибо.

У меня сча такая планка стоит: Kingston DDR3-1600 4096MB PC3-12800 (KVR16N11/4).

Какую же брать тогда?

post-factum ★★★★★
() автор топика
Ответ на: комментарий от anonymous

В итоге трюк с подменой файлов не удался (только что проверил), но это вряд ли важно, т.к. ядра до 3.17 грузили микрокод успешно, но тоже падали.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от Ford_Focus

после процессора со сдохшим контроллером DDR3, но рабочим DDR2 - меня уже трудно удивить

не думал, что о таком доведется услышать

andrew667 ★★★★★
()
Ответ на: комментарий от post-factum

Хз, но мне кажется если бы был просто перегрев, то скорей всего лесенка была бы или более яркие и заметные артефакты. Если рисковый или все равно уже собрался менять, то можешь попробовать: http://geektimes.ru/post/193162/

Да еще похожие артефакты были в фреймбуфере, у меня на одном киоске оплаты, но там это лечилось просто переключением на другой tty. Но красным там конечно буквы не отражало, а просто белым, и там был просто стремный дешевый тачскрин.

anonymous_sama ★★★★★
()
Ответ на: комментарий от post-factum

Какую же брать тогда?

Бери что есть не из геймерских DDR3-1600 1,5V (а не 1,35) без радиаторов: micron (crucial), samsung, hynix, kingmax, kingston.

Кстати твой кингстон на чем? У меня такая память на elpida, работает гуд. Проверь на сайте, не поддельная ли память (мне в одном магазине подсунули такие модули без фирменной упаковки, но серийник не валидировался на сайте кингстона, и наклейки были слегка небрежные). Высказался по этому поводу в магазине и вернул память. Даже в комп ее не вставлял. Удивился, что такую ничем не примечательную недорогую память подделывают.

andrew667 ★★★★★
()
Последнее исправление: andrew667 (всего исправлений: 1)
Ответ на: комментарий от post-factum

Да тут дело не в AMD или ASUS'е по отдельности, а именно в их сочетании, уж больно много среди них трупиков попадается.

aplay ★★★★★
()
Ответ на: комментарий от andrew667

Кстати твой кингстон на чем?

Как узнать?

Проверь на сайте, не поддельная ли память

Как проверить?

post-factum ★★★★★
() автор топика
Ответ на: комментарий от post-factum

К сожалению, они поломали сайт. Заполнять все надо было на сайте Можно в саппорт написать. Откопал письмо с той фейковой памятью.

Module ID Number: 99U5471-032.A00LF
Serial Number: 0000005928516
Security ID: WLKDM-E9EMEJ-LW4FF
Email Address: XXXXXX@GMAIL.COM

The memory you inquired about is not an authentic Kingston memory product.  We suggest that you double check the information on the product label. (Refer to the Kingston Verification website for details).

andrew667 ★★★★★
()
Ответ на: комментарий от andrew667

:(

Ну я заказал самсунговую планку уже, буду пробовать. Всё равно собирался докупать ОЗУ.

post-factum ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Перекомпиляция ничего не дала, меняю память, продолжаю наблюдения.

post-factum ★★★★★
() автор топика

таак-с. На моей амудэ матери ядро(особенно последние) колбасило от включенного в биосе HPET.

darkenshvein ★★★★★
()

3.13 до 3.17

бгг. доверия у меня нет, после того, как попытался откатить дебиан на версию постарее, но с /бут от старого. 3.2 попробуй. все остальные скисли. То ли инитрд, то ли ещё что.

darkenshvein ★★★★★
()

о))
есть такая мать, только проц 5350
тоже словил такое, только артефактов был полный экран, но когда сильно игрался с таймингами памяти
откатился в бивисе по f5 на дефолт конфиг и все норм
короче, имхо в памяти дело

кстате, ты проц с боксовым кулером брал?

ii343hbka ★★★
()
Последнее исправление: ii343hbka (всего исправлений: 1)
Ответ на: комментарий от ii343hbka

Проц с дефолтным кулером в одной коробочке шёл. А на что это влияет? Проц маломощный, сильно не греется.

Поменял вот память, наблюдаю. Тайминги и не трогал никогда.

Какой объём ОЗУ на твоей машине?

post-factum ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.