LINUX.ORG.RU

Как отладить зависание ядра?

 , , , ,


1

1

Обновился на Lubuntu 22.04.2 с 20.04.6.
Стало виснуть всё колом, часто. Как правило в простое, но бывает и прямо ведёшь мышку - она медленнее, медленнее, и всё.
Бывает успеваешь язык переключить (пропадает Scroll lock подсветка). Или в консоль по ctrl+alt+F1 (тоже пропадает, но консоль не отрисовывается).
Грешу на видюху RX5700 XT. Менял дрова с amdgpu на с оффсайта - не помогло. Пробовал выключать виртуалки (virtualbox) - не помогло.
Не запускать Хром - не помогло.
Запускать браузеры c --disable-gpu (в самом начале, т.к. с включенной вешались вообще быстро при просмотре видео, минут 5-10, и опять вотбл***!!!).
Алсо, в SMPlayer тоже сделал отрисовку через X11 - перестал вешаться.
Вис Xscreensaver при запуске или длительном простое, даже с blank screen - удалил.
Есть ещё Телеграмм, сейчас ему ускорение выключил.
Самый прикол, что в играх зависаний нет, в Doom Eternal можно бегать часами. Только в Иксах (wayland удалил сразу же, pipewire чуть позже, на него тоже думал).
Окружение - LXDE.
Ядра менял от 4го до 6.5 (сейчас стоит).
Opera вернул на старую версию - 88 (Opera One хочет композитинг, пока не вышла версия, которая отключает тени, если его нет и они рисуются чёрными квадратами. Хотя Хром уже так умеет).
Что случилось с линуксом? Какие ещё инновации в него внесли, что всё вешается?
В логах нет нифига, как будто такой клин, что даже записаться ничего не успевает.
Температуры в норме, вентиляторы все крутятся.

sudo inxi -G
Graphics:
  Device-1: AMD Navi 10 [Radeon RX 5600 OEM/5600 XT / 5700/5700 XT]
    driver: amdgpu v: kernel
  Display: server: X.Org v: 1.21.1.4 driver: X: loaded: amdgpu,ati
    unloaded: fbdev,modesetting,radeon,vesa gpu: amdgpu
    resolution: 1920x1080~60Hz
  OpenGL: renderer: AMD Radeon RX 5700 XT (NAVI10 DRM 3.54.0
    6.5.0-26-generic LLVM 9.0.0)
    v: 4.5 Mesa 19.3.4

Как такое отлаживать?



Последнее исправление: c0unt0 (всего исправлений: 4)
Ответ на: комментарий от MagicMirror

Наглухо виснет. Даже REISUB не срабатывает. journalctl -o short-precise -k -b -1 и journalctl –boot=-1
Тоже смотрел. Вот например:

мар 25 14:39:43.296874 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:39:47.368855 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:13.200843 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:36.880877 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:40.952835 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:49.160834 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:40:58.304875 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:41:06.996861 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:41:21.136867 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:42:05.740843 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 14:42:14.116854 warp kernel: usb usb4-port4: Cannot enable. Maybe the USB cable is bad?
мар 25 16:38:09.586915 warp kernel: perf: interrupt took too long (2530 > 2500), lowering kernel.perf_event_max_sample_rate to 79000

могут быть другие сообщения, но это обычный движ, кабеля по 5 метров, потом хабы и нагрузка.

мар 25 16:50:17 warp root[78527]: Setting Provider_1 as main channel!
мар 25 16:51:00 warp root[78632]: node-1 Down!
мар 25 16:51:03 warp root[78634]: node-2 Down!
мар 25 16:51:05 warp root[78636]: Failed Rastr!
мар 25 16:51:08 warp root[78655]: Failed Beeline! disabled
мар 25 16:51:08 warp root[78656]: Rastr status = 0
мар 25 16:51:51 warp root[78824]: node-1 Down!
мар 25 16:51:54 warp root[78849]: node-2 Down!
мар 25 16:51:56 warp root[78869]: Failed Rastr!
мар 25 16:52:00 warp root[78890]: Failed Beeline! disabled
мар 25 16:52:00 warp root[78891]: Rastr status = 0
мар 25 16:52:01 warp audit[78897]: USER_ACCT pid=78897 uid=0 auid=4294967295 ses=4294967295 msg='op=PAM:accounting grantors=pam_permit acct="xxxxx" exe="/usr/sbin/cron" hos>
мар 25 16:52:01 warp audit[78897]: CRED_ACQ pid=78897 uid=0 auid=4294967295 ses=4294967295 msg='op=PAM:setcred grantors=pam_permit,pam_ecryptfs acct="xxxxx" exe="/usr/sbin/>
мар 25 16:52:01 warp audit[78897]: SYSCALL arch=c000003e syscall=1 success=yes exit=4 a0=7 a1=7ffcbf452f70 a2=4 a3=0 items=0 ppid=2234 pid=78897 auid=1000 uid=0 gid=0 euid=>
мар 25 16:52:01 warp audit: PROCTITLE proctitle=2F7573722F7362696E2F43524F4E002D66002D50
мар 25 16:52:01 warp CRON[78897]: pam_unix(cron:session): session opened for user xxxxx(uid=1000) by (uid=0)
мар 25 16:52:01 warp audit[78897]: USER_START pid=78897 uid=0 auid=1000 ses=207 msg='op=PAM:session_open grantors=pam_loginuid,pam_env,pam_env,pam_permit,pam_umask,pam_unix>
мар 25 16:52:01 warp CRON[78898]: (xxxxx) CMD (export DISPLAY=:0.0 && export XAUTHORITY=/home/xxxxx/.Xauthority && /usr/local/bin/build-ready-notify)
мар 25 16:52:04 warp audit[78897]: CRED_DISP pid=78897 uid=0 auid=1000 ses=207 msg='op=PAM:setcred grantors=pam_permit,pam_ecryptfs acct="xxxxx" exe="/usr/sbin/cron" hostna>
мар 25 16:52:04 warp audit[78897]: USER_END pid=78897 uid=0 auid=1000 ses=207 msg='op=PAM:session_close grantors=pam_loginuid,pam_env,pam_env,pam_permit,pam_umask,pam_unix,>
мар 25 16:52:04 warp CRON[78897]: pam_unix(cron:session): session closed for user xxxxx
мар 25 16:52:43 warp root[79185]: node-1 Down!
мар 25 16:52:46 warp root[79222]: node-2 Down!
мар 25 16:52:48 warp root[79224]: Failed Rastr!
мар 25 16:52:52 warp root[79266]: Failed Beeline! disabled
мар 25 16:52:52 warp root[79267]: Rastr status = 0
мар 25 16:53:35 warp root[79359]: node-1 Down!
мар 25 16:53:38 warp root[79361]: node-2 Down!
мар 25 16:53:40 warp root[79363]: Failed Rastr!

Тоже всё как обычно. ОЗУ никто не жрёт, сейчас 7 ГБ занято. Вот такое ещё бывает (а бывает и работает) при запуске wine:

C:\windows\system32\explorer.exe: symbol lookup error: /usr/lib/x86_64-linux-gnu/libvulkan_radeon.so: undefined symbol: amdgpu_query_video_caps_info
00e4:err:winediag:nodrv_CreateWindow Application tried to create a window, but no driver could be loaded.
00e4:err:winediag:nodrv_CreateWindow L"The explorer process failed to start."

У StartWine свой vulkan, игрушки через него.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 2)
Ответ на: комментарий от c0unt0

Даже REISUB не срабатывает.

У меня тоже не срабатывает. Потому что выключен. А у тебя включен?

Заранее подключись по ssh и запусти отображение логов с htop. В момент зависания смотри чё произошло. Скорее всего обойдётся без тормозной консоли на ttyS0.

MagicMirror ★★
()
Ответ на: комментарий от MagicMirror

Включен. Сейчас в 1ю консоль зашёл, C-A-SysRq-R сделал, C-A-SysRq-W. Ребутать не стал )) И так уже наперезагружался ))
Но совет Ваш попробую.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 3)

Может запустить какой нибудь скрипт, который будет каждые 2с сбрасывать на диск новый dmesg? Если ядро живо и диски не ложатся - информации будет всяко больше чем от журналда. Если нет - на том дистрибутиве без шансов что то собрать.

А, ну и мемтест прогнать. В первую очередь. А ещё всякие бусты и хитрые политики андервольта на всякий случай поотключать.

kirill_rrr ★★★★★
()
Последнее исправление: kirill_rrr (всего исправлений: 1)

Напряжение питания проца/памяти/видимокарты не понижал? Блок питания вывозит? Стресс тесты гонял? Всё это может повесить систему как нечего делать.

anonymous
()
Ответ на: комментарий от kirill_rrr

Чем скрипт раз в две секунды (почему не dmesg -w?) быстрее то? Если уж совсем докапываться, то его результаты только после следующей загрузки, а по ssh сразу.

Разве что у меня искажение, что компьютер не единственный и sshd заранее запущен.

MagicMirror ★★
()
Ответ на: комментарий от MagicMirror

Отсутствие связи по ssh не гарантирует именно кернел паник. А внезапное прекращение записи данных на диск - даёт крайне высокую вероятность. Особенно если нет симптомов отвала диска.

kirill_rrr ★★★★★
()

Попробуй с какого-нибудь(причем другого дистрибутива, не того что установлен) LiveCD загрузиться и поработать с него. Будет зависать или нет. Так можно исключить проблемы с железом(если не будет зависать).

Loki13 ★★★★★
()
Ответ на: комментарий от Khnazile

Сервер на 2*Xeon 2697 v3. С локом Турбобуста под нагрузкой, но её нет, сейчас сижу на Chrome (Опера тоже иногда вещается, видимо не до конца отключено 3d-ускорение, нашёл ключ как отключить skia-renderer, тестирую. Из включенного на opera://gpu осталось только MultipleRasterThreads=Enable.
Проблемы по железу исключены, пользуюсь не 1й год. Всё навернулось с обновлением. Единственно, флаги загрузки ядра. Они и раньше работали, и ядра на которых работало подкидывал. Но на всякий:

cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-6.5.0-26-generic root=UUID=c10bb88b-eafc-4e78-9591-911fcdc11ba9 ro acpi_osi=Linux vmalloc=1024MB acpi_backlight=vendor rcutree.rcu_idle_gp_delay=1 acpi=force usbcore.autosuspend=-1 pcie_port_pm=off intel_pstate=enable processor.ignore_ppc=1 acpi_osi=Linux apparmor=0 intel_iommu=off video=HDMI-A-1:e video=VGA-0:e noirqdebug noibrs noibpb nopti nospectre_v2 nospectre_v1 l1tf=off nospec_store_bypass_disable no_stf_barrier mds=off tsx_async_abort=off mitigations=off security= tsx=on text

Вчера бегал в Doom Eternal несколько часов, выкрутил настройки все на «Кошмар» (без DLSS и т.п.), занято VRAM было 6 GB, артефактов и зависаний нет. Т.к. вешают именно Х-овые приложения, и даже при простое (видео на паузе).

c0unt0
() автор топика
Ответ на: комментарий от superuser

У Lubuntu видимо нет )) Вообще сейчас планы сделать бэккап текущей ситуации и осенью-зимой на 24.04 перейти, как созреет. А пока на стабильной 20.04. Благо разницы для меня нет, приложения те же, внешний вид DE/WM свой, ядро и 5е всё видит.

c0unt0
() автор топика
Ответ на: комментарий от MagicMirror

В-общем что выявилось на текущий момент:
Вешает всё, что использует видеокарту для отрисовки:
Браузеры (отключение в Хроме –disable-gpu помогло, можно сидеть десятки часов), Телеграмм (отключение ускорения в настройках + автопроигрывания видео помогло при прокрутке, специально поставил бета-версию, чтобы убедиться. Она грохнулась и написала:

OpenGL: Disabled
OpenGL Renderer: [not-initialized]

Т.е. таки отключил.
Виртуальные машины. Чтобы снять подозрение с проверенного дистра Virtualbox 6й версии (7я сыровата ИМХО и тоже вешает), поставил virt-manager, перенёс туда Win10, которая всегда запущена была (для работы, не подумайте чего, я не из этих), и через часа 2-3 она вклинила.
/dev/kvm - оно ведь тоже на уровне ядра. Так что сижу без виртуалок. Если запустить, быстро сделать что нужно и выключить - удаётся избежать клина. Оставишь висеть - опять идти питание дёргать и все пароли вводить. Я даже уже не матерюсь, привык.
Поставил 11ю винду, ради теста стоит в virt-manager. Часов 5 уже работает. С проверенной 10-кой, которая работала несколько лет, и ничего туда не ставилось, такое бы не прокатило. В течение часа-двух бы зависла.
Есть идея, что если дать системе композитинг, который я выпилил, а разрабы новой Оперы и Хрома (и GTK, да) на него рассчитывали, то будет ОК. Проверю и эту теорию.
ssh повесил с dmesg -w на тестовый стенд на всякий. Но дело явно софтовое.
glxgears оставлял крутить, на случай если видюха дохнет из-за снижения параметров (энергосбережение и сильно низкое напр. питания), не помогло. Самый быстрый способ повесить - запустить Opera со включенным GPU или видеоплеер (smplayer/vlc) с выводом через opengl (раньше работало).
P.S. видюху менял на 5500XT, не помогло. Современных nvidia нет, только legacy какая-то валяется. Могу и её воткнуть.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 3)
Ответ на: комментарий от c0unt0

Проблемы по железу исключены, пользуюсь не 1й год. Всё навернулось с обновлением.

Ну почему же исключены, у меня тоже висаки видеокарты nv 9200m начались после обновления с дебиана 10 до 11. И тут ничего не сделать, кроме отката всего дистра.

kirill_rrr ★★★★★
()
Последнее исправление: kirill_rrr (всего исправлений: 1)
Ответ на: комментарий от c0unt0

Я подобное поведение видел, когда pcie-шина начинала забиваться мусорными пакетами. Тоже картинка начинала лагать, пока все не зависало. Но в том случае виноват был дохлый процессор ryzen (распространенная проблема), а amdgpu хоть и триггерил ситуацию, но это было лишь следствием интенсивного обмена по шине. У интел я про наличие таких проблем не слышал, скорее всего что-то другое.

Ах да, если настроить выхлоп ядра на последовательный порт, то иногда прямо перед зависанием можно было увидеть сообщения, что скорость порта изменена до минимально возможной.
А еще, если при первых признаках тормозов быстренько положить систему в suspend по горячей клавише, то был велик шанс, что после выхода из спячки она продолжит нормально работать еще какое-то время.

Khnazile ★★★★★
()
Последнее исправление: Khnazile (всего исправлений: 1)
Ответ на: комментарий от Khnazile

После удаления va-api и vdpau:
Opera не висла 11 часов. Так что видимо какое-то ускорение было в ней недовыключено.
Проверка, что ускорение вынесено - не работает glxgears.
На виртуалке с qemu (чистая Lubuntu 22.04) смог вызвать «принудительное зависание» - быстро дёргал туда-сюда окно featherpad-a (на qt) секунд 15 +/-.
После перезагрузки перед появлением lightdm (переключение из консоли в графику) заметен «битый» кадр (мусор из видеопамяти). Но это может быть просто особенность переключения режима, или драйверов. Например как-то видел кадр с «Рабочим столом» и открытым софтом, который был при зависании.

c0unt0
() автор топика
Ответ на: комментарий от anonymous

Попробую поменять на днях. Отпишусь после нескольких дней мониторинга, или если не поможет. Если видюхе дёрнуть питание - вполне может и зависнуть.

c0unt0
() автор топика
Ответ на: комментарий от superuser

Сделал у них баг: https://gitlab.freedesktop.org/mesa/mesa/-/issues/11056

Там более подробнее, про то, что успел сделать на данный момент (может что забыл даже).
Пока не отвечают. Может через год ответят, знаю я багзиллы ))))
Написал, что виснут браузеры, но и медиа-плеер тоже виснет (SMPlayer, vlc). С отключенным ускорением само собой. Через что выводить пока играю.
И Телеграмм иногда, тоже с отключенным, при картинке на полном экране (видел такой баг у него), или при пропадании управления (видео на полном экране) - и такой видел. В-общем как по минном полю. Хз что сделать, чтобы эта друа не висла )) Может зависнуть ночью, на xscreensaver, blank screen - снёс, или не зависнуть.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 5)
Ответ на: комментарий от c0unt0

могут быть другие сообщения, но это обычный движ, кабеля по 5 метров, потом хабы и нагрузка.

Для USB 5 метров как бы многовато, кабель должен быть очень хорошим и то не факт, что будет стабильно работать.

anonymous
()
Ответ на: комментарий от vbr

При покупке. И мамка её оказывается сама проверяла каждый раз при включении. Выключил, стало всё сильно быстрее загружаться (типа 30 секунд, если не меньше до появления «Press Del to enter Setup»).
Думал для серверов это норма - пару минут тупить. Ан нет, настраивается. Просто видимо админы тех мест, где работал, тоже об этой настройке BIOS не знали.

c0unt0
() автор топика
Ответ на: комментарий от anonymous

Для хаба 3.0 норм, хаб 2.0 периодически отваливается. Но без него тоже пробовал.
Вот кабель (с микросхемой внутри), который держит скорость 3.0 на таком расстоянии (5м) без доп. питания (проверял винтом и быстроходными флэшками):
https://aliexpress.ru/item/1005004958451012.html?sku_id=12000031171578713

Если ссылка умрёт - гуглится так: ZOGUO Active USB3.0 2.0 Extension Cable Extender Male to Female 5Gpbs fast speed for smart laptop PC TV Xbox One SSD 10m/15m/20m
Либо есть на основе оптики, там до 50 метров. Но подороже.

c0unt0
() автор топика
Последнее исправление: c0unt0 (всего исправлений: 2)
Ответ на: комментарий от MagicMirror

В-общем победил так:

C-State: C2 state.
CPU C3 report: Enable.
C6 Report: Disable.

Подсмотрел на overclockers_ru в теме про Xeon-ы и Huananzhi. Неделю проверял с отлюченным opengl, потом включил, потом Performance CPU Profile и ещё несколько дней. Всё стабильно, только электрики 32-расы рубанули свет пару раз.
Надо кабеля обжать для бесперебойника и между 2мя аккумами на 75 Ач с технологией EFB, чтобы на дольше хватило. И буду смеяться, а не материться, когда свет тухнет и кондёр встаёт ))

c0unt0
() автор топика