LINUX.ORG.RU

AMD Polaris не умеет в GPU Reset?

 , ,


0

1

Заметил спам [drm] scheduler comp_1.1.1 is not ready, skipping, переход в S3 не решил, попробовал ресетнуть гпу. Итог:

мая 30 17:46:31 wbx-desktop kernel: [drm] scheduler comp_1.3.1 is not ready, skipping
мая 30 17:46:31 wbx-desktop kernel: amdgpu 0000:10:00.0: amdgpu: GPU reset begin!
мая 30 17:46:31 wbx-desktop kernel: amdgpu 0000:10:00.0: amdgpu: BACO reset
мая 30 17:46:31 wbx-desktop kernel: amdgpu 0000:10:00.0: amdgpu: GPU reset succeeded, trying to resume
мая 30 17:46:31 wbx-desktop kernel: [drm] PCIE GART of 256M enabled (table at 0x000000F400380000).
мая 30 17:46:31 wbx-desktop kernel: [drm] VRAM is lost due to GPU reset!
мая 30 17:46:32 wbx-desktop kernel: amdgpu 0000:10:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring comp_1.1.1 test failed (-110)
мая 30 17:46:32 wbx-desktop kernel: amdgpu 0000:10:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring comp_1.2.1 test failed (-110)
мая 30 17:46:32 wbx-desktop kernel: amdgpu 0000:10:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring comp_1.3.1 test failed (-110)
мая 30 17:46:32 wbx-desktop kernel: [drm] UVD and UVD ENC initialized successfully.
мая 30 17:46:33 wbx-desktop kernel: [drm] VCE initialized successfully.
мая 30 17:46:33 wbx-desktop kernel: amdgpu 0000:10:00.0: amdgpu: recover vram bo from shadow start
мая 30 17:46:33 wbx-desktop kernel: amdgpu 0000:10:00.0: amdgpu: recover vram bo from shadow done
мая 30 17:46:33 wbx-desktop kernel: amdgpu 0000:10:00.0: amdgpu: GPU reset(1) succeeded!
мая 30 17:46:35 wbx-desktop kernel: BUG: kernel NULL pointer dereference, address: 0000000000000240
мая 30 17:46:35 wbx-desktop kernel: #PF: supervisor read access in kernel mode
мая 30 17:46:35 wbx-desktop kernel: #PF: error_code(0x0000) - not-present page
мая 30 17:46:35 wbx-desktop kernel: PGD 0 P4D 0 
мая 30 17:46:35 wbx-desktop kernel: Oops: 0000 [#1] PREEMPT SMP NOPTI

ssh после такого завис, дал только пароль ввести. Пришлось кнопкой перезагружаться, на экране - артефачная картинка со второго монитора.

Это полярисы не научились нормально восстанавливаться после gpu reset, или амд совсем не умеют писать драйверы? Под оффтопиком не проверял, да и нечем.
Видяха - RX 580. Так-то оно не мешает (реально падает очень редко в специфичных местах), но подобное видеть после ресета странновато.

★★

ЕМНИП, нормальный GPU reset в линуксе завезли только начиная с rdna2. Насколько я смог понять из переписки в гитлаб, это сложная проблема, которая одним концом упирается в дизайн ядра, а другим концом - в аппаратные ограничения старых gpu.

Khnazile ★★★★★
()

Под оффтопиком не проверял, да и нечем.

UPD. проверил, RDR2 1050mv undervolt (100% вызывает проблемы):
Linux: либо ring gfx timeout but soft recovered (всё ок), либо ring gfx timeout, попытка неудачного ресета и последующие таймауты всех колец, а в конце Oops. Чёрный экран, больше ничего кроме ресета пк не сделать.
Offtopic: картинка зависает, драйвер падает, потом адреналин сообщает об таймауте, снова ресетит и всё ок.

whbex ★★
() автор топика

ssh после такого завис, дал только пароль ввести.

Из-за долбаного кривожопия с модным nvme такое бывает (особенно с ск хиниксом). Энергосберегайки не вяжутся с общей кучей железа и всё.

Так что пробуй другой ссд.

anonymous
()
Ответ на: комментарий от sehellion

и больше не брать ничего у красных

В ноутбуках альтернатив не особо много, если только Apple Silicon или упороться в игровой ноутбук с дискреткой.

whbex ★★
() автор топика
Ответ на: комментарий от steemandlinux

Суть топика даже не в проблемах самой видеокарты и не в самом ресете, а в том, что он после этого вызывает kernel NULL pointer dereference, т.е. вешает ядро.
И как я написал, в винде всё ресетается нормально.

whbex ★★
() автор топика
Ответ на: комментарий от steemandlinux

Действительно: небось какие-то майнеры криворуко модифицировали AtomBIOS (а может ещё и карту ушатали неумелым разгоном) и спихнули её автору по дешёвке. + Автор не написал какой у него дистр: вдруг там унылый Debian со старыми дровами, от которого ожидают чудес. У меня RX590 на «SystemD-free» Artix Linux работает как часы, и даже мысли никогда не возникало что-то там ресетить (а более новые карточки не нужны из-за бэкдоров)

SakuraKun ★★★★★
()
Последнее исправление: SakuraKun (всего исправлений: 4)
Ответ на: комментарий от SakuraKun

криворуко модифицировали AtomBIOS

Я туда и от 470 VBIOS вшивал, разницы нет. Суть топика вообще не в этом.

мысли никогда не возникало что-то там ресетить

Ну так и у меня тоже не возникало до тех пор, пока глючный мод для Minecraft’а не отправил видеокарту в ресет (это был баг месы/мода, подтверждено его же автором, к видеокарте отношения не имеет). Или кривой андервольт. Один хрен после такого kernel NULL pointer dereference почти всегда, чего быть не должно. В винде всё как-то спокойно ресетится без VIDEO_TDR_FAILURE и прочих экранов смерти.

Vega в моём проце ресетится нормально, даже сессия не падает. Валятся только приложения с VK_ERROR_DEVICE_LOST.

whbex ★★
() автор топика
Последнее исправление: whbex (всего исправлений: 1)
Ответ на: комментарий от whbex

Качество работы видеокарты зависит от качества используемого AtomBIOS'а: с кривым/неподходящим/отсутствующим AtomBIOS'ом видекарта может или не запуститься вообще или вызывать kernel panick'и при определённых условиях - как и любое другое оборудование, некорректно работающее из-за программных/аппаратных проблем... Кстати, Linux Linux'у - рознь, а вы так и не написали: ни каким дистрибутивом пользуетесь, ни какая у вас версия ядра и т.д.! На каком-нибудь допотопном Debian'е ещё не так глючить будет ;-)

SakuraKun ★★★★★
()
Последнее исправление: SakuraKun (всего исправлений: 3)
Ответ на: комментарий от SakuraKun

На каком-нибудь допотопном Debian’е ещё не так глючить будет ;-)

вы ещё много лет назад рассказывали что всё ок, должно работать, дебиан новее

anonymous
()
Ответ на: комментарий от SakuraKun

Я же сказал, дело не в глюках, сама видеокарта стабильно работает. Проблема в том, что gpu recovery вешает всё ядро.

ни каким дистрибутивом пользуетесь

Fedora

ни какая у вас версия ядра и т.д

6.9.0, Mesa 24.0.7.

whbex ★★
() автор топика
Ответ на: комментарий от whbex

На первый взгляд - софт достаточно свежий, но ещё имеет значение с какими конфигами он собран (и что там эти RedHat'овцы намутили). Пожалуйста, проверьте, воспроизводится ли проблема в других дистрибутивах - желательно в тех которые отличаются кардинально, вроде того же без'SystemD'шного Artix. Устанавливать необязательно, можно использовать LiveUSB

SakuraKun ★★★★★
()