В очередной раз сыграл в рулетку AMD
Не знаю, может я мазохист, любитель боли и унижений, но жизнь меня тут ничему не учит.
в 20м году собрал пк на amd, с 5700xt видюхой. купил как раз перед бумом майнинга. периодически стал ловить https://bugzilla.kernel.org/show_bug.cgi?id=206903 , чаще, чем хотелось бы. даже без нагрузки на видео, даже при повседневной работе в браузере/десктопе. все пляски с бубном ни к чему не привели. в оффтопике разумеется все ок. намучавшись, скинул ее майнеру втридорога и был счастлив.
на замену взял 6700xt. и вот тут мне сложно вспомнить какие то существенные проблемы. возможно были вылеты в играх, однако десктоп был стабилен. но решил поменять свой fhd моник на 2к 165гц.
настало время авито барыг и перекупов, т.к в официальных магазах цены были запредельные. и попалась мне на глаза новая palit 4070ti, за 65к. впечатлившись dlss3 (для оффтопика) - взял. и все вроде хорошо, и даже протон работал стабильно. вылетов не помню. кажись вот оно, можно работать/играть и горя не знать несколько лет. были с нвидией мелкие проблемы (пк не выходил из сна, иногда выходил, но с черным экраном, иногда помогало рестартануть lightdm), но жить было можно. но тут резко подешевели 7900xt…
продав 4070ti (с бомжатскими 12 гигами), взял я 7900xt с царскими двадцатью… еще и в плюсе остался. и вроде как все отлично - в браузере декодирование видео изкоробки, гуйня летает, никаких проблем со сном (во всяком случае у пк). но в играх снова началось, ох как у меня горит…
подсел я на третью джаггу. офигенная вещь. но иногда, в рандомных местах картинка зависает. сам пк притом работает дальше. в логе такая хня
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:24 vmid:5 pasid:32778, for process JA3.exe pid 15311 thread JA3.exe pid 15311)
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: in page starting at address 0x000000000051d000 from client 10
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00501430
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: Faulty UTCL2 client ID: SQC (data) (0xa)
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MORE_FAULTS: 0x0
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: WALKER_ERROR: 0x0
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: PERMISSION_FAULTS: 0x3
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MAPPING_ERROR: 0x0
фев 09 15:15:48 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: RW: 0x0
фев 09 15:15:55 viper-manjaro NetworkManager[1050]: <info> [1707480955.1803] dhcp6 (enp5s0): state changed new lease, address=2a00:1370:819c:57db:db60:e1dd:5c46:e8a4
фев 09 15:15:55 viper-manjaro systemd[1]: Starting Network Manager Script Dispatcher Service...
фев 09 15:15:55 viper-manjaro systemd[1]: Started Network Manager Script Dispatcher Service.
фев 09 15:15:59 viper-manjaro kernel: [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx_0.0.0 timeout, signaled seq=3598491, emitted seq=3598493
фев 09 15:15:59 viper-manjaro kernel: [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information: process JA3.exe pid 15311 thread JA3.exe pid 15311
фев 09 15:15:59 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: GPU reset begin!
фев 09 15:16:03 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: failed to suspend display audio
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: IP block:gfx_v11_0 is hung!
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:169 vmid:0 pasid:0, for process pid 0 thread pid 0)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: in page starting at address 0x0000000000000000 from client 10
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00040B53
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: Faulty UTCL2 client ID: CPC (0x5)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MORE_FAULTS: 0x1
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: WALKER_ERROR: 0x1
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: PERMISSION_FAULTS: 0x5
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MAPPING_ERROR: 0x1
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: RW: 0x1
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:169 vmid:0 pasid:0, for process pid 0 thread pid 0)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: in page starting at address 0x0000000000000000 from client 10
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00000000
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: Faulty UTCL2 client ID: CB/DB (0x0)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MORE_FAULTS: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: WALKER_ERROR: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: PERMISSION_FAULTS: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MAPPING_ERROR: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: RW: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:169 vmid:0 pasid:0, for process pid 0 thread pid 0)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: in page starting at address 0x0000000000000000 from client 10
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00000000
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: Faulty UTCL2 client ID: CB/DB (0x0)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MORE_FAULTS: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: WALKER_ERROR: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: PERMISSION_FAULTS: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MAPPING_ERROR: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: RW: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:169 vmid:0 pasid:0, for process pid 0 thread pid 0)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: in page starting at address 0x0000000000000000 from client 10
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00000000
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: Faulty UTCL2 client ID: CB/DB (0x0)
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MORE_FAULTS: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: WALKER_ERROR: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: PERMISSION_FAULTS: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MAPPING_ERROR: 0x0
фев 09 15:16:04 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: RW: 0x0
я бесконечно далек от понимания работы видео карт, но судя логу вроде как бага в игре приводит к падению драйвера. эта проблема хорошо гуглится, багрепорты заведены где только можно, пуканы у амудешников горят знатно. проблеме не один год. где то пишут, что в винде такая же проблема, однако драйвер ее переживает, в отличии от
фев 07 16:28:54 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: soft reset failed, will fallback to full reset!
и опять я достал бубен. версии месы, вулкана меняю, ничто не помогает. в других играх такой проблемы не было замечено. мб играл мало. а вот в джагге может стрельнуть как через пару минут, так и через час, стабильно.
так прошла неделя. и вдруг подумал, а че бы мне не обновить биос, для моего кроссхеира уже 5 версий вышло. т.е дальше стучу в бубен. одному бгу известно, как биос матери может повлиять на гпу, но почему бы и нет. обновил, загрузился, выяснилось, что отвалился второй nvme, вообще перестал определяться (с сабжем это никак не связано, но жопа моя раскалилась до предела). решилось отключением питание от пк.
начал играть в джаггу. через 2 минуты знакомый пролаг и зависание картинки. в голове все мысли о лизочке, однако херак, картинка отвисла, играем дальше. смотрю в лог, а там
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:24 vmid:3 pasid:32775, for process JA3.exe pid 4941 thread JA3.exe pid 4941)
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: in page starting at address 0x00000000002be000 from client 10
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00301430
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: Faulty UTCL2 client ID: SQC (data) (0xa)
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MORE_FAULTS: 0x0
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: WALKER_ERROR: 0x0
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: PERMISSION_FAULTS: 0x3
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: MAPPING_ERROR: 0x0
фев 09 16:32:50 viper-manjaro kernel: amdgpu 0000:0d:00.0: amdgpu: RW: 0x0
фев 09 16:33:00 viper-manjaro kernel: [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx_0.0.0 timeout, but soft recovered
епииииископ кондратий…. неужели помогло??? пока продолжаю наблюдение.
пс. если кому интересно - месяц выживал на 6400 рыксе - вообще никаких проблем, отличная карта. даже прошел на ней disciples 3, и он мне… понравился!
upd. еще раз стрельнуло, с soft recovered. выглядит как успешный успех!
uupd. Подумал, а не могут ли мои беды с амд быть связаны с материнкой, раз уж обновление биоса помогло… Будет время - поставлю эту рыксу в мамку от гиги, потестим.