LINUX.ORG.RU

Диагностика проблем с видеокартой AMD Radeon

 , , , ,


0

2

Доброго дня, ЛОРчане!

Есть уже достаточно древняя видео карточка AMD Radeon R9 270X, от ASUS (R9270X-DC2T-4GD5) c 4-мя ГиБ GDDR5 памяти. На днях произошла некая поломка, которую я пытаюсь идентифицировать. Хоть карточка и древняя, но время сейчас не самое удачное для покупки новой. Да и в любом случае было бы интересно разобраться в причинах.

Система работала нормально, просто рабочий стол и зависла совершенно полностью, помог только Reset. После включения на экране появились надписи POST вперемешку с красными горизонтальными линиями высотой в символ (на экране текстовый режим) и шириной в половину экрана. Дальше появился GRUB так же в текстовом режиме. Хотя до этого всегда работал в графическом. Между буквами меню отображались артефакты похожие на символы псевдографики (но не они) зелёного цвета. В UEFI (BIOS) setup войти не удалось, вероятно из-за того, что он работает в графическом режиме. А может быть и удалось. Непонятно, после нажатия Delete просто чёрный экран.

Карточку извлёк, разобрал, почистил от пыли. Поменял термопасту (оригинальная совсем высохла). Собрал. В процессе никаких видимых повреждений, вроде проблемных конденсаторов или следов явного перегрева, я не обнаружил. Естественно разборка и сборка не помогла.

В UEFI (BIOS) setup выставил встроенную в процессор, после этого система стала загружаться нормально. Но R9 279X, естественно, от этого работать не начала. Драйвер ядра её определяет, но выдаёт жалобы:

[    8.186075] [drm] amdgpu kernel modesetting enabled.
[    8.186151] amdgpu: Topology: Add CPU node
[    8.186241] amdgpu 0000:01:00.0: enabling device (0000 -> 0003)
[    8.186375] amdgpu 0000:01:00.0: amdgpu: Trusted Memory Zone (TMZ) feature not supported
[    8.408867] amdgpu 0000:01:00.0: amdgpu: Fetched VBIOS from ROM BAR
[    8.408873] amdgpu: ATOM BIOS: 113-AD61600-110
[    8.419350] amdgpu 0000:01:00.0: amdgpu: VRAM: 4096M 0x000000F400000000 - 0x000000F4FFFFFFFF (4096M used)
[    8.419354] amdgpu 0000:01:00.0: amdgpu: GART: 1024M 0x000000FF00000000 - 0x000000FF3FFFFFFF
[    8.419654] [drm] amdgpu: 4096M of VRAM memory ready
[    8.419656] [drm] amdgpu: 4096M of GTT memory ready.
[    8.420271] amdgpu 0000:01:00.0: amdgpu: PCIE GART of 1024M enabled (table at 0x000000F400000000).
[    8.420606] [drm] amdgpu: dpm initialized
[    8.619939] [drm:uvd_v3_1_hw_init [amdgpu]] *ERROR* amdgpu: UVD Firmware validate fail (-22).
[    8.620110] [drm:amdgpu_device_ip_init [amdgpu]] *ERROR* hw_init of IP block <uvd_v3_1> failed -22
[    8.620282] amdgpu 0000:01:00.0: amdgpu: amdgpu_device_ip_init failed
[    8.620313] amdgpu 0000:01:00.0: amdgpu: Fatal error during GPU init
[    8.620589] amdgpu: probe of 0000:01:00.0 failed with error -22

После загрузки карточка в системе никак не задействуется.

По совету я попробовал её перепрошить на ту же версию VBIOS и это даже помогло один раз. Я прошил, перезагрузил комп, посмотрел dmesg, указанных ошибок там больше не было. Я запустил DRI_PRIME=1 glxgears (DRI_PRIME, т.к. основной была выставлена встроенная), шестерёнки отображались корректно. Проверил glxinfo - информация корректная. Я запустил ещё штук 5 glxgears чтобы немного нагрузить карточку. И система опять намертво зависла, пришлось использовать Reset. После перезагрузки карточка опять оказалась не задействованной, и в dmesg я обнаружил такие же ошибки, как и были (как и написаны выше). Попробовал прошить ещё раз, но это уже не помогло. Сначала я упёрся в ошибку утилиты amdvbflash* сообщающую, что прошивка уже была проведена. Обойти эту проблему помог ключ -fa и прошивка прошла. Однако в этот раз пробема никуда не делась и карточка осталась в нерабочем состоянии. Я попробовал и другую версию VBIOS - ничего. Правда я не уверен, что прошивка действительно в эти разы работала нормально. Несмотря на то, что утилита для прошивки писала
20000/20000h bytes programmed
20000/20000h bytes verified
,
при явной проверке контрольной суммы она отличалась от контрольной суммы файла с прошивкой.

Пробовал в этом же слоте другую карточку от NVIDIA - работает нормально. Т.е. с большой вероятностью, это не проблема слота или материнской платы. Карточку AMD пока не пробовал в другом системнике, надо его ещё собрать.

Поскольку одна перепрошивка всё же помогла, у меня есть мысль заменить микросхему памяти. Однако я не уверен, что дело всё таки в микросхеме памяти с прошивкой, ведь работа карточки нарушалась уже после загрузки. Хотя я не знаю, используется ли VBIOS после того как карточка была инициализирована или он нужен только в самом начале после включения.

Что ещё можно попробовать с ней сделать кроме как выбросить?

Примечания:
* - Почему-то amdvbflash_linux_4.69 карточку не видит вообще, что с загруженным драйвером, что без него. Поэтому все манипуляции с прошивкой пришлось проводить из FreeDOS.

★★★★★

Последнее исправление: ls-h (всего исправлений: 4)

Не особо она древняя, но именно этих десяток довольно часто вешали винду с синим экраном или просто мусором в течении нескольких лет.

boowai ★★★★
()
Ответ на: комментарий от boowai

довольно часто вешали винду

До этой проблемы всё было отлично. Не майнил. Иногда играл, но всё было ей по силам.

ls-h ★★★★★
() автор топика

сдохла от перегрева, скорее всего сам гпу (хотя есть малая вероятность что какой-то из чипов памяти). обычное дело, если радиатор забит войлоком и окаменевшая термопаста.

можно пытаться запекать в духовке, жарить феном и прочее - но это если и поможет, то временно.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

сдохла от перегрева

По каким признакам это стало понятно? Почему тогда один раз помогла перепрошивка?

ls-h ★★★★★
() автор топика
Ответ на: комментарий от ls-h

Я сам не занимаюсь ремонтами видеокарт, но знаю что есть в интернете софт под офтопик и вроде загрузочные образы для теста памяти. Была ещё софтина которая может дать лог с записью какой чип имеет битую память. Но названия даже не подскажу, не знаю.

unixnik ★★★★★
()
Последнее исправление: unixnik (всего исправлений: 1)

UVD Firmware оно грузит с диска в память карточки. Если валидация падает с ошибкой, значит битая память. А что за дистр? Попробуй вручную ему фирмвари подсунь.

BceM_IIpuBeT ★★☆☆☆
()
Последнее исправление: BceM_IIpuBeT (всего исправлений: 1)
Ответ на: комментарий от BceM_IIpuBeT

А что за дистр?

Ubuntu 21.04

Попробуй вручную ему фирмвари подсунь.

Каким образом?

ls-h ★★★★★
() автор топика

прогреваст

вас посетил мистер отвал

anonymous
()
Ответ на: комментарий от unixnik

Вроде тут кто-то замутил тест памяти

Спасибо. Скачал, читаю. Жуть так писать. Просто взрыв фарша какой-то.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от ls-h

понятно - по самой «картинке». полосы после старта = проблемы с шиной памяти видяхи (какая-то из адресных линий либо линий данных одного из каналов умерла)

«помогла» потому что так совпало. если выключить карту и положить ее на месяц на полку - она тоже внезапно оживет. если погреть кристалл феном градусов до 100-150 или пожарить в духовке - карта тоже скорее всего внезапно оживет. вот только ненадолго - может на 5 минут, может на час, может на неделю, может на год. для нвидий старых такое «лечение» обычно помогало на 2-3 недели в среднем (хотя зависит еще от температурного режима после «лечения»), угревшиеся интел чипсеты времен i865 - оживали максимум на час-два.

и да, с битой прошивкой видяха просто не инициализируется. потому что в прошивках есть контрольные суммы как раз для контроля их целостности…

NiTr0 ★★★★★
()

По совету я попробовал её перепрошить на ту же версию VBIOS и это даже помогло один раз.

Обойти эту проблему помог ключ -fa и прошивка прошла.

попробовал и другую версию VBIOS - ничего. Правда я не уверен, что прошивка действительно в эти разы работала нормально.

все манипуляции с прошивкой пришлось проводить из FreeDOS.

Контрольные суммы прошивок биоса видяхи менялись?

anonymous
()
Ответ на: комментарий от targitaj

Параноик

А вири в биосах видяшек живут?

anonymous
()
Ответ на: комментарий от targitaj

С какой-нибудь fedora live пробовал загрузиться?

Пробовал с Ubuntu ещё до всех прочих манипуляций. Естественно это не помогло, т.к. проблема проявляется до запуска ОС.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Контрольные суммы прошивок биоса видяхи менялись?

Вроде бы после прошивок считает одну и ту же, но она отличается от файла из которого был прошит VBIOS:
https://i.imgur.com/aO6CDS3.png

ls-h ★★★★★
() автор топика
Ответ на: комментарий от NiTr0

понятно - по самой «картинке».

Воткнул в старый системник, там картина сообщения POST отображаются нормально, ОС загружается нормально, но через 1 - 2 минуты начинается вот это: https://i.imgur.com/AMxxMHW.png
Видимо действительно дело не в прошивке.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от unixnik

Вроде тут кто-то замутил тест памяти

Попробовал. Ничего кроме полного зависания компьютера у меня не вышло

ls-h ★★★★★
() автор топика

Вариант «карта просто сдохла» не рассматривается?

Обидно, конечно, т.к. карта не такая уж древняя.

grem ★★★★★
()

Не, ну ты можешь попробовать снизить частоты в биосе или зашить его от версии с меньшим количеством памяти, чтобы хоть в каком-то виде ещё поюзать

izzholtik ★★★
()
Ответ на: комментарий от grem

Вариант «карта просто сдохла» не рассматривается?

Рассматривается. Она сдохла. Но интересно разобраться, что именно. Плюс, поскольку я думал, что дело в прошивке, т.к. первая перепрошивка дала результат, я стал проводить эксперименты. Если бы решилось перепрошивкой, то можно было бы и не выкидывать.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от izzholtik

Восстановить самостоятельно, во всяком случае, оперативно, без шансов.

Это я уже тоже понял.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от izzholtik

попробовать снизить частоты в биосе или зашить его от версии с меньшим количеством памяти

Если проблема в памяти, то не факт, что проблема в старшей её части. А как прописать частоты в файл с VBIOS я не в курсе.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от izzholtik

Тогда пощупай чипы памяти на предмет равномерности нагрева.

Они закрыты радиатором вместе с процессором.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от ls-h

А как прописать частоты в файл с VBIOS я не в курсе.

VBE

YAR ★★★★★
()
Ответ на: комментарий от ls-h

Ну блин, определись - «интересно» или «товарный вид».

izzholtik ★★★
()
  1. Проверь на драйвере radeon

  2. Не работает UVD? А тебе так надо аппаратное ускорение старых видеоформатов (новых там нет)? Убей его нафиг. У тебя GCN1, amdgpu с ним работает через жопу, возможно что UVD его добило. Прибей/переименуй фирмварь pitcairn_uvd.bin

timdorohin ★★★★
()
Ответ на: комментарий от ls-h

Это не так интересно. Ну могла ножка отпаяться или чип памяти начать глючит.

У меня просто вентилятор-турбина трещала и температура была высокой. Через 8 лет использования. Но артефактов и выключений не было. Поэтому разборка, чистка и смазка вполне помогли и карта используется до сих пор уже > 3 лет. Но мне кажется, что опять пылью подзабилась, хотя в играх не больше 60 греется.

grem ★★★★★
()
Последнее исправление: grem (всего исправлений: 1)
Ответ на: комментарий от ls-h

А самому прошивку с биоса видяшки дернуть и сверить контрольную сумму, diff -a …

anonymous
()
Ответ на: комментарий от unixnik

Вроде тут кто-то замутил тест памят

Попробовал на другом компе, там скрипт отработал:

python3 /home/lsh/Desktop/dmgg.py d0000000 20 4 
Detected AMD GPU card:
sudo: : command not found
02:00.0 VGA compatible controller: Advanced Micro Devices, Inc. [AMD/ATI] Curacao XT / Trinidad XT [Radeon R7 370 / R9 270X/370X] (prog-if 00 [VGA controller])
Subsystem: ASUSTeK Computer Inc. Curacao XT / Trinidad XT [Radeon R7 370 / R9 270X/370X]
Flags: bus master, fast devsel, latency 0, IRQ 10, NUMA node 0
Memory at d0000000 (64-bit, prefetchable) [size=256M]
Memory at fdd80000 (64-bit, non-prefetchable) [size=256K]
I/O ports at bc00 [size=256]
Expansion ROM at 000c0000 [virtual] [disabled] [size=128K]
Capabilities: [48] Vendor Specific Information: Len=08 <?>
Capabilities: [50] Power Management version 3
Capabilities: [58] Express Legacy Endpoint, MSI 00
Capabilities: [a0] MSI: Enable- Count=1/1 Maskable- 64bit+
Capabilities: [100] Vendor Specific Information: ID=0001 Rev=1 Len=010 <?>
Capabilities: [150] Advanced Error Reporting
Capabilities: [200] Resizable BAR <?>
Capabilities: [270] Secondary PCI Express
Capabilities: [2b0] Address Translation Service (ATS)
Capabilities: [2c0] Page Request Interface (PRI)
Capabilities: [2d0] Process Address Space ID (PASID)
Kernel modules: radeon, amdgpu


Possible GPU address:  d0000000

number of chips is set to: 4
This test is working to detect bad chips. Warning it can give wrong faulty chip number ; only the amount of faulty chips will be good
count the chips counter-clockwise from right to left with pcie near you



number of faulty chips=  0
Total bytes tested: 4*5242880
Total errors count:  2452249  - every  8.551950249770618  OK:  18519271


Usage:
python3 ./dmmg.py b0000000 1 16  
Script file dmmg.py is on root of the USB if you need to edit ; run lspci -v to find address of your ati card default is b0000000 
 1 is 1MB of memory 
 16 is the number of memory chips from the card


UPD: Хотя не уверен, что писать последним числом. В инструкции по ссылки написано, что это общее количество памяти. А в выводе скрипта - количество чипов. Если прописать 8, то результат другой получается:
chip 7 and/or 8 is faulty at address:  1537

number of faulty chips=  1
Total bytes tested: 4*5242880
Total errors count:  2334052  - every  8.985023047891373  OK:  18637468

ls-h ★★★★★
() автор топика
Последнее исправление: ls-h (всего исправлений: 1)
Ответ на: комментарий от izzholtik

50% - неплохой шанс.

Вообще, сомнительно. Если она показывает мусор сразу после включения, ещё во время BIOS POST, вряд ли она использует верхние адреса памяти.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от izzholtik

зашить его от версии с меньшим количеством памяти,

Пока у меня это сделать не вышло, получается ошибка: ssid mismatched, ключи -fa, -fv, -fp не помогли. Ключа просто -f нет, хотя на разный сайтах рекомендуют неродные версии VBIOS прошивать с ним. Может быть версия AMDVBFlash какая-то не та.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от timdorohin

Проверь на драйвере radeon

Да тут не в amdgpu дело, тут аппаратная проблема с карточкой.

Не работает UVD?

Не то, чтобы оно мне надо, это сообщение об ошибке такое, которого раньше не было.

ls-h ★★★★★
() автор топика
Ответ на: комментарий от ls-h

bweh. Тода лучше не шей, вероятность кирпича стремится к единице.
Хотя она и так кирпич, лол.

izzholtik ★★★
()

Сдох жпу или память, только диагностический прогрев покажет что и как

SPRATAY ★★
()
Ответ на: комментарий от vyv

так сдай в ремонт

Так и сделаю. Было интересно попробовать разобраться в происходящем. Но, действительно, все возможности домашних манипуляций исчерпаны.

ls-h ★★★★★
() автор топика

Почему-то amdvbflash_linux_4.69 карточку не видит вообще, что с загруженным драйвером, что без него.

она сломалась, у меня была 270 2gb точно такие же симптомы, как не пытался она не включается, в ремонт нести было лень. Жрет конечно питалово она будь здоров как все «не очень новые» AMD. Хотя и новые жрут.

bhfq ★★★★★
()
Ответ на: комментарий от ls-h

chip 7 and/or 8 is faulty at address: 1537

number of faulty chips= 1 Total bytes tested: 4*5242880 Total errors count: 2334052 - every 8.985023047891373 OK: >18637468

Плавающая проблема взаимодействия GPU с памятью. Шить VBIOS смысла нет. Проблема или в памяти, или в GPU , или в шарах/дорожкаж

Если не в GPU - починит любой мастер с прямыми руками и небольшим опытом, который сейчас не имеет завала из более дорогих карт

GPFault ★★
()
Ответ на: комментарий от vyv

да там проблема 99% что с гпу. перепаивать его смысла нет - дешевле купить подобную карту с помойки.

NiTr0 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.