LINUX.ORG.RU

gpu lockup

 ,


0

1

Привет, ЛОР.

После перехода на открытые дрова видеокарта стала зависать под нагрузкой через случайные промежутки времени - от 2 до 20 минут, иногда больше. В логах вываливается вот такое:

Oct  2 23:45:38 localhost kernel: [  864.022715] pcieport 0000:00:02.0: AER: Uncorrected (Non-Fatal) error received: id=0010
Oct  2 23:45:38 localhost kernel: [  864.022725] pcieport 0000:00:02.0: PCIe Bus Error: severity=Uncorrected (Non-Fatal), type=Transaction Layer, id=0010(Requester ID)
Oct  2 23:45:38 localhost kernel: [  864.022728] pcieport 0000:00:02.0:   device [8086:2f04] error status/mask=00004000/00000000
Oct  2 23:45:38 localhost kernel: [  864.022730] pcieport 0000:00:02.0:    [14] Completion Timeout     (First)
Oct  2 23:45:38 localhost kernel: [  864.022736] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  2 23:45:38 localhost kernel: [  864.040235] pcieport 0000:00:02.0: AER: Uncorrected (Non-Fatal) error received: id=0010
Oct  2 23:45:38 localhost kernel: [  864.040242] pcieport 0000:00:02.0: PCIe Bus Error: severity=Uncorrected (Non-Fatal), type=Transaction Layer, id=0010(Requester ID)
Oct  2 23:45:38 localhost kernel: [  864.040244] pcieport 0000:00:02.0:   device [8086:2f04] error status/mask=00004000/00000000
Oct  2 23:45:38 localhost kernel: [  864.040246] pcieport 0000:00:02.0:    [14] Completion Timeout     (First)
Oct  2 23:45:38 localhost kernel: [  864.040252] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  2 23:45:38 localhost kernel: [  864.049196] pcieport 0000:00:02.0: AER: Uncorrected (Fatal) error received: id=0010
Oct  2 23:45:38 localhost kernel: [  864.049204] pcieport 0000:00:02.0: PCIe Bus Error: severity=Uncorrected (Fatal), type=Transaction Layer, id=0010(Requester ID)
Oct  2 23:45:38 localhost kernel: [  864.049214] pcieport 0000:00:02.0:   device [8086:2f04] error status/mask=00004020/00000000
Oct  2 23:45:38 localhost kernel: [  864.049216] pcieport 0000:00:02.0:    [ 5] Surprise Down Error   
Oct  2 23:45:38 localhost kernel: [  864.049218] pcieport 0000:00:02.0:    [14] Completion Timeout     (First)
Oct  2 23:45:39 localhost kernel: [  865.053266] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  2 23:45:48 localhost kernel: [  874.384757] radeon 0000:02:00.0: ring 0 stalled for more than 10020msec
Oct  2 23:45:48 localhost kernel: [  874.384761] radeon 0000:02:00.0: GPU lockup (current fence id 0x000000000000de0a last fence id 0x000000000000de10 on ring 0)

Через некоторое время вся система виснет. Если вырубить DPM, карта всё равно виснет, но в логах кроме ring 0 stalled и GPU lockup ничего нет. В какую сторону копать?

Карта 7950. Ядро vanilla 4.7.6, ati 7.7.1, xorg 1.18.4, mesa 12.0.3.

Ответ на: комментарий от Novell-ch

Behem0th

Я скачал твой диск, запустил его с флешки и... нифига.

Точнее, вот: http://i.imgur.com/ubF1W0K.jpg

Правый монитор подключён к первой карте, левый - ко второй. Консоль ни на что не реагирует, переключиться и залогиниться у меня не получилось. Цветные полоски тоже бесполезны. Запускаться пробовал в Default Mode и Text Mode. Сама система при этом не висит, я каждый раз перезагружал по sysrq+b. Можно конечно без KMS и драйверов загрузиться, но я не думаю что я найду что-то новое таким образом.

P.S. Добавь SSH-сервер чтобы логи удалённо можно было смотреть.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

обои прикольные получились, а вторая карта тоже из семейства amdgpu? ну и по скрину в amdgpu ошибок не видно, может тебя спасет dal, там ведь всякие ништяки для видео и мониторов больше чем fhd

Novell-ch ★★★★★
()
Ответ на: комментарий от Novell-ch

вторая карта тоже из семейства amdgpu?

Они обе одинаковые. Radeon 7950 (Tahiti Pro).

может тебя спасет dal, там ведь всякие ништяки для видео и мониторов больше чем fhd

Можно подробнее?

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

думаю что для разных карт да, но не для одникановых, думаю можно подшаманить и ограничить pci\device id для разных драйвенров, и но если pci id совпадают но думаю тут нужны суровые костыли, лично я переключаюсь простым блеклистом радеона или амдгпу

Novell-ch ★★★★★
()

В общем, закончилось всё тем, что я откатился на fglrx до лучших времён и подумываю о покупке какой-нибудь nvidia.

hateyoufeel ★★★★★
() автор топика
Ответ на: Всё как всегда от anonymous

МАЛАЦА, ТАК ИХ! ЛУДШЕ ВСЮ ЖИЗНЬ НА gpu lockupАХ СИДЕТЬ И ГЛЮКИ ЛАВИТЬ, ЛИШЬ БЫ НЕ БРАТЬ ВИДЕАКАРТЫ ОТ ПЛАХОЙ НЕВИДИИ! ОНА ЖЕ ВЕДЬ ПЛАХАЯ!

anonymous
()
Ответ на: Всё как всегда от anonymous

Они вовсе не нубы, а очень опытные дебилы-мракобесы вроде напильника.

anonymous
()
Ответ на: комментарий от anonymous

А что Хуанг? Мне он занёс. А тебе нет, завистливый нищеброд? :)

anonymous
()
Ответ на: Всё как всегда от anonymous

О чём только ты думал когда слушал всяких нубов амдшников типа Novell-ch ?

Я их не слушал, у меня ATI в разных компах уже лет 10, и проблем было не сильно больше чем с nvidia пока fglrx поддерживался. С опенсорсными дровами же вышел полный швах.

hateyoufeel ★★★★★
() автор топика
Последнее исправление: hateyoufeel (всего исправлений: 2)
16 ноября 2016 г.

uefi bios в видеокартах не шил?
на открытых дровишках у меня ловилось глухое зависание при изменении дефолтных частот для performance,
и этот баг точно программный, потому что на дуалбутном оффтопике проблем с перешитыми карточками не было вовсе

haku ★★★★★
()
Ответ на: комментарий от haku

Нет. В оффтопике всё работает, как и с fglrx. Пару дней назад ставил 4.9-rc5: radeon вешается почти сразу под нагрузкой, с amdgpu не стартуют иксы.

Я в общем уже забил и заказал gtx1070, так что тред можно считать закрытым.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

конечно не заработает, вы драйвером для «GCN 2nd+ generation» пытаетесь завести «GCN 1nd generation» устройство

а вообще закрыт так закрыт

haku ★★★★★
()
Ответ на: комментарий от haku

конечно не заработает, вы драйвером для «GCN 2nd+ generation» пытаетесь завести «GCN 1nd generation» устройство

В ядре 4.9 в amdgpu добавили поддержку gcn1.0. Похороникс уже даже проводил тесты, повторю ссылку: http://www.phoronix.com/scan.php?page=article&item=amdgpu-rad-49&num=1

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

у меня есть тред, в котором частично помогают опции вроде radeon хард ресет и правка dsdt

но проще купить другую карту

smilessss ★★★★★
()
Ответ на: комментарий от smilessss

Скинь ради интереса. Я потом в другой комп их переставлю, потыкаю ещё.

Вообще, меня мучает идея запилить публичный ssh на этот комп и позвать местных поехавших фанатов ATI настраивать иксы с трансляцией всего этого в Twitch.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

позвать местных поехавших фанатов ATI

всерьёз думаете что кто-то вам будет помогать, с таким то вашим отношением к помощникам, товарищ неосилятор?

*отписывается от треда*

haku ★★★★★
()
Ответ на: комментарий от hateyoufeel

добавили поддержку

подсказать как переводится слово experimental?

прописывай -AMDGPU +radeonsi и горя не знай

anonymous
()
Ответ на: комментарий от haku

всерьёз думаете что кто-то вам будет помогать, с таким то вашим отношением к помощникам, товарищ неосилятор?

Я имел ввиду личностей типа Quasar, которые с воплями готовы жрать любое говно, лишь бы открытое.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от anonymous

прописывай -AMDGPU +radeonsi и горя не знай

Ты, кажется, читать не умеешь. Я выше писал о результатах работы radeonsi. Прямо в названии треда.

hateyoufeel ★★★★★
() автор топика
Последнее исправление: hateyoufeel (всего исправлений: 1)
Ответ на: комментарий от Stil

Какой 20160628?

Да.

И еще, какая libdrm? 2.4.73?

На тот момент я проверял 2.4.71 и из гита.

hateyoufeel ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.