LINUX.ORG.RU

gpu lockup

 ,


0

1

Привет, ЛОР.

После перехода на открытые дрова видеокарта стала зависать под нагрузкой через случайные промежутки времени - от 2 до 20 минут, иногда больше. В логах вываливается вот такое:

Oct  2 23:45:38 localhost kernel: [  864.022715] pcieport 0000:00:02.0: AER: Uncorrected (Non-Fatal) error received: id=0010
Oct  2 23:45:38 localhost kernel: [  864.022725] pcieport 0000:00:02.0: PCIe Bus Error: severity=Uncorrected (Non-Fatal), type=Transaction Layer, id=0010(Requester ID)
Oct  2 23:45:38 localhost kernel: [  864.022728] pcieport 0000:00:02.0:   device [8086:2f04] error status/mask=00004000/00000000
Oct  2 23:45:38 localhost kernel: [  864.022730] pcieport 0000:00:02.0:    [14] Completion Timeout     (First)
Oct  2 23:45:38 localhost kernel: [  864.022736] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  2 23:45:38 localhost kernel: [  864.040235] pcieport 0000:00:02.0: AER: Uncorrected (Non-Fatal) error received: id=0010
Oct  2 23:45:38 localhost kernel: [  864.040242] pcieport 0000:00:02.0: PCIe Bus Error: severity=Uncorrected (Non-Fatal), type=Transaction Layer, id=0010(Requester ID)
Oct  2 23:45:38 localhost kernel: [  864.040244] pcieport 0000:00:02.0:   device [8086:2f04] error status/mask=00004000/00000000
Oct  2 23:45:38 localhost kernel: [  864.040246] pcieport 0000:00:02.0:    [14] Completion Timeout     (First)
Oct  2 23:45:38 localhost kernel: [  864.040252] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  2 23:45:38 localhost kernel: [  864.049196] pcieport 0000:00:02.0: AER: Uncorrected (Fatal) error received: id=0010
Oct  2 23:45:38 localhost kernel: [  864.049204] pcieport 0000:00:02.0: PCIe Bus Error: severity=Uncorrected (Fatal), type=Transaction Layer, id=0010(Requester ID)
Oct  2 23:45:38 localhost kernel: [  864.049214] pcieport 0000:00:02.0:   device [8086:2f04] error status/mask=00004020/00000000
Oct  2 23:45:38 localhost kernel: [  864.049216] pcieport 0000:00:02.0:    [ 5] Surprise Down Error   
Oct  2 23:45:38 localhost kernel: [  864.049218] pcieport 0000:00:02.0:    [14] Completion Timeout     (First)
Oct  2 23:45:39 localhost kernel: [  865.053266] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  2 23:45:48 localhost kernel: [  874.384757] radeon 0000:02:00.0: ring 0 stalled for more than 10020msec
Oct  2 23:45:48 localhost kernel: [  874.384761] radeon 0000:02:00.0: GPU lockup (current fence id 0x000000000000de0a last fence id 0x000000000000de10 on ring 0)

Через некоторое время вся система виснет. Если вырубить DPM, карта всё равно виснет, но в логах кроме ring 0 stalled и GPU lockup ничего нет. В какую сторону копать?

Карта 7950. Ядро vanilla 4.7.6, ati 7.7.1, xorg 1.18.4, mesa 12.0.3.

В сторону багтрекера.

anonymous
()
Ответ на: комментарий от anonymous

Если ты каждые 3 секунды переключаешься из xorg в tty и обратно, то да, терпения может не хватить.

А не анстейбл ли ядро у ТС и всё остальное? Лень лезть смотреть текущие версии.

grem ★★★★★
()
Последнее исправление: grem (всего исправлений: 1)

Копай в багтрекер.

Pavval ★★★★★
()
Ответ на: комментарий от grem

Если ты каждые 3 секунды переключаешься из xorg в tty и обратно, то да, терпения может не хватить.

Не, там вообще жизни нет. Моё терпение кончилось в начале 2014-го, когда запуск любой игры 50/50 приводил к глухому зависанию драйвера. После я купил APU, и больше про Fglrx не вспоминал.

А не анстейбл ли ядро у ТС и всё остальное?

Да какая разница? Fglrx похоронили официально.

anonymous
()
Ответ на: комментарий от anonymous

запуск любой игры 50/50 приводил к глухому зависанию драйвера

Наверное, у нас разные подборки игр. Зависание я пока видел только в демке Dying Light, но там сама игра то ещё глюкалово в течение нескольких месяцев была после выхода.

grem ★★★★★
()
Ответ на: комментарий от anonymous

Моё терпение кончилось в начале 2012, с тех пор только зелёные. Всего 4 с небольшим года прошло, если подумать. Только к fglrx в отношении 3д как раз нареканий не было, они были в отношении тормозов 2д и к r600.

anonymous
()
Ответ на: комментарий от jcd

Fglrx не может в свежие ядра (>4.4) и его уже почти год не обновляли. Плюс у radeon с gallium nine производительность выше, если брать игрушки, так что в fglrx совсем нет смысла.

hateyoufeel ★★★★★
() автор топика
Последнее исправление: hateyoufeel (всего исправлений: 1)
Ответ на: комментарий от Behem0th

gpu lockup - очень распространенное явления на открытых радеоновских дровах.

Только на ati или amdgpu тоже этим страдает?

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

Я говорил про radeon модуль. Но судя по багзилле и с amdgpu такое случается. Это не какой-то бич которого нужно бояться, но просто имей в виду что такое случается.

Behem0th ★★★★★
()
Ответ на: комментарий от ZenitharChampion

Установи 4.8

Ок, попробую вечером.

А пока - закрытый драйвер

Совсем не вариант. У закрытого драйвера тоже есть косяки. Если открытый не получится заставить работать, мне проще будет купить карту nvidia.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от handbrake

Kernel-firmware ?

В Gentoo есть отдельный пакет radeon-ucode, у меня последняя версия. И, в любом случае, прошивка для TAHITI не обновлялась уже где-то год с лишним.

hateyoufeel ★★★★★
() автор топика
Последнее исправление: hateyoufeel (всего исправлений: 1)
Ответ на: комментарий от hateyoufeel

На NVIDIA не работает Gallium Nine. Так что Wine будет на 30% медленнее, чем в Windows. Вернее, работает только с драйвером Nouveau, который не раскрывает всей производительности GPU.

ZenitharChampion ★★★★★
()
Последнее исправление: ZenitharChampion (всего исправлений: 3)
Ответ на: комментарий от ZenitharChampion

На NVIDIA не работает Gallium Nine. Так что Wine будет на 30% медленнее, чем в Windows. Вернее, работает только с драйвером Nouveau, который не раскрывает всей производительности GPU.

Да, но в проприетарных драйверах вроде как нормальная поддержка OpenGL, и преобразование OpenGL -> DX в Wine не так много ресурсов потребляет.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

Ага :-) Особенно если в DirectX-игре переключиться с GLSL на NVIDIA Cg.

ZenitharChampion ★★★★★
()
Ответ на: комментарий от hateyoufeel

преобразование OpenGL -> DX в Wine не так много ресурсов потребляет

Профит Nine скорее в полноценности реализации, а не скорости.

anonymous
()
Ответ на: комментарий от anonymous

Серьёзно? Я только читал, сам не пробовал пока. Хватает нативных игр, хотя в библиотеке GOG у меня полно виндовых с расчётом на Wine.

anonymous
()

jcd, Behem0th, ZenitharChampion.

Апдейт до 4.8 частично исправил проблему. За первые несколько часов вылезло только вот это:

Oct  3 21:03:48 localhost kernel: [11158.982477] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11158.982481] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11158.982539] [drm:radeon_gem_object_create [radeon]] *ERROR* Failed to allocate GEM object (0, 6, 4096, -22)
Oct  3 21:03:48 localhost kernel: [11158.983673] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11158.983676] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11158.983700] [drm:radeon_gem_object_create [radeon]] *ERROR* Failed to allocate GEM object (0, 6, 4096, -22)
Oct  3 21:03:48 localhost kernel: [11159.239125] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.239128] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.239185] [drm:radeon_gem_object_create [radeon]] *ERROR* Failed to allocate GEM object (0, 6, 4096, -22)
Oct  3 21:03:48 localhost kernel: [11159.239222] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.239224] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.239242] [drm:radeon_gem_object_create [radeon]] *ERROR* Failed to allocate GEM object (0, 6, 4096, -22)
Oct  3 21:03:48 localhost kernel: [11159.364697] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.364700] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.364731] [drm:radeon_gem_object_create [radeon]] *ERROR* Failed to allocate GEM object (0, 6, 4096, -22)
Oct  3 21:03:48 localhost kernel: [11159.364758] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.364760] [TTM] Illegal buffer object size
Oct  3 21:03:48 localhost kernel: [11159.364777] [drm:radeon_gem_object_create [radeon]] *ERROR* Failed to allocate GEM object (0, 6, 4096, -22)

В последствии же карта опять повисла:

ct  3 21:58:42 localhost kernel: [14453.533531] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  3 21:58:46 localhost kernel: [14457.093719] pcieport 0000:00:02.0: AER: Uncorrected (Fatal) error received: id=0010
Oct  3 21:58:46 localhost kernel: [14457.093731] pcieport 0000:00:02.0: PCIe Bus Error: severity=Uncorrected (Fatal), type=Transaction Layer, id=0010(Requester ID)
Oct  3 21:58:46 localhost kernel: [14457.093734] pcieport 0000:00:02.0:   device [8086:2f04] error status/mask=00004020/00000000
Oct  3 21:58:46 localhost kernel: [14457.093737] pcieport 0000:00:02.0:    [ 5] Surprise Down Error   
Oct  3 21:58:46 localhost kernel: [14457.093739] pcieport 0000:00:02.0:    [14] Completion Timeout     (First)
Oct  3 21:58:47 localhost kernel: [14458.143497] pcieport 0000:00:02.0: AER: Device recovery failed
Oct  3 21:58:56 localhost kernel: [14467.136310] radeon 0000:02:00.0: ring 0 stalled for more than 10115msec
Oct  3 21:58:56 localhost kernel: [14467.136315] radeon 0000:02:00.0: GPU lockup (current fence id 0x00000000000e0be1 last fence id 0x00000000000e0be6 on ring 0)
Oct  3 21:58:56 localhost kernel: [14467.640351] radeon 0000:02:00.0: ring 0 stalled for more than 10619msec
Oct  3 21:58:56 localhost kernel: [14467.640356] radeon 0000:02:00.0: GPU lockup (current fence id 0x00000000000e0be1 last fence id 0x00000000000e0be6 on ring 0)

Есть подозрение, что это связано с температурой, потому что кулер был на довольно низких оборотах и температура всё время держалась около 80C. В покое же она всё равно ниже 50C не падает.

hateyoufeel ★★★★★
() автор топика
Последнее исправление: hateyoufeel (всего исправлений: 1)
Ответ на: комментарий от hateyoufeel

У меня hd6970 и до 100С грелась (по паре-тройке часов подряд), ей лет ~5 уже - ничего, жива-здорова. Работала как часы, сейчаc 480 греется (до скольки не смотрел, но те же 80 - наверняка) и работает как часы.

handbrake ★★★
()
Последнее исправление: handbrake (всего исправлений: 1)
Ответ на: комментарий от anonymous

Само собой. Но это определённо регрессия в сравнении с fglrx.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от hateyoufeel

Ничего кроме как написать багрепорт посоветовать не могу. Тот факт что у меня тоже 7950 и такой ошибки нет ничего тебе не даст.

В качестве эксперимента. В ядро 4.9 добавили поддежку твоей карты в amdgpu драйвер. Можешь попробовать собрать ядро 4.9 с включением экспериментальной поддержки GCN 1.0.

Behem0th ★★★★★
()
Ответ на: комментарий от Behem0th

В качестве эксперимента. В ядро 4.9 добавили поддежку твоей карты в amdgpu драйвер. Можешь попробовать собрать ядро 4.9 с включением экспериментальной поддержки GCN 1.0.

Попробую это сделать, да. На похорониксе сегодня как раз статья про GCN1.0 с Radeon vs AMDGPU вышла.

http://www.phoronix.com/scan.php?page=article&item=amdgpu-rad-49&num=3

Только нифига не ясно как у AMDGPU со стабильностью на этих картах.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от Behem0th

А насчет стабильности: у тебя и сейчас проблемы.

Это не только у меня, это, судя по всему, у всех. В багзилле довольно много багрепортов с похожими симптомами.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от anonymous

Это первый релиз, есть шанс что дальше оптимизируют.

Behem0th ★★★★★
()
Ответ на: комментарий от anonymous

Везёт тебе, анонимус. Я и на интеле их ловил.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от Jameson

Копай в сторону nvidia.

Яростно плюсую мнение этого джентельмена. На пингвиньем десктопе у nvidia просто нет альтернатив. На ноутах, по слухам, придется жрать кактус intel с их полуработающими драйверами (однако для терминала в иксах этого с головой).

kawaii_neko ★★★★
()
Ответ на: комментарий от Behem0th

В ядро 4.9 добавили поддежку твоей карты в amdgpu драйвер. Можешь попробовать собрать ядро 4.9 с включением экспериментальной поддержки GCN 1.0.

Я заглянул в ядерный git, там 4.9 ещё даже не сформирована. Плюс туда не вошли эти изменения, они всё ещё в drm-next, и мне что-то ссыкотно оттуда ядро использовать.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от Behem0th

Если интересно, я запустил свежий amdgpu. Его вчера в linux-next замержили. Экран гаснет сразу при запуске kms. Об иксах речи вообще не идёт. В логах нытьё о проваленных тестах. Такие дела.

hateyoufeel ★★★★★
() автор топика
Последнее исправление: hateyoufeel (всего исправлений: 2)
Ответ на: комментарий от hateyoufeel

Я не знаю. Для себя решил не тестить раньше 4.10.

Novell-ch по идее должен знать, он собирает. Ты кстати зря проигнорировал его пост выше. ИМХО стоит скачать и попробовать его лайвсд.

Behem0th ★★★★★
()
Последнее исправление: Behem0th (всего исправлений: 1)
Ответ на: комментарий от Behem0th

ну укоды давно уже влиты в мастер, если там берут из гита их, или хотя бы они августовские то должно работать. Ну на ранних рц у меня тоже было не все гладно, помогала указание dpm=0 модулю amdgpu, но последние пару недель все четко

Novell-ch ★★★★★
()
Ответ на: комментарий от Behem0th

Я забыл про него. Но в любом случае, скорее всего из коробки его livecd не заработает. У меня две карты и пять мониторов (на самом деле меньше, но 4к мониторы в лялехе определяются за два).

hateyoufeel ★★★★★
() автор топика
Последнее исправление: hateyoufeel (всего исправлений: 1)
Ответ на: комментарий от hateyoufeel

на самом деле меньше, но 4к мониторы в лялехе определяются за два

Ты используешь hdmi или dp? В dp для работы 4к мониторов использовалось MST (Multi-Stream Transport) из-за которого 4к как раз видится как 2 монитора. Для интел дров David Airlie запилил поддержку MST, и вроде были разговоры про radeon. Я думал что уже починили и все работает, а вон оно как.

Behem0th ★★★★★
()
Последнее исправление: Behem0th (всего исправлений: 1)
Ответ на: комментарий от Behem0th

Там это зависит от пропускной способности канала. У меня монитор из старых, там без нескольких логических экранов никак.

hateyoufeel ★★★★★
() автор топика
Ответ на: комментарий от Behem0th

Да-да, но нужно, чтобы обе стороны это поддерживали. Я пока не настроен менять мониторы.

hateyoufeel ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.