LINUX.ORG.RU

GPU at * has fallen off the bus

 , , , ,


1

3

С недавнего времени начала виснуть система, рандомно 1-5 раз в день.

Логи:

http://pastebin.ubuntu.com/8135098/

http://pastebin.ubuntu.com/8135099/ (Только что)

Система debian unstable

Ядро:

$ uname -a
Linux i7-power 3.14-2-amd64 #1 SMP Debian 3.14.15-2 (2014-08-09) x86_64 GNU/Linux

340.32 / GeForce GTX 550 Ti / xorg 1.12.4 (11204000)

Сначала гаснет дисплей, через некоторое время перестаёт играть музыка.

На перегрев проверял, перегреть не удалось.

Перед падением система немного тормозит, плюс открыта куча вкладок в браузере, в т.ч. с флешем. Но это может быть никак не связано.

В оффтопе раньше работало(как и в линуксе), а после начала падений я оффтоп не использовал. Поэтому проблему с железом пока не исключаю.

Как такое чинить?



Последнее исправление: cetjs2 (всего исправлений: 1)

Версия nvidia драйверов > 331.*, я угадал?

UP. А, Вы её указали даже, не заметил. Попробуйте версию 331. драйверов и баг уйдёт, уверен.

Перед падением система немного тормозит

Потому что ядро беспрерывно в лог пишет, это сильно нагружает I/O.

backbone ★★★★★
()
Последнее исправление: backbone (всего исправлений: 2)

С железом у тебя все в порядке, не заморачивайся. Пробуй откатывать драйвера на 331 версию

sehellion ★★★★★
()
Ответ на: комментарий от anonymous

кто-то еще конфигурирует ядра руками? ого-ого

anonymous
()
Ответ на: комментарий от anonymous

Трудновоспроизводимый баг или несколько их, одно из проявлений описано в топике. Не знаю, что добавить. У меня, например, вопроизводится лишь на одной из 3-х железок с nVidia - с оптимусом (310M) после многократной загрузки-выгрузки драйвера (один из принципов работы оптимусов под GNU/Linux).

говорят, лечится HZ=1000 и force preemption в ядре

Надо попробовать на выходных такой вариант.

backbone ★★★★★
()

Сообщения про эту ошибку гуглятся, они были до появления 340. Поэтому это может быть проявление разных багов. Для HZ=1000 и force preemption нужно пересобрать ядро? Не лучшее решение.

nuke666
() автор топика
Ответ на: комментарий от anonymous

Добавил. Про результаты напишу. Так как падало обычно при большом аптайме, придётся подождать.

nuke666
() автор топика
Ответ на: комментарий от nuke666

Теперь компьютер просто перезагружается, в логах пусто. Уже второй раз за день. Единственное сообщение последнее:

Aug 26 10:32:12 i7-power kernel: [ 2954.184863] perf samples too long (2503 > 2500), lowering kernel.perf_event_max_sample_rate to 50000

nuke666
() автор топика
Ответ на: комментарий от nuke666

Если будете тестировать на 331-ой версии, отпишите, пожалуйста, о результатах, интересно.

У меня похожая проблема с >331.89, ещё подозреваю патчи Zen или TuxOnIce, буду проверять в эти выходные, прежде чем багрепортить.

backbone ★★★★★
()
Последнее исправление: backbone (всего исправлений: 1)
Ответ на: комментарий от backbone

циферки в бенчмарках не интересны, если оно не способно стабильно работат. дебажить и выискивать отсутствие регрессий ещё и в ядре под всеми типами нагрузок — так себе забава

anonymous
()
Ответ на: комментарий от anonymous

Интересны, если интересна отзывчивость на десктопе. Проблемы со стабильностью встречал только с BFS, поэтому не включаю его нигде. Дебажить нет смысла, если не замечено этих регрессий. А описанный в теме баг, ещё не доказано, что коррелирует с этими патчами, - лишь гипотеза, как может быть гипотезой и то, что эти версии драйверов вызывают проблемы и на ванильной ветке ядра.

backbone ★★★★★
()
Ответ на: комментарий от backbone

Дебажить нет смысла, если не замечено этих регрессий

те накатить патч просто так, и предаваться плацебо, якобы «стало лучше». нет, спасибо

anonymous
()
Ответ на: комментарий от anonymous

Патчи практически не меняются от версии к версии, Вы сами можете это посмотреть. Меняются лишь номера строк да имена функций, чтобы мержи проходили без конфликтов. Поэтому, достаточно провести тест однократно.

Вам никто и не предлагал, пожалуйста.

backbone ★★★★★
()
Ответ на: комментарий от backbone

это многое объясняет, тк подсистемы ядра активно перепиливаются

anonymous
()
Ответ на: комментарий от backbone

лечится HZ=1000 и force preemption

Костыльно лечится. Могут появится backtrace -> kernel panic в самый неожиданный момент. Во всяком случае, у меня было имено так.

Больше всего инфы нашел тут: https://devtalk.nvidia.com/default/topic/567297/linux/linux-3-10-driver-crash...

fang90 ★★★★★
()

С rcutree.rcu_idle_gp_delay=1 стало ещё хуже.

Сейчас собрал 3.17.0-rc2 с теми двумя параметрами, буду ждать.

fang90, всё равно неожиданнее уже некуда. Если не поможет, поставлю старый драйвер. Кроме этого других вариантов не вижу.

nuke666
() автор топика
Ответ на: комментарий от fang90

nouveau уже умеет энергосбережение и управление кулером? Вообще не хотелось бы, но как крайний вариант..

nuke666
() автор топика
Ответ на: комментарий от nuke666

не умеет, всё время на среднем уровне держит и то и то

и в 2d и в 3d медленнее блоба на видяхах трёх разных поколений, что у меня есть

anonymous
()
Ответ на: комментарий от nuke666

Хотя это старый баг, по идее это тут не при чём.

nuke666
() автор топика
Ответ на: комментарий от nuke666

nouveau уже умеет энергосбережение и управление кулером?

как это тебе поможет если ты запускаешь приложение которое _будет_ «гонять» видюху? Если ему не надо хитрого 3d, то интегршка справится и ничего не будет греться.

fang90 ★★★★★
()

Дополню первый пост. У меня компьютер(не ноут), как видно из первых строчек лога плата

Hardware name: MSI MS-7522/MSI X58 PLATINUM SLI(MS-7522), BIOS V3.9 01/29/2011

На ней кстати до сих пор не заработал спящий режим.

С новым ядром аптайм 20 часов уже, пока не падает.

nuke666
() автор топика
Ответ на: комментарий от nuke666

лог сохранился в файле

в логе ядро валится в nfs а не в блобе. пробуй с nouveau или vesa, скорее всего будет так же точно валиться

anonymous
()

Так, похоже это всё таки проблема с железом. В оффтопе после 20минут игры в thief компьютер ребутнулся. Теперь надо как-то выяснить что именно глючит.

nuke666
() автор топика
Ответ на: комментарий от nuke666

В оффтопе ... ребутнулся

Такое бывает и на рабочем железе.

А кто производитель видеокарты - MSI, ASUS, Gigabyte?... Palit, может быть?

Интересно также узнать, каковы результаты на <=331.89.

backbone ★★★★★
()
Ответ на: комментарий от backbone

Я добавил 4 кулера в корпус, с того момента пока не падало. Если это и перегрев, то странный. Из того, чью температуру можно увидеть ничего не перегревалось.

Если упадёт, поставлю старый драйвер.

nuke666
() автор топика
Ответ на: комментарий от anonymous

Вполне возможно. Опять повис, теперь точно не перегрев.

Зачем vesa? Старый драйвер можно, раньше то нормально было. Хотя вряд ли теперь какие-то манипуляции с софтом помогут.

nuke666
() автор топика
Ответ на: комментарий от anonymous

Если сейчас упадёт с 331.79, я поставлю старую видеокарту 8600.

nuke666
() автор топика
Ответ на: комментарий от nuke666

Драйвер не помог. На этот раз компьютер выключился, и не включался пока я не передёрнул питание. Начинаю подозревать блок питания. Год назад я уже менял его, потому что начались похожие глюки. Не могу точно вспомнить какие, но скорее всего тоже перезагружался. Но после замены всё работало около года исправно.

Поставил 8600, продолжаю наблюдать.

nuke666
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.