LINUX.ORG.RU

Зависает Линукс, помогите найти причину


0

0

Всем привет!

Относительно недавно переставли Gentoo. Теперь он периодически зависает. Через какое время - всегда разное. От чего зависит - непонятно. Виснет так: поначалу не работает переключение окон, потом элеметны управления, потом система вся может замерзнуть. Может сразу все зависнуть так, что вообще ничего не работает. Иногда реагирует на Ctrl-Alt-Backspace, иногда нет; то же с кнопкой выключения; то же с SysRq комбинациями. Если реагирует на кнопку выключения, обычно потом застопаривается на выключении transmission (torrent client) который у меня висит демоном. Иногда на отключении свопа. В этом случае помогает Alt+SysRq+S (sync) и затем Alt+SysRq+B (reboot). То есть soft-reset помогает. Хотя после этого идет восстановление файловой системы.
Где копать?

Вот некоторая инфа:
Linux lix 2.6.34-gentoo-r1-lix-k02 #1 SMP PREEMPT Tue Jun 29 20:15:58 EEST 2010 i686 Intel(R) Core(TM)2 CPU 6600 @ 2.40GHz GenuineIntel GNU/Linux
xorg-server 1.8.0
KDE 4.4.2
nvidia-drivers-195.36.24

Вот недавно зависло. Зависло намертво. Я попробовал Ctrl-Alt-Backspace - глухо, потом конпку power - подождал пару секунд - глухо, потом зажал кнопку на 4 сек и комп погас. Вот логи с того места:

# cat /var/log/messages
...
Jul 4 17:00:51 lix ntpd[2535]: Listen normally on 9 eth0 93.74.89.115 UDP 123
Jul 4 17:00:52 lix kernel: [ 3267.305027] eth0: no IPv6 routers present
Jul 4 17:01:20 lix kernel: [ 3294.961035] NVRM: Xid (0001:00): 8, Channel 00000002
Jul 4 17:01:24 lix init: Switching to runlevel: 0
Jul 4 17:01:24 lix kernel: [ 3298.981958] NVRM: Xid (0001:00): 6, PE0000 032c 00000000 00000000 ffffffff 00000000
Jul 4 17:01:30 lix kernel: [ 3304.947630] transmission-da used greatest stack depth: 4544 bytes left
Jul 4 17:01:34 lix kernel: [ 3308.765207] squid used greatest stack depth: 4488 bytes left
Jul 4 17:01:34 lix squid[2574]: Squid Parent: child process 2576 exited with status 0
Jul 4 17:01:34 lix smartd[2551]: smartd received signal 15: Terminated
Jul 4 17:01:34 lix smartd[2551]: smartd is exiting (exit status 0)
Jul 4 17:01:34 lix ntpd[2535]: ntpd exiting on signal 15
Jul 4 17:01:36 lix kernel: [ 3311.005034] NVRM: Xid (0001:00): 8, Channel 0000001e

# cat /var/log/Xorg.0.log
...
[ 29.289] (**) AT Translated Set 2 keyboard: Device: «/dev/input/event2»
[ 29.293] (II) AT Translated Set 2 keyboard: Found keys
[ 29.293] (II) AT Translated Set 2 keyboard: Configuring as keyboard
[ 29.293] (II) XINPUT: Adding extended input device «AT Translated Set 2 keyboard» (type: KEYBOARD)
[ 29.293] (**) Option «xkb_rules» «evdev»
[ 29.293] (**) Option «xkb_model» «evdev»
[ 29.293] (**) Option «xkb_layout» «us»
[ 29.293] (**) Option «xkb_options» «terminate:ctrl_alt_bksp»
[ 3290.051] (WW) NVIDIA(0): WAIT (2, 6, 0x8000, 0x0000e7c8, 0x0000e8e4)
[ 3298.968] (WW) NVIDIA(0): WAIT (1, 6, 0x8000, 0x0000e7c8, 0x0000e8e4)

Еще ловил лог с помощью dstat
# cat dstat.log
---system-- ----interrupts--- ---procs--- ----total-cpu-usage---- --io/total- -dsk/total- --filesystem- ---file-locks-- ------memory-usage----- -swp/total- -net/total- ------sockets------ async
638 589 | 0 80 0 | 0 0 1| 6 1 93 0 0 0| 2 0 | 32k 0 | 4736 29517 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|4695B 28k|526 97 10 0 0| 0
467 503 | 0 70 0 | 0 0 0| 2 1 96 0 0 0| 6 0 | 72k 0 | 4736 29517 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|3811B 37k|526 97 10 0 0| 0
850 1894 | 63 70 0 | 1 0 0| 10 2 88 0 0 0| 6 4 | 96k 288k| 4736 29517 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|3205B 34k|526 97 10 0 0| 0
654 664 | 1 66 0 | 0 0 0| 6 2 92 0 0 0| 2 0 | 32k 0 | 4736 29519 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|3191B 25k|528 99 10 0 0| 0
449 421 | 0 66 0 | 0 0 0| 3 1 97 0 0 0| 0 0 | 0 0 | 4736 29519 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|5703B 18k|528 99 10 0 0| 0
521 629 | 0 67 0 | 0 0 0| 3 1 96 0 0 0| 0 0 | 0 0 | 4736 29519 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|4526B 24k|527 98 10 0 0| 0
512 663 | 0 103 0 | 0 0 0| 3 1 96 0 0 0| 2 0 | 32k 0 | 4736 29516 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|6668B 54k|525 96 10 0 0| 0
541 787 | 0 74 0 | 0 0 0| 2 1 97 0 0 0| 10 0 | 136k 0 | 4736 29516 | 70 2 47 25| 586M 86M 756M 593M| 0 1914M|3515B 36k|525 96 10 0 0| 0
510 531 | 0 73 0 | 0 0 0| 4 1 95 1 0 0| 2 12 |8192B 168k| 4736 29511 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|3841B 38k|525 96 10 0 0| 0
521 619 | 0 69 0 | 0 0 0| 3 1 96 0 0 0| 10 0 | 160k 0 | 4736 29511 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|3204B 32k|525 96 10 0 0| 0
620 753 | 0 77 0 | 0 0 12| 4 1 94 0 0 0| 4 0 | 40k 0 | 4704 29520 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|3419B 29k|531 102 10 0 0| 0
550 647 | 0 75 0 | 0 0 0| 3 1 96 0 0 0| 2 0 | 32k 0 | 4704 29523 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|4069B 38k|534 104 10 0 0| 0
654 1125 | 27 77 0 | 0 0 0| 6 1 92 0 0 0| 2 0 | 32k 0 | 4704 29522 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|5139B 29k|533 104 10 0 0| 0
996 1734 | 42 80 0 | 0 0 0| 12 4 84 0 0 0| 0 0 | 0 0 | 4704 29515 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|3786B 30k|526 98 10 0 0| 0
548 752 | 16 78 0 | 0 0 0| 4 1 94 1 0 0| 12 10 | 112k 272k| 4704 29509 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|3968B 35k|520 91 10 0 0| 0
618 1092 | 23 68 0 | 0 0 0| 4 2 94 0 0 0| 2 58 | 32k 232k| 4704 29505 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|3992B 26k|516 87 10 0 0| 0
893 2674 | 90 59 0 | 0 0 0| 7 4 89 0 0 0| 2 0 | 32k 0 | 4704 29499 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|2406B 27k|510 81 10 0 0| 0
1046 3172 | 88 56 0 | 0 0 0| 11 4 85 0 0 0| 0 0 | 0 0 | 4704 29494 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|1962B 28k|505 76 10 0 0| 0
729 1176 | 20 68 0 | 0 0 1| 9 3 87 1 0 0| 8 0 | 104k 0 | 4672 29480 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|2906B 37k|499 70 10 0 0| 0
878 2321 | 105 66 0 | 0 0 0| 6 3 90 0 0 0| 12 0 | 144k 0 | 4672 29476 | 70 2 47 25| 585M 86M 757M 594M| 0 1914M|3299B 31k|495 66 10 0 0| 0
1196 2337 | 51 67 0 | 0 0 0| 17 5 78 0 0 0| 2 14 | 32k 192k| 4672 29469 | 70 2 47 25| 585M 86M 756M 594M| 0 1914M|2951B 33k|488 59 10 0 0| 0

Какая еще инфа нужна - говорите.

Помогите разобраться, please!!!!

★★★★★

Последнее исправление: Kroz (всего исправлений: 1)
Ответ на: комментарий от different_thing

Угу,
нагрузочное тестирование!

Попробуй что ни буль большое покомпилять.
Запустить архивацию кучи больших файлов одновременно, посмотри будет глючить или нет.

Если будет голючить, то вытаскивай потихоньку лишнее железо, планки памяти и т.п.

dvalov
()
Ответ на: комментарий от dvalov

У меня такое было, проц греелся (и щас тоже греется дико, надо бы опять термопасту заменить). ТС, проверь на всякий случай температуру.

different_thing
()
Ответ на: комментарий от different_thing

> бы опять термопасту заменить

Менял 4 месяца назад. Хреновое какое-то охлаждение на материнке(

different_thing
()
Ответ на: комментарий от different_thing

Раз на повер плохо реагирует, то скорее так и есть

Что за чушь? На Power обычно реагирует acpid. Вот кабы он на Reset плохо реагировал... А вот выключение по удержанию кнопки Power в течение некоторого времени (обычно 4 сек) — это уже аппаратная операция.

GotF ★★★★★
()

Если всё это началось после переустановки, то советую поставить стабильное ядро, да и весь другой софт. А так да на перегрев похоже. Попробуй настроить lm_sensors и снимай каждую минуту температуру в файл.

GoNaX ★★★
()

По мне так смахивает на проблему с винтами. Было бы неплохо смарт посмотреть, прогнать проверку на бэды.

daemonpnz ★★★★★
()

Может быть видеокарта косячит, пробуйте поставить другую; прогоните memtest86, cpuburn.

anon_666
()

Работал в консоли. Переганял 78Gb с одного диска на другой, параллельно лазил в и-нете (links) и что-то делал emerge. Зависло. Но после перезагрузки процесс завершился. Копирование 78Gb на протяжении порядка часа - как по мне достаточная нагрузка.

Еще отмониторил все что можно было три винта, видеокарту, фаны:

# smartctl -A /dev/sda
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 062 051 006 Pre-fail Always - 53217176
3 Spin_Up_Time 0x0003 098 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1453
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 086 060 030 Pre-fail Always - 419056328
9 Power_On_Hours 0x0032 092 092 000 Old_age Always - 7282
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 098 098 020 Old_age Always - 2216
194 Temperature_Celsius 0x0022 043 055 000 Old_age Always - 43 (0 16 0 0)
195 Hardware_ECC_Recovered 0x001a 062 051 000 Old_age Always - 53217176
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 172 000 Old_age Always - 34
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 Data_Address_Mark_Errs 0x0032 100 253 000 Old_age Always - 0

#smartctl -A /dev/sdb
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 203 181 021 Pre-fail Always - 6850
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1707
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x000e 200 200 051 Old_age Always - 0
9 Power_On_Hours 0x0032 088 088 000 Old_age Always - 9486
10 Spin_Retry_Count 0x0012 100 100 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0012 100 100 051 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1705
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 406
193 Load_Cycle_Count 0x0032 159 159 000 Old_age Always - 125852
194 Temperature_Celsius 0x0022 115 108 000 Old_age Always - 37
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 1142
200 Multi_Zone_Error_Rate 0x0008 200 200 051 Old_age Offline - 0

# smartctl -A /dev/sdc
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 111 091 006 Pre-fail Always - 31044840
3 Spin_Up_Time 0x0003 096 095 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 2001
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 050 049 030 Pre-fail Always - 17115866303727
9 Power_On_Hours 0x0032 093 093 000 Old_age Always - 6512
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 098 098 020 Old_age Always - 2743
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 061 055 045 Old_age Always - 39 (Lifetime Min/Max 39/41)
194 Temperature_Celsius 0x0022 039 045 000 Old_age Always - 39 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 085 056 000 Old_age Always - 211226603
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 4
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 Data_Address_Mark_Errs 0x0032 100 253 000 Old_age Always - 0

На /dev/sda (старый 320 Gb) Raw_Read_Error_Rate, Seek_Error_Rate, Hardware_ECC_Recovered постоянно ростут, даже если ничего не делаешь
На /dev/sdc (тоже старый 320 Gb) Seek_Error_Rate и Hardware_ECC_Recovered постоянно ростут, даже если ничего не делаешь
/dev/sdb (относительно новый терабайтник) вроде впорядке

# sensors
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +56.0°C (high = +78.0°C, crit = +100.0°C)

coretemp-isa-0001
Adapter: ISA adapter
Core 1: +51.0°C (high = +78.0°C, crit = +100.0°C)

it8718-isa-0290
Adapter: ISA adapter
in0: +1.18 V (min = +0.00 V, max = +4.08 V)
in1: +1.92 V (min = +0.00 V, max = +4.08 V)
in2: +3.28 V (min = +0.00 V, max = +4.08 V)
in3: +2.88 V (min = +0.00 V, max = +4.08 V)
in4: +0.00 V (min = +0.00 V, max = +4.08 V) ALARM
in5: +0.00 V (min = +0.00 V, max = +4.08 V) ALARM
in6: +1.28 V (min = +0.00 V, max = +4.08 V)
in7: +3.10 V (min = +0.00 V, max = +4.08 V)
Vbat: +4.08 V
fan1: 719 RPM (min = 0 RPM)
fan2: 960 RPM (min = 0 RPM)
fan3: 0 RPM (min = 0 RPM)
temp1: +49.0°C (low = +127.0°C, high = +127.0°C) sensor = thermistor
temp2: +35.0°C (low = +127.0°C, high = +127.0°C) sensor = thermal diode
temp3: -2.0°C (low = +127.0°C, high = +127.0°C) sensor = thermistor
cpu0_vid: +1.325 V

Вроде ок

# nvclock -T
nVidia Geforce 7300GT
=> GPU temperature: 73C

Видяха с пассивным охлаждением. Да еще я выключил acpi в драйвере (уже включил).

memtest прогоню на досуге.

Вердикт? Винты? Видяха? Судя по тому, что в консоли относительно нормально было я так догадываюсь что видяха? Но, с другой стороны, раньше такого не было! Может ли компиляция nvidia drivers c acpi ТАК влиять?

Kroz ★★★★★
() автор топика
Ответ на: комментарий от different_thing

у меня, когда Celeron 1700 был (на ядре Willamette который), компиляция ядра стабильно вылетала с segmentation fault

причём ни перегрева, ни разгона не было - видимо, проц сам по себе кривой

Fracta1L
()

Врядли конечно, но может какой-нибудь процесс отжирает всю память и начинается дикое своппирование?

Попробуй отключить своп и смотреть расход памяти.

Nao ★★★★★
()

Пробуй обновлять биос. Проследи за температурой железа

ShTH
()
Ответ на: комментарий от Kroz

>#smartctl -A /dev/sdb

3 Spin_Up_Time 0x0003 203 181 021 Pre-fail Always - 6850

/dev/sdb (относительно новый терабайтник) вроде впорядке

странно, не находишь? на остальных этот параметр 0. и все-таки глянь кондеры на предмет беременности.

igels
()
Ответ на: комментарий от igels

а не, у меня тоже <>0, sda и sdc наверно просто не поддерживают?

igels
()
Ответ на: комментарий от Fracta1L

Возможно проблема с драйверами. Год назад пробовал FreeBSD 6, так тоже случайным образом вис.

cvs-255 ★★★★★
()

Kroz> недавно переставли Gentoo
Дальше можно не читать пока не загрузишься с live-cd и не подтвердишь наличие зависаний.

sdio ★★★★★
()
Ответ на: комментарий от sdio

> Врядли конечно, но может какой-нибудь процесс отжирает всю память и начинается дикое своппирование?
По выводам dstat вроде не заметно. Хотя я однажды обнаружил, что на swap что-то писалось. И это с моими-то 2Gb! (ничего тяжеловесного не использую)

Пробуй обновлять биос.

Нет. Раньше работало.


Проследи за температурой железа

Температура видеокарты великовата. Но опять же - раньше работало.

Дальше можно не читать пока не загрузишься с live-cd и не подтвердишь наличие зависаний.

И что дальше? Допустим зависаний нет (или есть), тогда что? Менять дистрибутив? Или менять весь системный блок. Как понять в чем конкретно проблема?

---

Купил новый жесткий диск; сейчас копирую данные с прицелом диски с плохим SMART вообще выбросить. Скомпилировал nvidia-drivers с поддержкой acpi. Открыл блок питания (дабы улучшить охлаждение). Пока зависаний не было. Субъективно - пропали после компиляции nvidia-drivers с acpi, но поскольку проблема плавающая, точно сказать нельзя. Живем, смотрим...

Kroz ★★★★★
() автор топика
Ответ на: комментарий от Kroz

Kroz> И что дальше? Допустим зависаний нет (или есть), тогда что?

Тогда ты знаешь проверять ли железо или софт.

sdio ★★★★★
()
Ответ на: комментарий от sdio

Отключил подозрительные винты. Все равно виснет.
Сегодня разбирал комп. На видяхе обнаружил два вздутых кондёра. Думаю, дальша продолжать пока не стОит...

Всем спасибо за ответы!

P. S. А жаль что не нашли как в Линуксе локализовать проблему подобного рода :(

Kroz ★★★★★
() автор топика
Ответ на: комментарий от anon_666

Таки да.

# cat /var/log/messages
...
Jul 9 01:37:10 lix kernel: [ 6315.863352] nvclock:12423 freeing invalid memtype f4000000-f4010000
Jul 9 01:37:10 lix kernel: [ 6315.896993] nvclock:12423 freeing invalid memtype f4010000-f4030000
Jul 9 01:37:11 lix kernel: [ 6316.187432] nvclock:12424 freeing invalid memtype f4000000-f4010000
Jul 9 01:37:11 lix kernel: [ 6316.219217] nvclock:12424 freeing invalid memtype f4010000-f4030000
Jul 9 01:37:18 lix kernel: [ 6323.632984] nvclock:12425 freeing invalid memtype f4000000-f4010000
Jul 9 01:37:18 lix kernel: [ 6323.666501] nvclock:12425 freeing invalid memtype f4010000-f4030000
Jul 9 01:37:19 lix kernel: [ 6324.386891] nvclock:12426 freeing invalid memtype f4000000-f4010000
Jul 9 01:37:19 lix kernel: [ 6324.422998] nvclock:12426 freeing invalid memtype f4010000-f4030000
Jul 9 01:37:20 lix kernel: [ 6325.261958] nvclock:12427 freeing invalid memtype f4000000-f4010000
Jul 9 01:37:20 lix kernel: [ 6325.299142] nvclock:12427 freeing invalid memtype f4010000-f4030000
...

Kroz ★★★★★
() автор топика

ЛОГ ПРОБЛЕМЫ

Конденсаторы на видяхи были успешно перепаяны но проблему это не решило. Но есть хорошие новости:

УДАЛОСЬ ПОЙМАТЬ ЛОГ ОШИБКИ

Так случилось что /var/log/messages выводился на экран в момент зависания, а под рукой был фотоаппарат для скринщота ;) . Похоже что дело в дисковой подсистеме:

ВЫДЕРЖКА ИЗ ЛОГА ПРОБЛЕМЫ:

ata2: failed to reset engine (errno=-5)
ata2: SATA link up 3.0Gbps (SStatus 123 SControl 29)
ata1.00: exception Emask 0x0 SAct 0x3 SErr 0x0 action 0x6 froxen
ata1.00: cmd 61/08:00:76:e9:8c/00:00:03:00:00/40 tag 0 ncq 4096
res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: cmd 61/08:08:8e:e9:8c/00:00:03:00:00/40 tag 1 ncq 4096
res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1: hard resetting link
ata1: failed to resume link (SControl 29)
ata2.00: qc timeout (cmd 0xec)
ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
ata2.00: revalidation failed (errno=-5)
ata2: hard resetting link
ata2: failed to resume link (SControl 29)
ata2: failed to reset engine (errno=-5)
ata2: SATA link up 3.0Gbps (SStatus 123 SControl 29)
ata1: failed to reset engine (errno=-5)
ata1: SATA link up 3.0Gbps (SStatus 123 SControl 29)
ata1.00: qc timeout (cmd 0xec)
ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
ata1.00: revalidation failed (errno=-5)
ata1: hard resetting link
ata1: failed to resume link (SControl 29)

У кого какие идеи?

Kroz ★★★★★
() автор топика
Ответ на: комментарий от tim239

> А где они лучше? Когда бажат железо или драйвера, отладка - это большая головная боль.

Ага. Особенно, когда считается, что крэш-дампы - не нужны.

anonymous
()
Ответ на: комментарий от tim239

>ata1: hard resetting link

ata2: hard resetting link

Как бы дисковый контроллер не накрылся, пробуйте спиртом протереть все сата-разьёмы.

anon_666
()
Ответ на: ЛОГ ПРОБЛЕМЫ от Kroz

У меня такая идея, может и бредовая: система использует своп, внезапно либо из-за проводка, либо из-за неисправного SATA-контроллера винчестер со свопом отваливается, и система зависает.

tim239 ★★
()

Такая ж фигня

пару дней назад такая же фигня началась. то рут отваливается, то ядро паникует при запуске тяжёлых opengl приложений (типа Unigine tropics). а щас вот иксы подмерзают на пару секунд при прокрутке в фаерфоксе и в dmesg появляются строчки типа Clocksource tsc unstable (delta = 4398046176179 ns) NVRM: Xid (0006:00): 3, C 00000001 SC 00000002 M 00000860 Data ffffff78

PS. gentoo, nvidia 9600 gt, 2.6.34-zen1 PS2. перепробовал кучу ядер и версий драйверов - без результата, Sabayon с livecd ведёт себя аналогично. на каких ещё livecd можно 3d ускорение проверить?

iceberk
()
Ответ на: комментарий от iceberk

Тут бы я уже материнку на предмет вздутых конденсаторов посмотрел. Я у себя на видюхе уже находил :)

P. S. У меня с Clocksource все впорядке

Kroz ★★★★★
() автор топика
Ответ на: комментарий от Kroz

да, походу в кондёрах дело (обнаружил пару вздутых возле слота для видюхи). поменял матплату, всё отлично стало. никогда не покупайте MSI :)

iceberk
()
Ответ на: ЛОГ ПРОБЛЕМЫ от Kroz

Решение

Знач так. Могу на 99.99% сказать что проблема локализирована.

Кому интересно:

1. У меня на материнке 2 контроллера SATA один был отключен. Это устранило 70% зависаний.

2. Появилась проблема, которая завершалась сообщениями ядра «Disabling IRQ #19» (IRQ 19 - там где висят драйверы SATA). Порты SATA менял, шнурки менял - побоку. Когда проблема начала воспроизводиться буквально сразу после загрузки, замена на другой HDD устранило проблему. А после некоторого времени и возврат предыдущего HDD был успешным. Вывод - перегрев жесткого диска. Жесткий диск - терабайтник WD Green Power. Внимательно присмотревшись видим, что у него чипы на плате обращены в сторону «банок», в то время как на подавляющем большинстве HDD - во внешнюю сторону, что обеспечивает лучший обдув - читай охлаждение.

Спасибо всем, кто откликнулся. :beer:

Во время решения проблемы узнал много чего интересного про работу с дисковой системе в Линукс.

Kroz ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.