Всем привет!
Помогите, пожалуйста, побороть зависания системы!!!
Система зависает спонтанно: может неделю работать нормально, а может за день несколько раз зависнуть. Притом не то что зависает, а как-бы постепенно замерзает. Например, остановилось видео, окошки передвигаются, сворачиваются; новые программы не запускаются; потом перестают сворачиваться окошки; потом останавливаются индикаторы загрузки процессора и др. мониторы ; на кнопку выключения среагировало, но какой-то процесс в упор не хочет останавливаться и т. д. до тех пор пока не перестанет работать все кроме жесткого выключения (power на 4 секунды) или Magic Key.
Не вдаваясь во все подробности круг возможных причин сузился до дисковой подсистемы.
Удалось выяснить как ошибку воссоздать: берем DVD с большим файлом, начинаем копировать. Паралельно в браузере лазим по интернету. Через пару минут - зависание системы. Проблема проявляется не обязательно при копировании с DVD, например еще при качке торрентов или еще каких-то ситуациях, но воссоздать проблему получилость именно с помощью копирования с DVD.
Было выяснено, что после каждого зависания, всегда в SMART появляется ошибка. Вот она:
$ smartctl -l error /dev/sda
...
Error 688 occurred at disk power-on lifetime: 2155 hours (89 days + 19 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 00 00 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
37 00 01 ee 57 38 ea 08 1d+06:30:13.431 SET MAX ADDRESS EXT
27 00 00 ee 57 38 e0 08 1d+06:30:13.430 READ NATIVE MAX ADDRESS EXT
37 00 00 ee 57 38 ea 08 1d+06:30:12.675 SET MAX ADDRESS EXT
27 00 01 00 00 00 e0 08 1d+06:30:12.674 READ NATIVE MAX ADDRESS EXT
37 00 01 ee 57 38 ea 08 1d+06:29:59.842 SET MAX ADDRESS EXT
На всякий случай описание ключа -l:
-l TYPE, --log=TYPE Prints either the SMART Error Log, the SMART Self-Test Log, the SMART Selective Self-Test Log [ATA only], the Log Directory [ATA only], or the Background Scan Results Log [SCSI only]. The valid arguments to this option are:
error - [ATA] prints the Summary SMART error log. SMART disks maintain a log of the most recent five non-trivial errors. For each of these errors, the disk power-on lifetime at which the error occurred is recorded, as is the device status (idle, standby, etc) at the time of the error. ...
Что делалось:
- SATA шнурки менял;
- Жесткий диск - менял;
- Это продолжается уже года 2, за это время систему апгрейдил/переставлял несколько раз;
- Игрался с Legacy/Native режимами;
- Переводил диск из silent в performance и обратно.
Информация о диске:
$ smartctl -i /dev/sda
smartctl 5.40 2010-10-16 r3189 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Model Family: Hitachi Deskstar 7K1000.C
Device Model: Hitachi HDS721050CLA362
Serial Number: JPB530HN3A04AB
Firmware Version: JP2OA39C
User Capacity: 500 106 780 160 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Wed Apr 13 23:04:20 2011 EEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Индикаторы SMART (если чем-то поможет)
$ smartctl -A /dev/sda
smartctl 5.40 2010-10-16 r3189 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 099 099 016 Pre-fail Always - 3
2 Throughput_Performance 0x0005 134 134 054 Pre-fail Offline - 102
3 Spin_Up_Time 0x0007 120 120 024 Pre-fail Always - 192 (Average 190)
4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 745
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 138 138 020 Pre-fail Offline - 31
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 2155
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 744
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 745
193 Load_Cycle_Count 0x0012 100 100 000 Old_age Always - 745
194 Temperature_Celsius 0x0002 181 181 000 Old_age Always - 33 (Min/Max 17/41)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 92
Что это может быть? Куда смотреть?