LINUX.ORG.RU

Проблема с HDD? I/O Error


0

1

Доброго времени суток. Имею такую проблему: после длительного простоя ПК имею ошибки:
bash на все команды говорит: «Файловая система доступна только для чтения», иногда «Ошибка ввода/вывода».
В dmesg висит:

[sda] CDB: Read(10): 28 00 00 cc 6a 98 00 00 08 00
end_request: I/O error, dev sda, sector 13396632
[sda] Unhandled error code
Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Проверил диск при перезагрузке, на root получил 1.1% non-contiguous, на home 23.8% non-contiguous. Не знаю, как на эти non-contiguous реагировать.
badblock сказал, что все хорошо.
SMART говорит следующее:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   187   186   021    Pre-fail  Always       -       1625
  4 Start_Stop_Count        0x0032   092   092   000    Old_age   Always       -       8821
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   085   085   000    Old_age   Always       -       11076
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1624
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       282
193 Load_Cycle_Count        0x0032   093   093   000    Old_age   Always       -       323579
194 Temperature_Celsius     0x0022   096   091   000    Old_age   Always       -       51
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0009   200   200   051    Pre-fail  Offline      -       0
 
 
Error 66 occurred at disk power-on lifetime: 1844 hours (76 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.
 
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  01 51 00 ba 66 ea ed  Error: AMNF at LBA = 0x0dea66ba = 233465530
 
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 b8 66 ea 0d 08      17:33:57.300  READ DMA
  ef 10 02 00 00 00 00 08      17:33:57.300  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 00 08      17:33:57.300  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 00 08      17:33:57.297  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 08      17:33:57.296  SET FEATURES [Set transfer mode]
 
Error 65 occurred at disk power-on lifetime: 1844 hours (76 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.
 
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  01 51 00 ba 66 ea ed  Error: AMNF at LBA = 0x0dea66ba = 233465530
 
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 b8 66 ea 0d 08      17:33:53.829  READ DMA
  ef 10 02 00 00 00 00 08      17:33:53.829  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 00 08      17:33:53.829  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 00 08      17:33:53.826  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 08      17:33:53.825  SET FEATURES [Set transfer mode]
 
Error 64 occurred at disk power-on lifetime: 1844 hours (76 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.
 
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  01 51 00 ba 66 ea ed  Error: AMNF at LBA = 0x0dea66ba = 233465530
 
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 b8 66 ea 0d 08      17:33:50.747  READ DMA
  ef 10 02 00 00 00 00 08      17:33:50.747  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 00 08      17:33:50.747  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 00 08      17:33:50.744  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 08      17:33:50.744  SET FEATURES [Set transfer mode]
 
Error 63 occurred at disk power-on lifetime: 1844 hours (76 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.
 
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  01 51 00 ba 66 ea ed  Error: AMNF at LBA = 0x0dea66ba = 233465530
 
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 b8 66 ea 0d 08      17:33:47.665  READ DMA
  ef 10 02 00 00 00 00 08      17:33:47.665  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 00 08      17:33:47.665  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 00 08      17:33:47.662  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 08      17:33:47.661  SET FEATURES [Set transfer mode]
 
Error 62 occurred at disk power-on lifetime: 1844 hours (76 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.
 
  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  01 51 00 ba 66 ea ed  Error: AMNF at LBA = 0x0dea66ba = 233465530
 
  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 b8 66 ea 0d 08      17:33:44.494  READ DMA
  ef 10 02 00 00 00 00 08      17:33:44.494  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 00 08      17:33:44.494  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 00 08      17:33:44.491  IDENTIFY DEVICE
  ef 03 46 00 00 00 00 08      17:33:44.490  SET FEATURES [Set transfer mode]
 
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     11076         -
# 2  Short offline       Completed without error       00%     11044         -
P.S. ОС Debian
Linux nik 3.0.0-1-amd64 #1 SMP Sat Aug 27 16:21:11 UTC 2011 x86_64 GNU/Linux
На Дебиан перелез максимум месяц назад с Арча. Там такая же проблема была, но тогда я ее никак не диагностировал.


Хотел на домашний компютер дебиан поставить, были постоянные ошибки I/O, но не только жеский диск, но и на флешку. Почти всегда если записать на флешку какую-то информацию, часть даных просто напросто пропадала.
Времени и скорости интернета не хватило чтоб скачать другой дистрибутив.

ymuv ★★★★
()

Для начала обрадую: в критических параметрах по смарту нули. Это значит с поверхностью и интерфейсом пока всё ОК.

Вы не указали модель диска, но мои телепатические способности указывают на WD EARS(судя по отработаным часам), то есть семейство advanced-format зелёных WD'шек.

Далее: температура диска 51 - это много. Не больше 40 надо.

Load_Cycle_Count - 323579: открываем гугл и гуглим статью на хабре и утилиту wdidle3.exe

Сколько скорость записи на диск? Разделы у него выровняны по секторам?

Скорее всего появилось пара бедов(у меня вот недавно на таком же зелёном WD с примерно таким же сроком наработки появились), надо вылечить утилитой Victoria или MHDD способом remap.

Удачи.

Gordon01 ★★
()

нон-контигиоус - это фрагментация, ничего страшного. Это не потеря данных.

ZenitharChampion ★★★★★
()
Ответ на: комментарий от unanimous

> кабели проверь

UDMA_CRC_Error_Count - 0

Проблем с кабелем нет

Gordon01 ★★
()
Ответ на: комментарий от Gordon01

Спасибо за развернутый ответ.
Модель моего диска:

Western Digital Scorpio Blue Serial ATA family
Device Model:     WDC WD3200BEVT-22ZCT0
С парковкой головок разобрался, выключил ее вовсе через hdparm.
Сделал так радикально, чтобы уж наверняка проверить. Думаю, это решение временное.
Через MHDD просканил диск (без ERASE и REMAP), плохих блоков не нашел.
Все сектора уложились в 3 минимальных задержки (серым цветом, времена задержек не помню).
С температурой попробую справиться, спасибо.
По поводу скорости диска (это с отключенными парковками):
time dd if=/dev/zero of=/home/nik/download/test2.out bs=8k count=2000000 && time sync
2000000+0 записей считано
2000000+0 записей написано
 скопировано 16384000000 байт (16 GB), 375,369 c, 43,6 MB/c

real	6m18.429s
user	0m0.848s
sys	1m8.068s

real	0m13.434s
user	0m0.000s
sys	0m0.016s

niklep
() автор топика
Ответ на: комментарий от niklep

> С парковкой головок разобрался, выключил ее вовсе через hdparm.
Она там полностью не отключается. Остается еще фирменная парковка, невидимая программно, но отчетливо слышимая. Проверять по полю Load_Cycle_Count в смарте (raw-значение не должно увеличиваться), отключать в wdidle3.

WD3200BEVT

С температурой попробую справиться


Если это ноутбук - 45..50C вполне нормально.

Как вариант - попробовать погонять этот диск с другим контроллером/материнской платой.

Suigintou ★★★★★
()
Ответ на: комментарий от niklep

парковка отключается только из ДОСа утилитой wdidle3.exe, я же говорил... на хабре есть статья.

а вообще, странно. Кстати, я заремапил блок секторов, но мой винт снова начинает глючить.

что же за WD?!

Gordon01 ★★
()
Ответ на: комментарий от Suigintou

Как ни странно, но, не пользуясь wdidle3, я добился, что за 14 последних часов число парковок не выросло ни на единицу. Так что этот вопрос закрываю.

Кстати, я заремапил блок секторов, но мой винт снова начинает глючить.

Как бы Ваш хард скоро совсем не отказал...

Свой бук не выключаю вторые сутки подряд, пока все стабильно.

niklep
() автор топика
Ответ на: комментарий от niklep

Так это у вас ещё и бук?! Ну тогда такое значение Load_Cycle_Count ещё более-менее, хотя всё равно многовато.

А с моим реально какие-то глюки начались, чтож такое.

Gordon01 ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.