LINUX.ORG.RU

Как понять подыхает ли диск?


0

0

Вначале в свежескачанном через торрент образе Ubuntu обнаружились ошибки. Скачал повторно пару мегабайт, заработало. Часов через 6 отказался включаться VirtualBox. Отчаявшись понять в каком конфиге ошибка или что висит в памяти и не даёт его запустить, я перезагрузился. На диске, который /home, нашло кучу ошибок. Непонятно откуда они там взялись, так как я последний раз его проверял с -f (force) 8 дней назад и с тех пор отключений питания не было, и ничего деструктивного под рутом не запускал.

Вопрос: что могло вызвать ошибки на диске и как это выяснить?

Диски:
/dev/hda6 on / type ext3 (rw,noatime)
/dev/hda1 on /c type vfat (ro,noexec,nosuid,nodev,noatime,codepage=866,utf8)
/dev/hda5 on /d type vfat (ro,noexec,nosuid,nodev,noatime,codepage=866,utf8)
/dev/hdb1 on /home type ext3 (rw,noatime)
сбои только на последнем.

Система Gentoo, ядро x86_64-2.6.22-r8

★★★★
Ответ на: комментарий от acheron

пакет smartmontools или около команда из под рута smartctl --all /dev/hdb

пачка=uppsing

anonymous
()
Ответ на: комментарий от tailgunner

В /var/log/messages

Позавчера 4 раза:
hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error }
hdb: dma_intr: error=0x84 { DriveStatusError BadCRC }
ide: failed opcode was: unknown
а затем
hda: DMA disabled
ide0: reset: success

Вчера несколько десятков раз:
attempt to access beyond end of device
hdb1: rw=1, want=2696573982, limit=390716802
Buffer I/O error on device hdb1, logical block 1348286990
lost page write due to I/O error on hdb1
с различными want,
затем многократно
EXT3-fs error (device hdb1): ext3_free_blocks_sb: bit already cleared for block 82964959
потом снова attempt to access beyond end of device и bit already cleared вперемешку

и в итоге
mlnet[7969]: segfault at 0000000000000007 rip 000000000059aca8 rsp 00007fffa3945290 error 4

после чего ошибки прекратились.

Это mlnet виноват, или ошибки -- только следствие?

acheron ★★★★
() автор топика
Ответ на: комментарий от acheron

>attempt to access beyond end of device
>hdb1: rw=1, want=2696573982, limit=390716802

Похоже fs больше раздела?

anonymous
()
Ответ на: комментарий от acheron

>hdb: dma_intr: status=0x51 { DriveReady SeekComplete Error }
>hdb: dma_intr: error=0x84 { DriveStatusError BadCRC }
>ide: failed opcode was: unknown

> а затем

> hda: DMA disabled
> ide0: reset: success

Диск дохнет. Рекомендуются особенно регулярные бэкапы.

> Это mlnet виноват, или ошибки -- только следствие?

Следствие, ИМХО - просто mlnet генерил дисковый трафик.

tailgunner ★★★★★
()

Может быть просто проблемы с шлейфом/разъемом винта или с памятью.
Комп и винт какой давности?

>attempt to access beyond end of device
>hdb1: rw=1, want=2696573982, limit=390716802

А это уже совсем не хорошо, можете перемонтировать /home в ro и снова проверять...

mky ★★★★★
()
Ответ на: комментарий от mky

> Может быть просто проблемы с шлейфом/разъемом винта

Выдернул шлейф и воткнул покрепче. 7 часов уже работает без сбоев.

> или с памятью.

А перед этим гонял memtest86. Ничего не нашёл.

> Комп и винт какой давности?

Винту полгода, матери полтора, процессору два с половиной. Памяти -- полгода или неделя. Поэтому сомневаюсь, что сыпется. Тем более smartctl --all /dev/hdb (забыл сказать спасибо анонимусу) ничего подозрительного не нашёл. Буду надеяться, что дело в шлейфе.

>>attempt to access beyond end of device >>hdb1: rw=1, want=2696573982, limit=390716802

> А это уже совсем не хорошо, можете перемонтировать /home в ro и снова проверять...

Проверял несколько раз с -f, всё нормально.

acheron ★★★★
() автор топика
Ответ на: комментарий от anonymous

В ссылке скобочки правильные - движок сайта их криво обработал. Для попадания на нужный сайт копируй url целиком со скобочками и окончанием

anonymous
()
Ответ на: комментарий от riko

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   160   160   050    Pre-fail  Offline      -       200
  3 Spin_Up_Time            0x0007   121   121   024    Pre-fail  Always       -       294 (Average 280)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       42
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   140   140   020    Pre-fail  Offline      -       29
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       2628
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       42
192 Power-Off_Retract_Count 0x0032   100   100   050    Old_age   Always       -       152
193 Load_Cycle_Count        0x0012   100   100   050    Old_age   Always       -       152
194 Temperature_Celsius     0x0002   125   125   000    Old_age   Always       -       44 (Lifetime Min/Max 21/53)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       43

Я правильно понимаю, что скорому отказу в строке Start_Stop_Count
соответствует высокое RAW_VALUE, а VALUE или WORST должны быть ниже THRESH?

acheron ★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.