LINUX.ORG.RU
ФорумAdmin

Сыпется винт или «непонятно»

 ,


1

5

Доброго всем времени!
В последнее время частенько ФС на домашнем debian сервере переходит в режим «read only». Перезагрузишь, недельку поработает и опять по новой. Сегодня опять столкнулся с такой проблемой.

root@debian:~# cat /var/log/syslog
Jan 21 01:05:11 debian kernel: [435566.750678] Buffer I/O error on device dm-0, logical block 15460095
Jan 21 01:05:11 debian kernel: [435566.750686] EXT4-fs warning (device dm-0): ext4_end_bio:250: I/O error -5 writing to inode 3673018 (offset 23592960 size 524288 starting block 15459968)
Jan 21 01:05:11 debian kernel: [435566.750700] sd 2:0:0:0: [sda] Unhandled error code
Jan 21 01:05:11 debian kernel: [435566.750704] sd 2:0:0:0: [sda]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Jan 21 01:05:11 debian kernel: [435566.750709] sd 2:0:0:0: [sda] CDB: Write(10): 2a 00 07 66 e8 00 00 00 80 00
Jan 21 01:05:11 debian kernel: [435566.750720] end_request: I/O error, dev sda, sector 124184576
Jan 21 01:05:11 debian kernel: [435566.750686] EXT4-fs warning (device dm-0): ext4_end_bio:250: I/O error -5 writing to inode 3673018 (offset 23592960 size 524288 starting block 15459968)
Jan 21 01:05:11 debian kernel: [435566.750903] sd 2:0:0:0: [sda] Unhandled error code
Jan 21 01:05:11 debian kernel: [435566.750906] sd 2:0:0:0: [sda]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Jan 21 01:05:11 debian kernel: [435566.750912] sd 2:0:0:0: [sda] CDB: Write(10): 2a 00 04 8f 96 d0 00 01 68 00
Jan 21 01:05:11 debian kernel: [435566.750922] end_request: I/O error, dev sda, sector 76519120
Jan 21 01:05:12 debian kernel: [435567.953239] Buffer I/O error on device dm-0, logical block 15440801
Jan 21 01:05:12 debian kernel: [435568.039455] Buffer I/O error on device dm-0, logical block 15440892
Jan 21 01:05:12 debian kernel: [435568.040333] Buffer I/O error on device dm-0, logical block 15440893
root@debian:~# dmesg
Ошибка сегментирования
root@debian:~# touch /tmp/test
Ошибка шины
root@debian:~# cat /var/log/dmesg
cat: /var/log/dmesg: Ошибка ввода/вывода
В линуксе я не гуру, но погуглив по инету по подобным ошибкам, пришел к выводу, что сыпется винт. Ради интереса прогнал винт Викторией и Mhdd по 2 раза. Никаких бэдов и косяков обнаружено не было. Подскажите пожалуйста, что это тогда может быть, и как это можно «вылечить»?



Последнее исправление: CeMKa (всего исправлений: 1)

Не вчитывался, но подобное может быть если шлейф отошёл немного.

turtle_bazon ★★★★★
()

Лечить покупкой нового винта, если что.

turtle_bazon ★★★★★
()
  • сменить SATA кабель
  • посмотреть S.M.A.R.T.
greenman ★★★★★
()
Ответ на: комментарий от lampslave

Кстати, да. У меня недавно сообщениея от винта в dmesg вылечились заменой вздутых электролитов в блоке питания и на мазерборде.

greenman ★★★★★
()

Ну да, судя по признакам это какая-то «плавающая» проблема в электронике либо самого диска, либо системного блока. Иногда бывают проблемные прошивки дисков, или может быть случайный сбой флэш-памяти контроллера на диске. Если mhdd проблем не нашел, то с поверхностью всё в порядке должно быть.

Kiborg ★★★
()
Ответ на: комментарий от Kiborg

Изначально стояло 2 диска. Когда начались описанные косяки, такие же «маты» были в логах на второй диск (sdb), и система опять же в read-only, хотя система стоит на sda. Подумал я «ну капец моим фильмам 500гб». Отмонтировал второй диск, натравил на него badblock, badblock прочитал диск с туевой-хучей ошибок. Загрузился с лайв сиди, проверил викторией и mhdd этот 500гб винт - ошибок не обнаружено. В итоге плюнул и убрал 500гб на полку, спустя неделю - то что описал выше :). Диски подключены через molex ((. Хорошо, попробую заменить БП. Поглядим что будет дальше.

CeMKa
() автор топика
Ответ на: комментарий от w1nner

ребутнулся, пока ставил smartctl в dmesg сыпется. smartctl так и не поставил (( удаленно игнорит команду ребута. Завтра вручную перезагружу (

[  596.120041] ata3: link is slow to respond, please be patient (ready=0)
[  601.104032] ata3: device not ready (errno=-16), forcing hardreset
[  601.104044] ata3: soft resetting link
[  601.376784] ata3.00: configured for UDMA/33
[  601.376806] ata3: EH complete
[  601.712499] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[  601.714680] ata3.00: BMDMA stat 0x26
[  601.716773] ata3.00: failed command: WRITE DMA
[  601.718886] ata3.00: cmd ca/00:f0:50:b2:07/00:00:00:00:00/e7 tag 0 dma 122880 out
[  601.718888]          res 51/84:f0:50:b2:07/84:01:07:00:00/e7 Emask 0x30 (host bus error)
[  601.723154] ata3.00: status: { DRDY ERR }
[  601.725571] ata3.00: error: { ICRC ABRT }
[  601.727656] ata3: soft resetting link
[  602.101477] ata3.00: configured for UDMA/33
[  602.101496] ata3: EH complete
[  602.738511] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[  602.740728] ata3.00: BMDMA stat 0x26
[  602.742824] ata3.00: failed command: WRITE DMA
[  602.744991] ata3.00: cmd ca/00:70:c8:a7:5a/00:00:00:00:00/e7 tag 0 dma 57344 out
[  602.744994]          res 51/84:70:c8:a7:5a/84:01:07:00:00/e7 Emask 0x30 (host bus error)
[  602.749390] ata3.00: status: { DRDY ERR }
[  602.751515] ata3.00: error: { ICRC ABRT }
[  602.753638] ata3: soft resetting link
[  603.017753] ata3.00: configured for UDMA/33
[  603.017772] ata3: EH complete

CeMKa
() автор топика
Ответ на: комментарий от CeMKa

Как доберешься физически до железа - грузись с live-cd/live-usb и смотри smartctl оттуда.

Если хотя бы 1 из показателей Reallocated sector count, Current pending sectors и Offline uncorrectable != нулю - винт накрывается. Если какой-то из этих показателей быстро растет и чтение с винта затруднено - поздравляю, бэкапить что-либо уже поздно - винту хана

Pinkbyte ★★★★★
()
Последнее исправление: Pinkbyte (всего исправлений: 1)

У меня такое недавно было на нулевом диске. Купил два новых HDD один из них начал сбоить: увеличивался счетчик SMART атрибута 188 timeout. Иногда было как у ТС и ФС уходила в ro. Пробовал всякое в итоге виноват оказался встроенный контролер SATA III в матери. Вот так.

uspen ★★★★★
()
Ответ на: комментарий от w1nner

lampslave greenman Pinkbyte Kiborg w1nner Добрался до компа, заменил переходники питания на ХДД, заменил SATA шлейф, переткнул с 1 SATA порта на 4й. Проверил БП на предмет вздутых кондеров - чисто. Посмотрел мать на предмет вздутых кондеров, заметил парочку подозрительных (отличаются от всех остальных формой). Вот фото кондеров: http://img.ranetka.ru/images/opt1421938190g.jpeg
http://img.ranetka.ru/images/bfi1421938267w.jpeg
http://img.ranetka.ru/images/jdv1421938362r.jpeg
http://img.ranetka.ru/images/rgh1421938497i.JPG
Что по фото скажете? вздуты-нет?
Час работы - полет нормальный, dmesg молчит, погонял 7гб файл записью на винт\чтением с винта. Далее выкладываю S.M.A.R.T

root@debian:~# smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-4-686-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.9
Device Model:     ST380811AS
Serial Number:    6PS0TG58
Firmware Version: 3.AAE
User Capacity:    80 026 361 856 bytes [80,0 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jan 22 21:44:42 2015 KRAT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (  430) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  27) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   119   097   006    Pre-fail  Always       -       205609142
  3 Spin_Up_Time            0x0003   095   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1390
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   086   060   030    Pre-fail  Always       -       462690354
  9 Power_On_Hours          0x0032   074   074   000    Old_age   Always       -       23266
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1394
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   061   053   045    Old_age   Always       -       39 (Min/Max 34/39)
194 Temperature_Celsius     0x0022   039   047   000    Old_age   Always       -       39 (0 15 0 0)
195 Hardware_ECC_Recovered  0x001a   067   046   000    Old_age   Always       -       84151367
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   199   000    Old_age   Always       -       318
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

CeMKa
() автор топика
Ответ на: комментарий от Pinkbyte

Если хотя бы 1 из показателей Reallocated sector count, Current pending sectors и Offline uncorrectable != нулю - винт накрывается.

Неверно. Current pending sectors может случиться из-за единовременного сбоя питания.

legolegs ★★★★★
()
Ответ на: комментарий от CeMKa

Насчёт конденсаторов ничего не скажу (разве только то, что они не в фокусе). Пусть работает, раз ошибки не сыпятся больше.

lampslave ★★
()
Ответ на: комментарий от CeMKa

Да, кондеры явно вздутые.
А насчет смарт, обрати особое внимание на Spin_Retry_Count
Число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута увеличивается, то велика вероятность неполадок с механической частью.

Seek_Error_Rate
Частота ошибок при позиционировании блока магнитных головок. Чем их больше, тем хуже состояние механики и/или поверхности жёсткого диска. Также на значение параметра может повлиять перегрев и внешние вибрации (например, от соседних дисков в корзине).

w1nner ★★★★★
()
Ответ на: комментарий от CeMKa

Выглядит норм, если шумов нет, то и поживёт ещё. Винт уже в зрелом возрасте, если 20к часов проработал, то и 40 отходит. Прогони самотестирование smartctl /dev/sda --test=long, время до конца тестирования видно через -i, результат через -l selftest. Вангую, что все проблемы от проводов или БП. Для проверки на беды - самый лучший спсобо - это smart. Все эти чекдиски и прочие нортонсимантеки - ненужное говно. Что smart не ловит - так это говнопитание и плохие кабели sata, это хорошо ловит деструктивный тест badblocks, если есть возможность - прогони его для спокойствия.

А бекапы у тебя должны быть в любом случае, автоматические. Если нету - хороший повод настроить.

legolegs ★★★★★
()
Ответ на: комментарий от w1nner

Seek_Error_Rate

На многих хардах это значение хитро закодировано и понять, что диск имеет ввиду затруднительно.

legolegs ★★★★★
()
Ответ на: комментарий от legolegs

Current pending sectors может случиться из-за единовременного сбоя питания.

Если он потом не обнулится - это значит что reallocated сектора закончились/недоступны. Встречал такое - current pending sector != 0, reallocated = 0, винт не стучит, но попытки чтения/записи сыпят ошибками.

Pinkbyte ★★★★★
()
Ответ на: комментарий от Pinkbyte

Чтобы они обнулились нужно дать харду такую возможность, записав что-то в нечитающийся сектор. Иногда даже удаётся сначала его считать, после множетсва попыток с dd или dd_rescue.

legolegs ★★★★★
()
Ответ на: комментарий от legolegs

Апну тему:
Cпустя неделю в dmesg опять вижу следующее:

root@debian:/# dmesg
[ 8719.051197] ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[ 8719.051364] ata4.01: BMDMA stat 0x46
[ 8719.051440] ata4.01: failed command: WRITE DMA EXT
[ 8719.051534] ata4.01: cmd 35/00:00:00:e0:12/00:04:01:00:00/f0 tag 0 dma 524288 out
[ 8719.051537]          res 51/84:00:00:e0:12/84:04:01:00:00/f0 Emask 0x30 (host bus error)
[ 8719.051801] ata4.01: status: { DRDY ERR }
[ 8719.051907] ata4.01: error: { ICRC ABRT }
[ 8719.052032] ata4: soft resetting link
[ 8719.335067] ata4.01: configured for UDMA/133
[ 8719.335097] ata4: EH complete
[ 8876.808591] ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[ 8876.808665] ata4.01: BMDMA stat 0x46
[ 8876.808704] ata4.01: failed command: WRITE DMA EXT
[ 8876.808758] ata4.01: cmd 35/00:00:00:10:18/00:04:01:00:00/f0 tag 0 dma 524288 out
[ 8876.808760]          res 51/84:00:00:10:18/84:04:01:00:00/f0 Emask 0x30 (host bus error)
[ 8876.808908] ata4.01: status: { DRDY ERR }
[ 8876.808948] ata4.01: error: { ICRC ABRT }
[ 8876.809003] ata4: soft resetting link
[ 8877.084237] ata4.01: configured for UDMA/133
[ 8877.084265] ata4: EH complete
[ 8878.333023] ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[ 8878.333097] ata4.01: BMDMA stat 0x46
[ 8878.333136] ata4.01: failed command: WRITE DMA EXT
[ 8878.333190] ata4.01: cmd 35/00:00:00:a0:19/00:04:01:00:00/f0 tag 0 dma 524288 out
[ 8878.333192]          res 51/84:00:00:a0:19/84:04:01:00:00/f0 Emask 0x30 (host bus error)
[ 8878.333337] ata4.01: status: { DRDY ERR }
[ 8878.333377] ata4.01: error: { ICRC ABRT }
[ 8878.333431] ata4: soft resetting link
[ 8878.616920] ata4.01: configured for UDMA/133
[ 8878.616944] ata4: EH complete
[ 8881.422842] ata4.01: limiting speed to UDMA/100:PIO4
[ 8881.422855] ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[ 8881.422962] ata4.01: BMDMA stat 0x46
[ 8881.423020] ata4.01: failed command: WRITE DMA EXT
[ 8881.423099] ata4.01: cmd 35/00:00:00:58:1a/00:04:01:00:00/f0 tag 0 dma 524288 out
[ 8881.423102]          res 51/84:00:00:58:1a/84:04:01:00:00/f0 Emask 0x30 (host bus error)
[ 8881.423336] ata4.01: status: { DRDY ERR }
[ 8881.423398] ata4.01: error: { ICRC ABRT }
[ 8881.423474] ata4: soft resetting link
[ 8881.748919] ata4.01: configured for UDMA/100
[ 8881.748944] ata4: EH complete
[ 8971.877212] EFI Variables Facility v0.08 2004-May-17
[ 8972.047361] SGI XFS with ACLs, security attributes, realtime, large block/inode numbers, no debug enabled
[ 8972.048219] SGI XFS Quota Management subsystem
[ 8972.052675] JFS: nTxBlock = 8011, nTxLock = 64093
[ 8972.066504] NTFS driver 2.1.30 [Flags: R/W MODULE].
[ 8972.079095] QNX4 filesystem 0.2.3 registered.
[ 8972.106633] Btrfs loaded
[ 8972.111109] fuse init (API version 7.17)
[ 8996.606201] ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6
[ 8996.606338] ata4.01: BMDMA stat 0x46
[ 8996.606409] ata4.01: failed command: WRITE DMA EXT
[ 8996.606506] ata4.01: cmd 35/00:00:00:44:20/00:04:01:00:00/f0 tag 0 dma 524288 out
[ 8996.606509]          res 51/84:00:00:44:20/84:04:01:00:00/f0 Emask 0x30 (host bus error)
[ 8996.606777] ata4.01: status: { DRDY ERR }
[ 8996.606850] ata4.01: error: { ICRC ABRT }
[ 8996.606905] ata4: soft resetting link
[ 8996.891342] ata4.01: configured for UDMA/100
[ 8996.891366] ata4: EH complete
root@debian:/#

CeMKa
() автор топика
Ответ на: комментарий от CeMKa
ata4.01: limiting speed to UDMA/100:PIO4

Идут ошибки передачи данных по кабелю и он пытается избавиться от них, снижая скорость передачи. В прошлый рая, я гляжу, он до самого дна так добрался:

ata3.00: configured for UDMA/33
Раз в тот раз помогло перетыкание шлейфов, то займись этим снова. Проверь контакты на мамке и на диске, возьми шлейф с защёлками, проверь, чтобы шлейф нигде не перекручивался.

redgremlin ★★★★★
()
Ответ на: комментарий от redgremlin

Нагуглил статью, про косячные SATA контакты на матерях, советуют вставить бумажные прокладки в порт либо в кабель, для усиления «прижатия» контактов. Насчет перекручивания шлейфа- многие сборщики сейчас шлейф перед установкой накручивают на ручку или карандаш, придавая ему пружинный вид, чтоб он не болтался по системнику. Так вот я так же делаю :) неуж то деформировался где-то... В общем понял, завтра новые шлейфы возьму и контакт попробую усилить.

CeMKa
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.