LINUX.ORG.RU
решено ФорумAdmin

Проблема с софтовым раидом или диском или

 


0

2

Стояли на 1Тб 4 диска ST31000524NS в софтовом райде 10 на Debian 7, в один прекрасный день 1 выпал, проверил у себя - поверхность поношенная, но без бэдов, однако много Command_Timeout
ладно, выпал и выпал, поставил на 2Тб ST2000NM0033, склонировал структуру со стоящих, вроде все поднялось и заработало, по смарту посмотрел что еще один с большими таймаутами, поэтому приберег второй аналогичный диск
и вот этот диск тоже выпал, ставлю второй на 2Тб - фих там, ребилд начинается и отваливается, смарт проверку длинную не проходит, у себя проверял - все ок
что может быть?

=== START OF INFORMATION SECTION ===
Device Model:     ST2000NM0033-9ZM175
Serial Number:    Z1X61HBQ
LU WWN Device Id: 5 000c50 08795a854
Firmware Version: SN04
User Capacity:    2 000 398 934 016 bytes [2,00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   9
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Mar  9 11:19:26 2016 YEKT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   044    Pre-fail  Always       -       158436
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       1
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       529094
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       1
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       1
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   095   095   000    Old_age   Always       -       5
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   073   045    Old_age   Always       -       25 (Min/Max 20/27)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       1
194 Temperature_Celsius     0x0022   025   040   000    Old_age   Always       -       25 (0 20 0 0)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       158436
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   193   193   000    Old_age   Always       -       26

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Interrupted (host reset)      00%         0         -
# 2  Extended offline    Interrupted (host reset)      90%         0         -
# 3  Short offline       Completed without error       00%         0         -

★★★

ошибки в логах
после установки

Mar  9 09:49:39 proxy kernel: [66941762.369921] ata2.00: ATA-9: ST2000NM0033-9ZM175, SN04, max UDMA/133
Mar  9 09:49:39 proxy kernel: [66941762.369926] ata2.00: 3907029168 sectors, multi 0: LBA48 NCQ (depth 31/32), AA
Mar  9 09:49:39 proxy kernel: [66941762.370976] ata2.00: configured for UDMA/133
Mar  9 09:49:39 proxy kernel: [66941762.370986] ata2: EH complete

и позже понеслось
Mar  9 09:53:08 proxy kernel: [66941970.685721] ata2.00: exception Emask 0x10 SAct 0x1 SErr 0x400100 action 0x6 frozen
Mar  9 09:53:08 proxy kernel: [66941970.685808] ata2.00: irq_stat 0x08000000, interface fatal error
Mar  9 09:53:08 proxy kernel: [66941970.685872] ata2: SError: { UnrecovData Handshk }
Mar  9 09:53:08 proxy kernel: [66941970.685921] ata2.00: failed command: WRITE FPDMA QUEUED
Mar  9 09:53:08 proxy kernel: [66941970.685973] ata2.00: cmd 61/00:00:00:34:0c/04:00:00:00:00/40 tag 0 ncq 524288 out
Mar  9 09:53:08 proxy kernel: [66941970.686147] ata2.00: status: { DRDY }
Mar  9 09:53:08 proxy kernel: [66941970.686195] ata2: hard resetting link
Mar  9 09:53:08 proxy kernel: [66941971.061931] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Mar  9 09:53:08 proxy kernel: [66941971.064402] ata2.00: configured for UDMA/133
Mar  9 09:53:08 proxy kernel: [66941971.064418] ata2: EH complete
Mar  9 09:53:09 proxy kernel: [66941971.599410] ata2.00: exception Emask 0x10 SAct 0x1 SErr 0x400100 action 0x6 frozen
Mar  9 09:53:09 proxy kernel: [66941971.599500] ata2.00: irq_stat 0x08000000, interface fatal error
Mar  9 09:53:09 proxy kernel: [66941971.599553] ata2: SError: { UnrecovData Handshk }
Mar  9 09:53:09 proxy kernel: [66941971.599603] ata2.00: failed command: WRITE FPDMA QUEUED
Mar  9 09:53:09 proxy kernel: [66941971.599656] ata2.00: cmd 61/00:00:80:e0:0e/04:00:00:00:00/40 tag 0 ncq 524288 out
Mar  9 09:53:09 proxy kernel: [66941971.599826] ata2.00: status: { DRDY }
Mar  9 09:53:09 proxy kernel: [66941971.599876] ata2: hard resetting link
Mar  9 09:53:09 proxy kernel: [66941972.029730] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Mar  9 09:53:09 proxy kernel: [66941972.032564] ata2.00: configured for UDMA/133
Mar  9 09:53:09 proxy kernel: [66941972.032580] ata2: EH complete

потом вижу интересную вещь
Mar  9 09:53:12 proxy kernel: [66941975.056916] ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Mar  9 09:53:12 proxy kernel: [66941975.059985] ata2.00: configured for UDMA/133
Mar  9 09:53:12 proxy kernel: [66941975.060000] ata2: EH complete
Mar  9 09:53:12 proxy kernel: [66941975.196870] ata2: limiting SATA link speed to 3.0 Gbps
винт сата 3, а контроллер сата 2

wolverin ★★★
() автор топика
Ответ на: комментарий от wolverin

даже удалить структуру диска не могу

Mar  9 11:05:20 proxy kernel: [66946302.258917] ata2.00: failed command: WRITE FPDMA QUEUED
Mar  9 11:05:20 proxy kernel: [66946302.258971] ata2.00: cmd 61/08:00:00:00:00/00:00:00:00:00/40 tag 0 ncq 4096 out
Mar  9 11:05:20 proxy kernel: [66946302.259142] ata2.00: status: { DRDY }
Mar  9 11:05:20 proxy kernel: [66946302.259192] ata2: hard resetting link
Mar  9 11:05:21 proxy kernel: [66946302.632026] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Mar  9 11:05:21 proxy kernel: [66946302.634502] ata2.00: configured for UDMA/33
Mar  9 11:05:21 proxy kernel: [66946302.634512] ata2: EH complete
Mar  9 11:05:21 proxy kernel: [66946302.634759] ata2.00: exception Emask 0x10 SAct 0x1 SErr 0x400101 action 0x6 frozen
Mar  9 11:05:21 proxy kernel: [66946302.634846] ata2.00: irq_stat 0x0c000000, interface fatal error
Mar  9 11:05:21 proxy kernel: [66946302.634900] ata2: SError: { RecovData UnrecovData Handshk }
Mar  9 11:05:21 proxy kernel: [66946302.634953] ata2.00: failed command: WRITE FPDMA QUEUED
Mar  9 11:05:21 proxy kernel: [66946302.635006] ata2.00: cmd 61/08:00:00:00:00/00:00:00:00:00/40 tag 0 ncq 4096 out
Mar  9 11:05:21 proxy kernel: [66946302.635195] ata2.00: status: { DRDY }
Mar  9 11:05:21 proxy kernel: [66946302.635245] ata2: hard resetting link
Mar  9 11:05:21 proxy kernel: [66946303.007957] ata2: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Mar  9 11:05:21 proxy kernel: [66946303.010349] ata2.00: configured for UDMA/33
Mar  9 11:05:21 proxy kernel: [66946303.010373] Descriptor sense data with sense descriptors (in hex):
Mar  9 11:05:21 proxy kernel: [66946303.010507] ata2: EH complete

wolverin ★★★
() автор топика
Ответ на: комментарий от wolverin

Скорее всего нужен сброс контроллера, т.е. перезагрузка. Замени кабель, если проблема только на одной машине. Если не поможет, замени контроллер.

anonymous
()
Ответ на: комментарий от wolverin

Они почему-то портятся со временем. Причины для меня загадка, но почти все Command Timeout и CRC Errors лечатся заменой кабеля.

anonymous
()
Ответ на: комментарий от Black_Shadow

Да у тебя 100% с кабелем проблема.

не помню как с предыдущим было по црц, запомнил что таймаут большой сильно был и просто замена винта помогла и это не соседние диски в корзине были (через один), у остальных по нулям оба параметра
вечером попробую переткнуть или заменить кабель

wolverin ★★★
() автор топика
Последнее исправление: wolverin (всего исправлений: 1)
Ответ на: комментарий от Black_Shadow

Я сильно удивлюсь, если проблема будет не в кабеле.

действительно переткнул кабель с двух концов за корзиной до платы и заработало, спасибо

wolverin ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.