LINUX.ORG.RU
Ответ на: комментарий от Pinkbyte

http://prntscr.com/8xq7qq

просто когда отваливается, то не может прочитать винт. При ребутах тоже самое, а вот после выключения - включения, становится видимым и снова в рейд залазит

Ien_Shepard ★★★
() автор топика

188-й аттрибут настораживает, но вроде как для сигейтов он не сильно критичен. Покажи dmesg при отваливании.

Deleted
()

Не очень удачная модель, как уже было сказано.

И все-таки смарт не панацея, он, конечно, помогает заранее понять, что что-то начинает идти не так, но не во всех случаях. Так что винт на помойку, а вместо него новый.

RH_
()
Ответ на: комментарий от Ien_Shepard

199 (C7) UltraDMA CRC Error Count - содержит количество ошибок, возникших по передаче по интерфейсному кабелю в режиме UltraDMA (или его эмуляции винчестерами SATA) от материнской платы или дискретного контроллера контроллеру диска.
В подавляющем большинстве случаев причинами ошибок становятся некачественный шлейф передачи данных, разгон шин PCI/PCI-E компьютера, либо плохой контакт в SATA-разъёме на диске либо материнской плате/контроллере.
Ошибки при передаче по интерфейсу и, как следствие, растущее значение атрибута могут приводить к переключению операционной системой режима работы канала, на котором находится накопитель, в режим PIO, что влечёт резкое падение скорости чтения/записи при работе с ним и загрузку процессора до 100%.

Еще раз, это косяк передачи данных, винт выпадает скорее всего по таймауту, если бы это происходило на уровне механики, то были бы совсем другие ошибки. Если кабель в порядке, значит что-то не так с разъемом или электроникой самого диска. Кстати у сигейтов всегда была слабая электроника. Я их потому и не беру, это рождает абсолютно непредсказуемые глюки, равномерно распределенные по времени.

Lordwind ★★★★★
()
Ответ на: комментарий от Ien_Shepard

Так и скажи, отваливается при работе. Если народ нормальный разберутся. У меня был случай с сигейтом 3Тб внешним, модель не помню, тупить начинал при чуть больше чем две-три одновременные чтение/запись, смарт ок, родная софтина сигейта в СЦ тоже показала норм, сервисники норм оказались, сказали погоняем но шансов мало, сигейт такое вернет с «отсутствием неисправности», в результате добили... :) за что спасибо им большое.

anc ★★★★★
()

Ну вот, раз в неделю стабильненько

ata6.00: status: { DRDY ERR }
ata6.00: error: { ABRT }
ata6.00: configured for UDMA/133 (device error ignored)
ata6: EH complete
ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata6.00: irq_stat 0x40000001
ata6.00: failed command: READ DMA
ata6.00: cmd c8/00:08:00:10:00/00:00:00:00:00/e0 tag 10 dma 4096 in
res 51/04:08:00:10:00/00:00:00:00:00/e0 Emask 0x1 (device error)
ata6.00: status: { DRDY ERR }
ata6.00: error: { ABRT }
ata6.00: configured for UDMA/133 (device error ignored)
ata6: EH complete

Ien_Shepard ★★★
() автор топика

Почему на нём не делался self-test в SMARTе? И пробовали его погонять отдельно, допустим write тест в badblocks?

mky ★★★★★
()

ST3000dm001

Это говно скоро сдохнет. До 2 лет у меня не дожил ни один из четырёх. На хабре уже была статья, конструктивный брак всей серии

в смарте чисто

Это поделие до последнего уверяет, что всё отлично. Даже после того, как блины посыпятся, у него всё хорошо. Только long test покажет, что пора в морг. А у тебя вообще тесты не запускались

и постоянно отваливается 1 и тот же винт

Логи ОСи посмотри. В лучшем случае, у тебя может отваливаться SATA кабель. Но повторюсь, все твои винты скоро сходнут из-за конструктивного брака

router ★★★★★
()
Ответ на: комментарий от router

кабель менял.
Отваливается в том смысле, что не читается винт, пишет i/o error если только не вырубить комп. После включения неделю живет.
Завтра понесу в сервесник

Ien_Shepard ★★★
() автор топика
Ответ на: комментарий от Ien_Shepard

Запусти тестирование. ЕМНИП,

smartctl -t long $device

можно ещё в seatools погонять и если найдёт ошибку, распечатать скриншот или фотографию

Если ты чем-то подтвердишь свои слова, меньше шансов что в сервисном центре пошлют лесом

У меня уже окончательно посыпавшийся диск выглядел так ( что характерно, в таблице S.M.A.R.T. «всё хорошо» )

root@grml:~# smartctl -v 7,hex48 -v 1,hex48 -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.3.0-3-grml-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST3000DM001-1CH166
Serial Number:    W1F2ZSSE
LU WWN Device Id: 5 000c50 0609663b8
Firmware Version: CC29
User Capacity:    3 000 592 982 016 bytes [3,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   9
ATA Standard is:  Not recognized. Minor revision code: 0x001f
Local Time is:    Wed Aug 26 16:07:01 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

[...]

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   113   088   006    Pre-fail  Always       -       0x0000034a2f68
  3 Spin_Up_Time            0x0003   095   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       73
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       24
  7 Seek_Error_Rate         0x000f   065   060   030    Pre-fail  Always       -       0x0005010383af
  9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       14991
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       79
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   063   063   000    Old_age   Always       -       37
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   095   095   000    Old_age   Always       -       5
190 Airflow_Temperature_Cel 0x0022   069   063   045    Old_age   Always       -       31 (Min/Max 24/31)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       69
193 Load_Cycle_Count        0x0032   078   078   000    Old_age   Always       -       45678
194 Temperature_Celsius     0x0022   031   040   000    Old_age   Always       -       31 (0 20 0 0)
197 Current_Pending_Sector  0x0012   100   099   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0010   100   099   000    Old_age   Offline      -       8
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       226812927948552
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       31048516452
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       146855118585

SMART Error Log Version: 1
ATA Error Count: 262 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 262 occurred at disk power-on lifetime: 14946 hours (622 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  42 0b 00 ff ff ff ef 00      03:44:47.524  READ VERIFY SECTOR(S) EXT
  42 0b 00 ff ff ff ef 00      03:44:44.576  READ VERIFY SECTOR(S) EXT
  42 0b 00 ff ff ff ef 00      03:44:41.496  READ VERIFY SECTOR(S) EXT
  42 0b 00 ff ff ff ef 00      03:44:38.343  READ VERIFY SECTOR(S) EXT
  42 0b 00 ff ff ff ef 00      03:44:38.257  READ VERIFY SECTOR(S) EXT

[...]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       40%     14985         4129560712
# 2  Short offline       Completed without error       00%     14982         -
# 3  Short offline       Completed: read failure       90%     14950         4129579928
# 4  Short offline       Completed: read failure       90%     14950         4129579928
# 5  Short offline       Completed: read failure       90%     14950         4129579928
# 6  Short offline       Aborted by host               90%     14949         -
# 7  Short offline       Completed: read failure       90%     14948         4129579928
# 8  Short offline       Completed: read failure       90%     14948         4129579928
# 9  Short offline       Completed: read failure       90%     14947         4129579928
#10  Short offline       Completed: read failure       90%     14947         4129426104
#11  Selective offline   Completed: read failure       90%     14943         4129423320
#12  Selective offline   Completed: read failure       90%     14943         4129423320
#13  Selective offline   Completed: read failure       90%     14943         4129423320
#14  Selective offline   Completed: read failure       90%     14943         4129423320
#15  Selective offline   Completed: read failure       90%     14943         4129423320
#16  Short offline       Completed: read failure       90%     14827         4130794824

[...]
router ★★★★★
()

Отнес в сервисник, уже неделя прошла что то молчат. Надеюсь что заменят, но больше никих сигейтов в жизни не куплю.

Ien_Shepard ★★★
() автор топика

исключи, для начала, цепь ПЕРЕД винтом. Поменяй его местами с другим. Может у тебя там кабель плохой или контакт звенит.

targitaj ★★★★★
()

ну взяли проверили диск, сказали что все ок и у них не отвалился, вернули)) коплю на новый диск

Ien_Shepard ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.