LINUX.ORG.RU
решено ФорумAdmin

Определить степень недоверия к диску

 


0

2

Кроха сын к отцу пришел и спросила кроха: «Папа, это хорошо или очень плохо?»

# smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.0.0-12-server] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     ST1000DM003-9YN162
Serial Number:    Z1D0L2FY
LU WWN Device Id: 5 000c50 03fcee1af
Firmware Version: CC4B
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Fri May  4 10:09:06 2012 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  575) seconds.
Offline data collection
capabilities: 			 (0x73) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					No Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 108) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x3085)	SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   105   100   006    Pre-fail  Always       -       235420362
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   072   057   030    Pre-fail  Always       -       8622211739
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       997
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       24
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   082   082   000    Old_age   Always       -       18
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   074   066   045    Old_age   Always       -       26 (Min/Max 23/34)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       19
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       54
194 Temperature_Celsius     0x0022   026   040   000    Old_age   Always       -       26 (0 21 0 0)
197 Current_Pending_Sector  0x0012   100   090   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   090   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       107253923316683
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       57499686168628
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       86599643247192

SMART Error Log Version: 1
ATA Error Count: 18 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 18 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00  15d+04:39:26.598  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  15d+04:39:26.598  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  15d+04:39:26.598  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  15d+04:39:26.598  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00  15d+04:39:26.598  SET FEATURES [Set transfer mode]

Error 17 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00  15d+04:39:23.672  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  15d+04:39:23.672  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  15d+04:39:23.672  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  15d+04:39:23.672  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00  15d+04:39:23.672  SET FEATURES [Set transfer mode]

Error 16 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00  15d+04:39:20.721  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  15d+04:39:20.721  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  15d+04:39:20.721  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  15d+04:39:20.721  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00  15d+04:39:20.721  SET FEATURES [Set transfer mode]

Error 15 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00  15d+04:39:17.770  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  15d+04:39:17.770  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  15d+04:39:17.770  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  15d+04:39:17.770  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00  15d+04:39:17.770  SET FEATURES [Set transfer mode]

Error 14 occurred at disk power-on lifetime: 961 hours (40 days + 1 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00  15d+04:39:14.811  READ FPDMA QUEUED
  ef 10 02 00 00 00 a0 00  15d+04:39:14.811  SET FEATURES [Reserved for Serial ATA]
  27 00 00 00 00 00 e0 00  15d+04:39:14.811  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00  15d+04:39:14.811  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 00  15d+04:39:14.810  SET FEATURES [Set transfer mode]

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

★★★★★

Прогони dd по диску, если есть нечитаемые блоки - попробовать их несколько раз прочесть-записать, мне помогало раз наверное пять.

no-dashi ★★★★★
()

Всё нормально.

iZEN ★★★★★
()
Ответ на: комментарий от iZEN

Если дорога ссыпалась хотя-бы частично, то поверхности уже конец приходит...

Я-бы выкинул от греха. Или фалопомойку на него водрузил.

sergv
()
Ответ на: комментарий от sergv

А чо, линуксовые ФС не справляются с BAD-секторами, никак не обходят их и не фиксируют как сбойные? NTFS, вон, прекрасно с этим справляется.

Но разговор не о BAD-секторах в принципе, а о количестве нескорректированных ошибок, которые могли произойти в начале эксплуатации, когда ещё привод самоюстировался на режимы эксплуатации. Сам по себе этот параметр не страшен, страшно, когда значение начинает расти.

Лучший способ прогнать тест диска — это сделать: «dd if=/dev/zero of=/dev/ada4 bs=8M», потом сравнить S.M.A.R.T. до и после этой процедуры, посмотреть на ошибки, какие выдаются в консоли. Данные на диске при этом, естественно, сотрутся.

iZEN ★★★★★
()
Ответ на: комментарий от iZEN

...когда ещё привод самоюстировался на режимы эксплуатации.

Да. Тупанул...

Я просто smart сразу смотрю. И такие диски вообще не ставлю.

sergv
()
Device Model:     ST1000DM003-9YN162

Не то, что бы очень плохо. Для домашней файлопомойки - ок. Для чего-то важного - не ок.

fjoe
()

Если тебя напрягают Raw_Read_Error_Rate и Seek_Error_Rate, то не парься - для Seagate'ов (именно для них) это нормально. Вот мой smart нового диска (тоже SEAGATE), и комментарии многоуважаемого ALL: [Советов тред] Умирает жесткий диск; как сохранить данные и систему? (комментарий)

Reallocated_Sector_Ct (по сути - bad блоки, которые re-allocated) и UDMA_CRC_Error_Count (проявляются при битом контроллере диска/материнки, но самое частое - при плохом SATA шнурке) у тебя по нулям, что есть гут.

Если тебя напрягают ошибки (которых 18), то все они, как я вижу, произошли в одно время, возможно какой-то скачек по питанию был, или кто-то пнул системный блок/ноут.

Вердикт: все в норме.

Если хочешь перебдеть - прогони тест с помощью mhdd.

Kroz ★★★★★
()

Спасибо всем!!

petav ★★★★★
() автор топика

Винт сдох

Начало истории было таким. Zabbix проарал что рейд 10 рассыпался. Вроде как ошибки не критичные (почитал ЛОР), вернул. Система начала глюкать. Три дня наблюдал как скорость работы с дисковой подсистемой туда-судя, вверх-вниз. Домен win2008 выкидывало в синеву с причиной viostor.sys (такое бывает когда снапшот LVM на живую делается). Выкинул диск из рейда. Второй день - норм. Завтра выкину из сервера. Диску месяц. Еще гарантия. Бывает наверное.

petav ★★★★★
() автор топика
Ответ на: Винт сдох от petav

Что, прав был все-таки именно я, выходит?

Seagate + Uncorrect = поверхность сыплется.

(Кстати, тоже на неделе seaHate сдох - сменил его. Только там где-то 18000 часов наработки было).

sergv
()

Попробуй сделать скан MHDD, если на диске инфа и он поврежден - копируй, что можешь и делай скан+ремап. Знаю, что это не юниксвей, но иногда очень помогает (свой диск так восстановил)

ms-dos32
()
Ответ на: комментарий от ms-dos32

Он в рейде был, рейд на 3 летит.

petav ★★★★★
() автор топика
Ответ на: комментарий от ms-dos32

У меня тоже. Раз на раз не приходится может быть.

petav ★★★★★
() автор топика
Ответ на: комментарий от ms-dos32

Seagate SeaHate-у рознь:

Seagate (старая 80-ка):

Model Family:     Seagate Barracuda 7200.7 and 7200.7 Plus family
Device Model:     ST380817AS
[skip]
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   054   047   006    Pre-fail  Always       -       65815347
  3 Spin_Up_Time            0x0003   098   098   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       156
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   088   060   030    Pre-fail  Always       -       726303482
  9 Power_On_Hours          0x0032   036   036   000    Old_age   Always       -       56896
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   031   048   000    Old_age   Always       -       31 (0 17 0 0)
195 Hardware_ECC_Recovered  0x001a   054   046   000    Old_age   Always       -       65815347
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SeaHate (новая 500-ка, скоро на помойку - есть релоцированный сектор):

Device Model:     ST3500514NS
[skip]
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   077   063   044    Pre-fail  Always       -       55329050
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       19
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       63916296
  9 Power_On_Hours          0x0032   086   086   000    Old_age   Always       -       12925
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       17
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   072   059   045    Old_age   Always       -       28 (Min/Max 25/34)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       16
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       17
194 Temperature_Celsius     0x0022   028   041   000    Old_age   Always       -       28 (0 21 0 0)
195 Hardware_ECC_Recovered  0x001a   030   024   000    Old_age   Always       -       55329050
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

sergv
()
Ответ на: комментарий от petav

Не накаркал. Опыт, блин. :-(

У меня свежие (менее 5 лет) SeaHate-ы пачками летят с этой симптоматикой. За полгода уже 5 или 6 (купили пачку серверов около 2-х лет назад с баракудами и констеллайшен на свою голову).

18-25 тыс.часов и на помойку. Рассыпаются поверхности.

С WD немного лучше - через 30-40 тыс.часов начинает вставать колом механника. (Spinup, Timeout...) Недоследишь - получишь кирпич, у которого шпиндель переклинило или головой по поверхности брякнуло.

sergv
()
Ответ на: комментарий от iZEN

А чо, линуксовые ФС не справляются с BAD-секторами, никак не обходят их и не фиксируют как сбойные?

он там ниже пишет, что винт в raid10 массиве. а raid вроде не умеет некорректируемые сектора отмечать.

Umberto ★☆
()
Ответ на: комментарий от sergv

О, у меня 80-ка и 500-ка как раз имеются, 80-ку я восстановил (в машине при перевозке очень сильно трясло), про новый диск пока ничего сказать не могу, но работает быстро

ms-dos32
()
8 августа 2012 г.

Время показало

Диск не очень хороший. Было их 6 эксплуатировал 4 месяца. Один диск просто выпал и не определялся системой до перезагрузки (Проблема в интернете встречается). 3 других сдохли и заменены по гарантии на другие модели. Проявлялось это как жесткие тормоза при обращении к диску и ошибки (которые выше) в SMART.

petav ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.