LINUX.ORG.RU

Google проливает свет на надёжность жёстких дисков


0

0

Сотрудники Google опубликовали отчёт о надёжности более ста тысяч жёстких дисков. Их исследование проводилось более пяти лет, начиная с 2001 года. Основные результаты следующие: 1) нет строгого соответствия между отказами винчестеров и их температурой 2) SMART параметры не всегда дают чёткую картину здоровья жёсткого диска, но вот reallocation count отличный от нуля - очень значимый параметр.

>>> Подробности (PDF 242KB)

★★★★★

Проверено: Shaman007 ()
Ответ на: комментарий от anonymous

>> херня это все... срок жизни винта зависит от самого винта, блока >> питания и температуры.

>Ну, у вас-то опыта больше, чем у Гугла...

гугл занимается ремонтом винтов? нет. то-то же ;-)

тем более винты у нас здесь и винты в гугле - это, скорее всего, совсем разные вещи. там наверняка юзают брэнды, которым производители винтов отбраковку не впаривают.

anonymous
()
Ответ на: комментарий от ogion

> метка Pre-fail, но VALUE и WORST больше чем THRESH (100, 100 и 24, соответственно).

Ну и все нормально. Pre-fail это характеристика атрибута, а не твоего его значения. Pre-fail == "автомобиль - источник повышеной опасности". VALUE < TRESH == "за рулем пьяный водитель". Угу?

no-dashi ★★★★★
()
Ответ на: комментарий от no-dashi

1 Raw_Read_Error_Rate 0x000b 100 092 032 Pre-fail Always - 100408
2 Throughput_Performance 0x0005 083 075 020 Pre-fail Offline - 202
3 Spin_Up_Time 0x0007 093 090 025 Pre-fail Always - 2
4 Start_Stop_Count 0x0012 098 098 016 Old_age Always - 1331
5 Reallocated_Sector_Ct 0x0033 099 099 024 Pre-fail Always - 1
7 Seek_Error_Rate 0x000b 100 100 020 Pre-fail Always - 3986
8 Seek_Time_Performance 0x0005 085 084 019 Pre-fail Offline - 24
9 Power_On_Seconds 0x0012 001 001 020 Old_age Always FAILING_NOW 34394h+24m+46s
10 Spin_Retry_Count 0x0013 100 100 020 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 093 093 020 Old_age Always - 1192
196 Reallocated_Event_Count 0x0033 099 099 024 Pre-fail Always - 1
197 Current_Pending_Sector 0x0010 100 100 020 Old_age Offline - 0
198 Offline_Uncorrectable 0x0010 100 100 020 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 198 000 Old_age Always - 96
200 Multi_Zone_Error_Rate 0x000b 100 097 020 Pre-fail Always - 1141

anonymous
()
Ответ на: комментарий от anonymous

> тем более винты у нас здесь и винты в гугле - это, скорее всего, совсем разные вещи. там наверняка юзают брэнды, которым производители винтов отбраковку не впаривают.

В качестве нод в кластерах гугла используются самые обычные компы, разве что диски используются большого объема и максимум памяти. Исходя из того, что железо там в среднем уровня офисного селерона + сам факт обнародования статистики по износу дисков для общественности, можно сделать вывод, что диски там тоже самые обычные. Но, насчет БП вы правы, это один из серьезных факторов поломки дисков, куда более опасный, чем температурное воздействие. И неплохо было бы взглянуть и на него. Для полноты, так сказать.

mutronix ★★★★
()
Ответ на: комментарий от mutronix

Кстати, раз про выбор брэндов гугл умолчал, давайте обсудим тут. У кого какие за\против?

Предпочитаю Seagate и Samsung. В черном списке Maxtor и WD.

mutronix ★★★★
()
Ответ на: комментарий от mutronix

> В качестве нод в кластерах гугла используются самые обычные компы, разве что диски используются большого объема и максимум памяти.

Ты не понял, что имел ввиду оратор. Говорилось о том, что в области ИТ разделение потребителей такое же, как и в прочих областях деятельности - развитые страны и прочие. xUSSR относится к прочим. Соответственно, из ширпотреба сюда гонится всё, что похуже и подешевле. Винты не исключение.

anonymous
()
Ответ на: комментарий от ogion

> А мне не поясните? А то что-то какое-то дикое последнее число.

Обнови smartmontools :)

anonymous
()
Ответ на: комментарий от anonymous

> гы, вот в SCSI и fc дисках нету смарта. а стоят они (fc) на порядок больше. и никто ресурсом не озадачивается, если вылетает больше 30% - массивы этой фирмы перестают покупать. отказоустойчивые конфигурации массивов вас спасут, а смарт нет.

Да я знаю, что для настоящих потсаноф Страдивари барабаны делал. Я лучше куплю обычный барабан в несколько раз дешевле и буду юзать SMART. А ты покупай, покупай :)

anonymous
()
Ответ на: комментарий от dmiceman

> что-то да. надо бы кого-нибудь попросить маленький ликбез на тему чтения вывода smartctl-я устроить. ибо оно непонятно и панику породить может.

man smartctl уже никак не помогает?

Each Attribute has a "Raw" value, printed under the heading "RAW_VALUE", and a "Normalized" value printed under the heading "VALUE". [Note: smartctl prints these values in base-10.] In the example just given, the "Raw Value" for Attribute 12 would be the actual number of times that the disk has been power-cycled, for example 365 if the disk has been turned on once per day for exactly one year. Each vendor uses their own algorithm to convert this "Raw" value to a "Normalized" value in the range from 1 to 254. Please keep in mind that smartctl only reports the different Attribute types, values, and thresholds as read from the device. It does not carry out the conversion between "Raw" and "Normalized" values: this is done by the disk&#180;s firmware.

The conversion from Raw value to a quantity with physical units is not specified by the SMART standard. In most cases, the val- ues printed by smartctl are sensible. For example the tempera- ture Attribute generally has its raw value equal to the tempera- ture in Celsius. However in some cases vendors use unusual con- ventions. For example the Hitachi disk on my laptop reports its power-on hours in minutes, not hours. Some IBM disks track three temperatures rather than one, in their raw values. And so on.

Each Attribute also has a Threshold value (whose range is 0 to 255) which is printed under the heading "THRESH". If the Nor- malized value is less than or equal to the Threshold value, then the Attribute is said to have failed. If the Attribute is a pre-failure Attribute, then disk failure is imminent.

Each Attribute also has a "Worst" value shown under the heading "WORST". This is the smallest (closest to failure) value that the disk has recorded at any time during its lifetime when SMART was enabled. [Note however that some vendors firmware may actu- ally increase the "Worst" value for some "rate-type" Attributes.]

anonymous
()
Ответ на: комментарий от mutronix

Народ, протестите максторы, пожалста
У меня оба винта сразу были с заметным reallocated sectors count

Сигейты (штук 15-20 на работе) все новые с нулём.....

anonymous
()
Ответ на: комментарий от ogion

>ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000

>А мне не поясните? А то что-то какое-то дикое последнее число.

Все нормально VALUE=WORST(100) > THRESH(24). А RAW_VALUE=8589934592000 - это глюк программы или у вендора немного свое мнение насчет того как должны выглядеть атрибуты SMART(SMART жестко не стандартизован, в стандарте ATA результат команды SMART READ DATA состоит практически полностью из vendor-specific полей, но многие вендоры ориентируются на формат Quantum-овских винтов, компании, которая и внедрила эту технологию). В пользу этого предположения говорит и само число:

$ printf "%x" 8589934592000 7d000000000

Скорее всего вендор хранит 32-битное значение арибута, а все что выше - или мусор или имеет какое-то специальное значение. Значение 0x7d0 = 2000, может означать, например, размер таблицы переназначения дефектов GDL или еще что-нибудь.

sysenter
()
Ответ на: комментарий от anonymous

hdparm -I /dev/hda

/dev/hda:

ATA device, with non-removable media
        Model Number:       Maxtor 6Y060L0
        Serial Number:      Y2TEP0DE
        Firmware Revision:  YAR41VW0
----------------------------------------------------------
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   226   224   063    Pre-fail  Always       -       8524
  4 Start_Stop_Count        0x0032   253   253   000    Old_age   Always       -       1975
  5 Reallocated_Sector_Ct   0x0033   252   252   063    Pre-fail  Always       -       18
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   246   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   251   245   187    Pre-fail  Always       -       64751
  9 Power_On_Minutes        0x0032   193   193   000    Old_age   Always       -       213h+14m
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   248   248   000    Old_age   Always       -       2176
192 Power-Off_Retract_Count 0x0032   253   253   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   253   253   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0032   253   253   000    Old_age   Always       -       37
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       420
196 Reallocated_Event_Count 0x0008   253   253   000    Old_age   Offline      -       0
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       0
198 Offline_Uncorrectable   0x0008   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0008   199   199   000    Old_age   Offline      -       0
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   251   000    Old_age   Always       -       18
202 TA_Increase_Count       0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       0
204 Shock_Count_Write_Opern 0x000a   253   252   000    Old_age   Always       -       0
205 Shock_Rate_Write_Opern  0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   198   198   000    Old_age   Offline      -       0
 99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0


Скоро по всей видимости придет конец этому экземпляру - появлися 
волнообразный гул в его нутрях. Эксплуатируется с середины 2003г.

slackerr
()
Ответ на: комментарий от anonymous

> 5 Reallocated_Sector_Ct 0x0033 099 099 024 Pre-fail Always - 1 196 Reallocated_Event_Count 0x0033 099 099 024 Pre-fail Always - 1

1 ремапленный бэд

> 9 Power_On_Seconds 0x0012 001 001 020 Old_age Always FAILING_NOW 34394h+24m+46s

Винт считает, что ему может наступить привет ввиду большого(по мнению вендора) срока эксплуатации.

sysenter
()
Ответ на: комментарий от anonymous

> гы, вот в SCSI и fc дисках нету смарта.

Ага, и делают их из пластелина.

smartctl -a /dev/sda

smartctl version 5.33 [i686-redhat-linux-gnu] Copyright (C) 2002-4 Bruce Allen Home page is http://smartmontools.sourceforge.net/

Device: SEAGATE ST373207LW Version: 0004

Serial number: 3KT49ESE00007638UM38

Device type: disk

Transport protocol: Parallel SCSI (SPI-4)

Local Time is: Wed Feb 21 09:15:58 2007 NOVT

Device supports SMART and is Enabled

Temperature Warning Enabled

SMART Health Status: OK

anonymous
()
Ответ на: комментарий от anonymous

А статья хорошая.И выводы хорошие.

1 То большое число параметров, что наблюдает SMART не дает возможности предсказать отказ диска. В 50 с лишним % случаев ломаются диски с чистым SMART.

2. Нагрузка на диск влияет на отказы в первые 3 месяца: купил - нагрузи по полной и сдай по гарантии. Дальше поведение диска не зависит от нагрузки 2 года.

3. Есть пара параметров SМАРТ которые позволяют утверждать что диск выйдет из строя в ближайшие 2 месяца _с_вероятностью_выше_чем_другие в 10-30 раз. У среднего диска вероятность выхода из строя от 1.7% в первый год до 8% в 3-й. В 2 месяца 0.2 - 1.3% у выделенных по SMART 6-40% вероятность отказа в эти 2 месяца. Вспомним, что половина дисков падает с чистым SMART.

Так что диск - это билет в лоторее. И никто не скажет сколько он проживет еще. Для больших объемов дисков можно выработать несколько правил типа пункта 2.

anonymous
()

А давайте загоним все параметры СМАРТа в нейронную сеть а на выходе срок работы до отказа, и срок работы до первых бедок. Можно создать отдельный проект куда будут присылать результаты все желающие

anonymous
()
Ответ на: комментарий от anonymous

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 064 057 006 Pre-fail Always - 60920397 3 Spin_Up_Time 0x0003 096 096 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 427 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0 7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 474657144 9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 9374 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 098 098 020 Old_age Always - 2140 194 Temperature_Celsius 0x0022 036 054 000 Old_age Always - 36 195 Hardware_ECC_Recovered 0x001a 064 057 000 Old_age Always - 60920397 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0

что-то меня пугает такая цифра для первого параметра..

frd ★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.