LINUX.ORG.RU

Google проливает свет на надёжность жёстких дисков


0

0

Сотрудники Google опубликовали отчёт о надёжности более ста тысяч жёстких дисков. Их исследование проводилось более пяти лет, начиная с 2001 года. Основные результаты следующие: 1) нет строгого соответствия между отказами винчестеров и их температурой 2) SMART параметры не всегда дают чёткую картину здоровья жёсткого диска, но вот reallocation count отличный от нуля - очень значимый параметр.

>>> Подробности (PDF 242KB)

★★★★★

Проверено: Shaman007 ()

ты опоздал не неделю

--------

maxcom - бог

wieker ★★
()
Ответ на: комментарий от localhost

>у меня этот параметр перевалил за много тысяч, что бы это значило?

хардокапец?

Killy
()

Вот ведь трусы!

> However, in this paper, we do not show a breakdown of drives per manufacturer, model, or vintage due to the proprietary nature of these data.

Боятся, что их засудят производители, как пить дать боятся. А ведь такие данные были бы наиболее ценными, остальное все - пустой трёп.

anonymous
()

Так, они еще и не отнормировали данные по температурам, так что вообще полный бред выходит.

anonymous
()
Ответ на: комментарий от localhost

>у меня этот параметр перевалил за много тысяч, что бы это значило?

блок головок уже нарезает стружку с поверхности дисков )))

frame ★★★
()

Этот отчёт составлялся некомпетентными людьми и ценности не представляет.

> нет строгого соответствия между отказами винчестеров и их температурой

Высокая температура - это 70 градусов и выше, ближе к 80, иногда 90. Вот при такой температуре диск более года не живёт. А то, что они там нанаблюдали, до 50 градусов - это норма. Что 30 градусов, что 50 - один фик. Открыли Америку, блин.

> 2) SMART параметры не всегда дают чёткую картину здоровья жёсткого диска, но вот reallocation count отличный от нуля - очень значимый параметр.

Да вы просто не умеете их готовить, блин. Reallocation count - это и есть SMART, его часть, на которую можно и нужно смотреть в первую очередь. Ещё одно открытие Америки, блин. Bad sectror - reallocation. Много бэдов - скорая смерть. Детю понятно, отрыватели Америки фиговы.

wa
()
Ответ на: комментарий от Id

> Они просто ждут откатов от производителей или за молчание или за рекламму.

Хех, ВСЕ обзоры, в которых фигурирует бренд - заказные и только заказные. Вы не знали ?

wa
()
Ответ на: комментарий от localhost

> у меня этот параметр перевалил за много тысяч, что бы это значило?

Это значит, что диск сыпется. Конроллер замещает бэды на резервные блоки. Вот что это значит.

wa
()
Ответ на: комментарий от anonymous

>Боятся, что их засудят производители, как пить дать боятся. А ведь такие данные были бы наиболее ценными, остальное все - пустой трёп.

Надо сейчас просто проследить какие винты начнёт закупать Google ;)

GladAlex ★★★★★
()

Никого они не боятся просто есть 2 момента:

1. Опубликуй они статистику по производителям моделям и это будет бомба, способная взорвать весь рынок и утопить некоторых производителей.

2. Бесплатную рекламу своим именем они тоже делать не хотят, гугль это отличные коммерсанты, а не мать тереза.

anonymous
()
Ответ на: комментарий от Id

>Они просто ждут откатов от производителей или за молчание или за рекламму.

+2

anonymous
()
Ответ на: комментарий от hetman

>А как этот параметр посмотреть??? а то чет страшно стало :-(
дада раскажите

Osmos ★★
()
Ответ на: комментарий от hatefu1_dead

> ну и зачем тогда эта статья нужна?

Такая статья была бы более интересна, если бы была правильно написана. В частности, если бы ислледуемый интервал температур был бы побольше. Но уже из этого матерала можео кое-что почерпнуть. К примеру, довольно интресна зависимость частоты отказов от срока службы диска. Хотя и тут интервал желательно было бы поболе. А с вашими холи варс идите, дети, в песочницу.

wa
()

> 1) нет строгого соответствия между отказами винчестеров и их температурой идем читать статью ещё раз внимательно

anonymous
()
Ответ на: комментарий от birdie

Лучше смотреть так :

smartctl -A -d ata /dev/sda

(большое "A")

это для дисков SATA PATA, подключенных к SATA разъемам (например, через мост)

для PATA-IDE

smartctl -A /dev/hda

annoynimous ★★★★★
()
Ответ на: комментарий от wa

> Высокая температура - это 70 градусов и выше, ближе к 80, иногда 90. Вот при такой температуре диск более года не живёт.

Ихтож его гоняет год на такой температуре ? Может народу посоветовать уменьшить плотность упаковки винтов, поставить вентили в соответствующие места, поставить кондиционер в помещении, сменить род деятельности ?

> А то, что они там нанаблюдали, до 50 градусов - это норма.

А где обещан тест в экстремальных условиях в течении 5-ти лет ? :)

anonymous
()
Ответ на: комментарий от annoynimous

Out of all failed drives, over 56% of them have no count in any of the four strong SMART signals, namely scan errors, reallocation count, offline reallocation, and probational count. In other words, models based only on those signals can never predict more than half of the failed drives.

large fraction of our failed drives have shown no SMART error signals whatsoever.

anonymous
()

А у меня на одном из дисков

200 Multi_Zone_Error_Rate 0x0009 001 001 051 Pre-fail Offline FAILING_NOW 7552

и на этот диск все время ругается биос и проги всякие тестовые, при этом диск новый и работает нормально, что это может быть?

А то что гугл по производелям не опубликовал это правильно: у каждого крупного производителя бывают удачные и неудачные серии, так что вышло бы простое вероятностное распределение, размазанное. Кроме того, гугл может покупать больше дисков одной марки и меньше других это зависит от цен и контрактов и т.п.

grokin
()
Ответ на: комментарий от GladAlex

> Надо сейчас просто проследить какие винты начнёт закупать Google ;)

Это не показатель. Раз на раз не приходится у всех производителей. У нас до завершения гарантии отваливались Seagate, WD, Maxtor, Samsung. Более менее живучие Fujitsu SCSI из 9 и 18 Gb старичков. Других производителей не попадалось.

anonymous
()
Ответ на: комментарий от annoynimous

Гм. Сам забоялся. Вот что на буке с винтом от Фуджитсу:

5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 456982528

Что-то больно дофига. Эта железка от силы полгода в работе. Хотя может до меня ее гоняли. Не слишком ли много насчитано? Винт всего на 40 Гб.

seb
()

Господа специалисты я правильно понимаю что моиму диску скоро хана?

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0003   206   171   021    Pre-fail  Always       -       700
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1225
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   200   200   051    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   086   086   000    Old_age   Always       -       10667
 10 Spin_Retry_Count        0x0013   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   051    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1181
194 Temperature_Celsius     0x0022   107   088   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0009   200   200   051    Pre-fail  Offline      -       0

anonymousI
()
Ответ на: комментарий от seb

Моего тоже нет в базе. Ужос:
  1 Raw_Read_Error_Rate     0x000f   119   099   006    Pre-fail  Always       -       224897049
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   062   060   030    Pre-fail  Always       -       1644736
195 Hardware_ECC_Recovered  0x001a   076   059   000    Old_age   Always       -       137771387

Dr_ZLO
()
Ответ на: комментарий от anonymousI

параметр 5 у тебя говорит 0. Температура ниже 40. С чего бы хана?

eXOR ★★★★★
()
Ответ на: комментарий от anonymousI

>Господа специалисты я правильно понимаю что моиму диску скоро хана?

твои внуки будут его еще юзать

anonymous
()
Ответ на: комментарий от birdie

0(НОЛЬ) же написано!!! Зачем пугаете человека?

mitek
()
Ответ на: комментарий от birdie

у меня такое 
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   132   131   021    Pre-fail  Always       -       5925
  4 Start_Stop_Count        0x0032   099   099   040    Old_age   Always       -       1146
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   200   200   051    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   086   086   000    Old_age   Always       -       10267
 10 Spin_Retry_Count        0x0013   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0013   100   100   051    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1139
194 Temperature_Celsius     0x0022   098   085   000    Old_age   Always       -       52
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0012   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x000a   200   253   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0009   200   200   051    Pre-fail  Offline      -       0

Dieter ★★★
()
Ответ на: комментарий от birdie

>Reallocated_Sector_Ct = 140 >Помирает и быстро. ЛУчше купите новый.

Не вводите людей в заблуждение. 140 это thresold, пороговое значение. Смотреть нужно на Value(количество попугаев, которое должно быть выше порога) и Raw Value(непосредственно число событий - температура, число скрытых дефектов и т.д.). Учите албанс^W английский.

sysenter
()
Ответ на: комментарий от seb

>Гм. Сам забоялся. Вот что на буке с винтом от Фуджитсу:

>5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000

>196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 456982528

>Что-то больно дофига. Эта железка от силы полгода в работе. Хотя может до меня ее гоняли. Не слишком ли много насчитано? Винт всего на 40 Гб.

Учитывайте значения столбцов Value = 100, Worst = 100 и Thresold = 24/0. Текущее и худшее значения выше порогового(VALUE и WORST > THRESH), более того они равны начальному значения атрибутов 100 - значит все нормально. В Raw Value для ряда атрибутов может выдаваться мусор. Например, на всех сигейтовских винтах, в Raw_Read_Error_Rate и Seek_Error_Rate в столбце RAW VALUE стоят дикие значения при нормальных значениях VALUE и WORST.

sysenter
()

Время от времени у любых производителей случются неудачные либо бракованные партии товара.. Было бы куда полезнее, если бы подобные исследования проводились периодически и почаще, что, конечно же не гарантирует их обьективность.. Но, по крайней мере, а то, что сделано сейчас - это всего-лишь срез возможной ситуации на данный момент..

MiracleMan ★★★★★
()
Ответ на: комментарий от Dieter

> А вот это на другом диске, это вроде ен есть хорошо?

22>020 (THRESH). Пора гробик заказывать.

anonymous
()

гы, вот в SCSI и fc дисках нету смарта. а стоят они (fc) на порядок больше. и никто ресурсом не озадачивается, если вылетает больше 30% - массивы этой фирмы перестают покупать. отказоустойчивые конфигурации массивов вас спасут, а смарт нет.

anonymous
()

а никто не подскажет совершенно случайно -- чем можно smart-овские данные в rrdb класть?

dmiceman ★★★★★
()
Ответ на: комментарий от sysenter

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000

А мне не поясните? А то что-то какое-то дикое последнее число.

ogion ★★
()
Ответ на: комментарий от GladAlex

> Надо сейчас просто проследить какие винты начнёт закупать Google ценная мысль

slava-soft
()
Ответ на: комментарий от ogion

что-то да. надо бы кого-нибудь попросить маленький ликбез на тему чтения вывода smartctl-я устроить. ибо оно непонятно и панику породить может.

dmiceman ★★★★★
()

херня это все... срок жизни винта зависит от самого винта, блока питания и температуры.

если температура высокая (какая температура является высокой для винта зависит от конкретной модели, риск начинается примерно от 50 градусов), то не справляется термокалибрация и появляются псевдо-бэды. псевдобэд в системной области (например при записи smart) - винт в готовность по интерфейсу при следующем включении не выйдет. т.е. он реально не умер, даже все данные в сохранности, но до них не доберешься без вмешательства специалиста. температура в том числе зависит от б/п, напряжение завышенное - винт будет изображать печку.

производители винтов ради прибыли народ дурят... например на младшие модели идет отбраковка от старших: блины тестирование на номинальную плотность не прошли, так их запихивают в младшую модель, заливают варь для меньшей плотности и продают.

anonymous
()
Ответ на: комментарий от anonymous

если смарт завышенную температуру или кучу reallocate показал, это конечно хорошо в плане диагностики, но совершенно не обязательно это случится. винт может в любой момент скопытиться безо всякого предупреждения. особо часто бывает что выключили комп, включили - винта нет, в safe mode ушел, т.к. какой-то модуль прочитать не смог. более 50% отказов у современных IDE-шных винтов это как раз проблемы с софтом, но вызваны они какими-то внешними причинами. учитывая что внутри винта чуть ли не операционка находится с кучей модулей, а у некоторых даже командная строка есть (нативные seagate)... ;-) малейшее повреждение операционки и привет.

anonymous
()

>херня это все... срок жизни винта зависит от самого винта, блока питания и температуры. Ну, у вас-то опыта больше, чем у Гугла...

anonymous
()
Ответ на: комментарий от dmiceman

> маленький ликбез на тему чтения вывода smartctl-я устроить

В общем так - если атрибут имеет метку Pre-fail, и ЕСЛИ WORST МЕНЬШЕ ЛИБО РАВЕН ЧЕМ THRESH - случалась проблема проблема. Если VALUE МЕНЬШЕ ЛИБО РАВЕН ЧЕМ THRESH - проблема случилась и продолжает сохраняться.

Если атрибут помечен как Old-age - то характеристика опускается по мере эксплуатации винта.

no-dashi ★★★★★
()
Ответ на: комментарий от sysenter

Это... а у меня в рав показывает реальную температуру, а вот в вэлью 108 градусов цельсия...

Кому верить?

anonymousI
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.