LINUX.ORG.RU

статистика SMART, поясните пожалуйста.


0

0

Не так давно на домашней машине издох один из жестких дисков. Перестал читать из некоторых секторов и все тут. Лагал жутко, данные восстаноавливал на другой ЖД очень долго, да и те с ошибками файловой системы, хвала рейзерфс, не подвела и много что восстановилось в целости, за исключением имен файлов ;) По прошествии некоторого времени стал задумываться, почему сбоящий ЖД не был выявлен СМАРТом. Нафиг тогда он вообще нужен этот СМАРТ? После того, как данные с ЖД были скопированы, стал ковырять его различными тестами ХДД. И все проги жутко лагали при чтении с него, но по статистике СМАРТ все было великолепно. Стал проверять СМАРТ статистику на всех ЖД, до которых смог дотянуться. Меня заинтересовали данные по статисике одного из ЖД, может кто пояснит?

  2 Throughput_Performance  0x0005   100   100   040    Pre-fail  Offline      -       225
  3 Spin_Up_Time            0x0007   245   245   033    Pre-fail  Always       -       1

я так понимаю, что эти значения предаварийные? И этому ЖД тоже скоро капец настанет? Хотя я на него не жалуюсь, работает вроде нормально. А вот у вышедшего из строя ЖД все поля Pre-fail были нулевые. Как это можно все понять?


>>По прошествии некоторого времени стал задумываться, почему сбоящий ЖД не был выявлен СМАРТом. Нафиг тогда он вообще нужен этот СМАРТ?

Смарт не обязан выявлять _все_ проблемы. Неисправности могут не найти прямого отражения в статистике.

>>я так понимаю, что эти значения предаварийные?

Значения нормальные.

gotf
()
Ответ на: комментарий от sicus

Там три столбца. Ориентируйся на THRESH. Это критические пороги. Ну, и сопоставляй VALUE (текущее) и WORST (худшее зарегистрированное). По WORST, например, можно отловить перегревы.

gotf
()
Ответ на: комментарий от gotf

жесть... ща попробую уловить.
thresh это значение до которого не должно снизиться value? И когда то было worst? Правильно?

sicus
() автор топика
Ответ на: комментарий от sicus

>>Правильно?

Да. Вообще, сильно много пользы ты из неё не извлечёшь. Наибольший интерес представляют температура, часы работы, циклы старт/стоп, по-моему :)

gotf
()
Ответ на: комментарий от gotf

мляха, вот полная таблица смарт:

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   062    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   040    Pre-fail  Offline      -       225
  3 Spin_Up_Time            0x0007   245   245   033    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       1078
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   040    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   088   088   000    Old_age   Always       -       5595
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1075
191 G-Sense_Error_Rate      0x000a   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       9
193 Load_Cycle_Count        0x0012   036   036   000    Old_age   Always       -       645636
194 Temperature_Celsius     0x0002   127   127   000    Old_age   Always       -       43 (Lifetime Min/Max 12/52)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       9
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   253   000    Old_age   Always       -       0
223 Load_Retry_Count        0x000a   100   100   000    Old_age   Always       -       0

как тогда понять "наихудшее" значение для UDMA_CRC_Error_Count, если оно выше value? Помоги :) 
Тоесть без предварительно собранной статистике по температуре и кол-ву остановок и стартов вообще сложно прогнозировать работу ЖД? Тоесть работа ЖД есть дело темное и неизученное? :) И победить отказ жесткого диска можно только нагромождая всяческие избыточные массивы ЖД?

sicus
() автор топика
Ответ на: комментарий от sicus

>>как тогда понять "наихудшее" значение для UDMA_CRC_Error_Count, если оно выше value?

>>Error_Count

Больше ошибок - хуже?

>>собранной статистике по температуре

Это тебе решать. В смарте есть худшее значение - самый жаркий момент в жизни диска. Если там аномально высокое значение, это может быть поводом задуматься, а может - и нет.

>>кол-ву остановок и стартов

Какая тут статистика? Это значение. Оно растёт. Просто полезно помнить, что количество этих циклов ограничено, как и Power_Cycle_Count - количество включений диска. В принципе, актуален, как я понимаю, именно Power_Cycle_Count.

gotf
()
Ответ на: комментарий от gotf

Что-то видать уже поздно, понимаю я плохо. Завтра попробую почитать по этому поводу что-нибудь.

А после какого значения Power_Cycle_Count или Power_On_Hours можно собираться в магазин за новыми дисками?

sicus
() автор топика
Ответ на: комментарий от sicus

>>А после какого значения Power_Cycle_Count или Power_On_Hours можно собираться в магазин за новыми дисками?

Вопрос к производителю. Но Power_On_Hours врядли когда-нибудь достигнет предела. Наработка на отказ современных устройств часто заявляется в районе 400-500 тыс. часов, ЕМНИП.

gotf
()
Ответ на: комментарий от nnz

>Рекомендую к ознакомлению: http://mydebianblog.blogspot.com/2007/11/blog-post.html

Читал когда то, там автор в категоричной форме перескаывает результаты исследования http://labs.google.com/papers/disk_failures.pdf , искажая их. Ничего более толкового чем указанный документ я по теме не видел.

aidaho ★★★★★
()
Ответ на: комментарий от sicus

>вот полная таблица смарт:

С этого топики о винчестерах надо начинать. В таблице указано 9 offline reallocation. Сама по себе цифра указывает, на близость полярной лисицы, но не имея информации о том когда и как параметр начал расти, выводов четких не сделаешь. Я бы на вашем месте приделал данным ноги, хотя до первой ошибки чтения ему возможно еще далеко. Смарт это не панацея, хотя и очень многое. Как хорошие так и плохие показатели можно (нужно) подвергнуть сомнению исходя из того, как они изменяются с течением жизни конкретного винчестера.

>И победить отказ жесткого диска можно только нагромождая всяческие избыточные массивы ЖД?

Да.

>Тоесть без предварительно собранной статистике по температуре и кол-ву остановок и стартов вообще сложно прогнозировать работу ЖД?

Да, винчестер (его модель в случае их большого количества) нужно знать в лицо. Температура, количество циклов старт/стоп, и общее время работы практически самые бесполезные для гадания на кофейной гуще параметры. В интернетах повсеместно утверждается, что количество циклов старт/стоп - это, в отличии от наработки, значимый параметр, но еще никто не смог свои слова чем-то подкрепить. Я этому неверю, пара винчестеров с ~1k циклов - тоже.

Единственный винчестер, в причину смерти которого я бы, пожалуй, записал несоблюдение температурного режима, был найден в системном блоке любителя тишины, после того, как оный перевел системник на пассивное охлаждение, а винчестер - на резиновые прокладки.

aidaho ★★★★★
()
Ответ на: комментарий от aidaho

>Читал когда то, там автор в категоричной форме перескаывает результаты исследования http://labs.google.com/papers/disk_failures.pdf , искажая их. Ничего более толкового чем указанный документ я по теме не видел.

Не знаю, мне понравилось. Очень толково написано.

Что значит "в категоричной форме"? Что искажает автор?
Ну и кроме анализа гугловской статистики, в статье есть и много другой интересной информации.

nnz ★★★★
()
Ответ на: комментарий от nnz

Я и не говорю, что статья плоха, просто есть лучше. Кости этой статье я уже когда-то перемывал, если вспомню где, дам линк.

aidaho ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.