LINUX.ORG.RU
решено ФорумAdmin

Multi_Zone_Error_Rate

 ,


1

2

Есть новый сервер с двумя новыми винтами в mdraid 1. После непродолжительной, но интенсивной работы этих дисков (установка и клонирование нескольких виртуальных машин kvm) один из них показывает:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   142   141   021    Pre-fail  Always       -       3891
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       17
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       142
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       15
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       2
194 Temperature_Celsius     0x0022   109   106   000    Old_age   Always       -       5922 (0 0 0 36)
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       3

Что хотел спросить: насколько плохо Multi_Zone_Error_Rate !=0 для нового винта? Есть ли смысл срочно менять его или оставить как есть?

В интернетах пишут, что при больших показателях этого датчика работа с диском сильно замедляется.



Последнее исправление: CYB3R (всего исправлений: 1)

Может по нему стучали во время записи, вот он и промазал с позиционированием?

Мое мнение - пока забить и последить чтоб не росло.

sergv
()
Ответ на: комментарий от sergv

Там комната арендована в датацентре. С замком и охранниками снаружи. Стучать некому. Привезли, подключили, уехали. Сразу после установки свежей системы на него проверил показания - везде было по нулям. После нагрузки - вылезло 3.

Кстати, пока везли, вполне могли случайно стукнуть, но это случилось бы до подключения и установки, и я бы, наверное, увидел сразу. Или smart не так быстро данные обновляет?

fjoe
() автор топика
Ответ на: комментарий от fjoe

Или smart не так быстро данные обновляет?

Должен сразу. У меня так и делает.

Тогда, на мой взгляд, два варианта

  • хреновое крепление диска/вибрации корпуса
  • таки битая поверхность
sergv
()
Ответ на: комментарий от sergv

хреновое крепление диска/вибрации корпуса

Интересный вариант. Это ж как он должен вибрировать? Или там достатосно совсем немного? Вобще у сервера штуки 4 пропеллера рассовано по углам, всякое может быть...

таки битая поверхность

А разве это не Reallocated_Sector_Ct ?

fjoe
() автор топика
Ответ на: комментарий от fjoe

Вобще у сервера штуки 4 пропеллера рассовано по углам, всякое может быть...

Не! Пропеллеры - они центрованные-же! (Пачками серванты и с большим количеством стоят)

А разве это не Reallocated_Sector_Ct ?

Reallocated_Sector_Ct - оно вроде-как при чтении прет. А вот малтизона - она при записи.

Во! Нашел:

Multi-Zone Error Rate: The count of errors found when writing a sector. The higher the value, the worse the disk's mechanical condition is.

sergv
()
Ответ на: комментарий от sergv

Reallocated_Sector_Ct - оно вроде-как при чтении прет. А вот малтизона - она при записи.

Понятно. Тогда такой вопрос:

Или smart не так быстро данные обновляет?

Должен сразу. У меня так и делает.

Различия Reallocated_Sector_Ct и Multi-Zone Error Rate в том, что первый датчик регистрирует кол-во(Count), а второй скорость(Rate). Пусть датчик Multi-Zone показывает 3, значти ошибки записи идут постоянно если информация там в реальном времени обновляется? Т.е. стукнули - позиционирование сбилось, потом восстановилось и у меня опять там 0 должен быть. Теоретически. Если всё именно так, значит или вся поверхность неочень или простоянная вибрация, да.

The higher the value, the worse the disk's mechanical condition is.

Ага, читал. Потому и думаю, что не дело это новому девайсу показывать свой mechanical condition. Не вовремя как-то после 142 часов полета.

(Пачками серванты и с большим количеством стоят)

Попробую заслать курьера. Пусть вскроет малыша, затянет гайки и переселит в другой стояк где попросторнее. Вдруг отпустит.

fjoe
() автор топика
Ответ на: комментарий от fjoe

Различия Reallocated_Sector_Ct и Multi-Zone Error Rate в том, что первый датчик регистрирует кол-во(Count), а второй скорость(Rate).

> Multi-Zone Error Rate: The count of errors found when writing a sector.

Вот меня это тоже напрягло. Особенно когда Rate через Count определяется. Есть подозрение, что оно Rate только потому, что диск несколько раз подряд не смог сектор/дорогу записать.

Подробнее не рыл.

sergv
()
Ответ на: комментарий от fjoe

Если верить тому, что написано в man'e от smartclt, Offline означает, что этот атрибут изменяется только при запуске offline теста. Так что может попробовать «разобрать» RAID, чтобы на этот диск не шла запись, запустить этот тест (на несколько часов) и посмотреть результаты.

mky ★★★★★
()
Ответ на: комментарий от mky

Так и сделал. Исключил проблемный диск, запустил на ночь тест.

smartctl -t offline /dev/sdb

Картина изменилась:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   142   141   021    Pre-fail  Always       -       3891
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       17
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       282
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       15
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       2
194 Temperature_Celsius     0x0022   109   106   000    Old_age   Always       -       5922 (0 0 0 36)
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       1
Теперь там 1 вместо 3. Уже лучше, но всё ещё не идеально. Стоит ли активно от него избавляться? Или пусть живёт?

fjoe
() автор топика
Ответ на: комментарий от fjoe

Я бы оставил, посмотрел бы что будет через месяц работы. Я не знаю, что точно значит это параметр, но по идее, когда винт совсем не может записать сектор, то происходит Realloc, то есть растёт Reallocated_Sector_Ct.

Хотя может прогнать тест ещё раз и если это парметр не обнулится, то попробовать связатся с продавцами, может поменяют по гарантии. Иногда даже сначала дают новый винт, а потом забирают старый.

P.S. Тест то завершился без ошибок?

mky ★★★★★
()
Ответ на: комментарий от mky

Тогда запущу еще сегодня пару раз тест, посмотрю за результатами. Поставщики, как обычно, тянут резину. Как раз где-то месяц проработает пока/если заменят. Ну и raid1 должно помочь, если вдруг винту резко поплохеет.

P.S. Тест то завершился без ошибок?

Да, похоже ошибок не найдено. Вот полностью:

[root@hypervisor2 ~]# smartctl -a /dev/sdb
smartctl 5.39.1 2010-01-28 r3054 [x86_64-redhat-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD5003ABYX-18WERA0
Serial Number:    WD-WMAYP3229711
Firmware Version: 01.01S02
User Capacity:    500,107,862,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Sun May 27 05:27:40 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (7500) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  80) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x303f)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   142   141   021    Pre-fail  Always       -       3891
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       17
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       285
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       15
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       14
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       2
194 Temperature_Celsius     0x0022   110   106   000    Old_age   Always       -       5921 (0 0 0 36)
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       1

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       142         -
# 2  Short offline       Aborted by host               80%       142         -
# 3  Extended offline    Completed without error       00%         2         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

[root@hypervisor2 ~]# 
Пишет 'Completed without error', только вот что-то оно со временем (Lifetime) перекосило. Теоретически должно быть не 142 часа в записи #1, а 270 примерно. Ну, думаю, это мелочи.

fjoe
() автор топика
Ответ на: комментарий от fjoe

По поводу часов ничего не скажу. RAW-значение в Power_On_Hours может измерятся в любых «попугаях» и с «LifeTime(hours)» у прошивок Вестернов были проблемы: http://sourceforge.net/apps/trac/smartmontools/wiki/FAQ#Thetimestampsinthesel...

Я бы порекомендовал сделать «smartctl -C -t long /dev/sdb»

mky ★★★★★
()
Ответ на: комментарий от mky

у прошивок Вестернов были проблемы

Ознакомился, буду знать.

Я бы порекомендовал сделать «smartctl -C -t long /dev/sdb»

Опция '-C'(captive) не проходит, по-моему, из-за того, что винт не SCSI а простой SATA. Падает пара уведомлений в messages из драйвера и тест помечается как Interrupted. Поэтому запустил пару раз 'smartctl -t long /dev/sdb' без '-C'. Все тесты пройдены успешно. Показание датчика не изменилось - показывает 1.

fjoe
() автор топика
Ответ на: комментарий от mky

RAW-значение в Power_On_Hours может измерятся в любых «попугаях»

Любое RAW значение может измеряться в попугаях. //Ваш КО.

Macil ★★★★★
()
Ответ на: комментарий от fjoe

На время captive теста не должно быть вобще никаких обращений к винту. Если в dmesg сообщение содержит «resetting link», значит какая-то программа или ядро чего-то хотели от винта (прочитать/записать). Но это так, просто информация, раз long тест прошёл и «1» осталась, значит так и будет. Просто, captive режим, вроде, должен выполнять тест за меньшее время.

mky ★★★★★
()
Ответ на: комментарий от mky

Решено.

Да, captive так и не запустился. Потестировал в обычном режиме еще несколько раз - без изменений. Буду активно избавляться от устройства. Большое спасибо за разъяснения.

sergv тоже благодарю за интересные идеи. Жаль не подтвердилось с креплениями и вибрацией. Перемещение в пустую стойку не помогло. Винт изначально был закреплен хорошо.

fjoe
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.