LINUX.ORG.RU
ФорумAdmin

Как проверить хард на сервере без ребута?


0

1

Возникло подозрение что хард на серваке сбоит. По smart всё хорошо, но вот по atop видно что один из хардов быстро с io справляется, а второй периодически в ступор впадает(харды в зеркале).

Хочу запустить что-нить типа mhdd. Может выкинуть хард из зеркала, прокинуть его в kvm и там запустить mhdd? Или есть ещё какие идеи получше? Физического доступа к серверу нет, ребутать сервер очень нежелательно.

★★★★★
Ответ на: комментарий от Zhbert

ssh итп всё есть, вопрос в том как бы тестов на нём прогонять. В dmesg нет сообщений о сбоях итп. Всё вроде как нормально. Только вот после пятничного апдейта ядра и ребута iowait в разы вырос, всё периодически в ступор впадает. atop показывает что упирается всё в один винт, процессов, однако, которые дрючат винт нету.

Более того, пугает периодичность картины: http://ompldr.org/vNmZxaA , началась такая пилка в пятницу после апдейтов и ребута.

Я даже не знаю что и думать. Какой-нить самотест у винта включился?

true_admin ★★★★★
() автор топика
Ответ на: комментарий от AITap

badblocks?

а нету на нём сбоев, есть сильная деградация io.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

>> Какой-нить самотест у винта включился?

У SMART long test время выполнения вполне разумное, в пределах пары часов обычно.

GotF ★★★★★
()

отключил смарт для этого винта вообще, посмотрим что будет через час.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

>> Только вот после пятничного апдейта ядра и ребута

Дык, может, стоит загрузить предыдущее ядро?

GotF ★★★★★
()
Ответ на: комментарий от GotF

Дык, может, стоит загрузить предыдущее ядро?

Если не поможет то так и надо будет сделать. ОС debian 5.0 amd64.

Вообще, смотрю, под нагрузкой винт сбоить не хочет, вот как только сервер простаивает сразу какая-то фигня начинается. Да ещё и периодичность пилы на графике сразу наводит на мысль о софтварных проблемах. Но я даже крон убивал...

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

>> как отключить long test?

AFAIK, он сам по себе вообще не включается, независимо от состояния диска.

GotF ★★★★★
()
Ответ на: комментарий от GotF

ммм, iotop нету, есть atop :). Думаю они берут из одного места инфу, из /proc, поэтому пофиг что юзать.

Вот как это выглядит: http://ompldr.org/vNmZyMw

Т.е. видно что процессы с винтом ничего не делают а винт издыхает даже при выполнении одного запроса. 3000ms это время обновления atop, на самом деле. Т.е. я думаю что провалы сильнее.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от YAR

спасибо, в спешке пропустил этот параметр. Посмотрим чем закончится. Думаю, минут через 20 будет понятно.

true_admin ★★★★★
() автор топика

Даже скрипт успел налабать для проверки дисков.

#!/usr/bin/env python3

import sys
import time
if len(sys.argv) != 2:
    sys.exit("Provide one and only one parameter: disk(e.g. /dev/sda)!")
disk_path = sys.argv[1]
meg = 1024*1024

fd = open(disk_path, mode='rb')
while True:
    time_before = time.time()
    data = fd.read(10*meg)
    time_after = time.time()

    data_len = len(data)
    delta = time_after - time_before

    if not data_len:
        break

    if delta < 0.1:
        print('.', end='')
    elif delta < 0.15:
        print('-', end='')
    elif delta < 0.20:
        print('~', end='')
    elif delta < 0.5:
        print('^', end='')
    else:
        print('B', end='')

    sys.stdout.flush()


fd.close()

true_admin ★★★★★
() автор топика
Ответ на: комментарий от YAR

не помогло, в момент тормозов даже smartctl лагает. Приветствие выводит а потом подолгу висит на посылке комманды харду.

Не знаю что и думать. Щас запущу питоновский тест что выше писал.

true_admin ★★★★★
() автор топика

Трава... Убрал хард из массива и никаких проблем. Тест тоже проблем не показывает, но, возможно, проблемы в самом конце, так что надо дождаться окончания теста.

Думаю всё же что никакой мистики нет, просто какой-то из кронов вызывает периодическую запись на диск в то место где у sdb есть проблемы а у sda нет.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от mky

да, я знаю об этом. Только я уже так натрахался со всеми этими фридосами, грабом и образами дискет при обновлении биоса(кстати, так и не обновилось, пришлось загонять винду на флешку, что убило ещё пол дня т.к. не все сборки виндов стартовать хотели) что ни времени, ни желания, ни возможности(нельзя тогда было ребутать сервер) фиксить сразу не было.

Да и щас смысла нет, дело-то в испорченной поверхности диска а не раздолбаном механизме перемещения головок. Это видно из вывода того скрипта что я запостил выше. Вот если бы по всей поверхности диска были проблемы.

Кстати, вот на хабре и многих других источниках пишут что кроме wdidle3.exe проблему не исправить и я на это повёлся. А вот в саппорте wd пишут что hdparm -B 255 /dev/sdX решает проблему(только щас вычитал по ссылке с хабра). Так и сделаю если винт выживет, но я уже не хочу чтобы он выживал т.к. если проблема не в нём то придётся ковырять патчи ядра и смотреть где поломали поддержку дисков между двумя апдейтами, а это большой секс.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

Я вывод того скрипта не видел. Может вы и правы, и диск начил отмапливать сектора, но не пишет об этом в SMART. Но вы посмотрите, растёт у вас Load_Cycle_Count при обычно работе и как быстро? Потому что парковка головок в непоходящие моменты тоже должна давать лаги.

mky ★★★★★
()
Ответ на: комментарий от mky

Я вывод того скрипта не видел.

там ничего интересного. Видно что диск поюзанный, но криминала нет. Но это был тест на чтение, а проблемы, как видно из atop, были на записи. Щас модифицирую скрипт и буду делать запись.

растёт у вас Load_Cycle_Count при обычно работе и как быстро?

Стабильно рос, как у всех.

Потому что парковка головок в непоходящие моменты тоже должна давать лаги.

Так он их паркует только когда idle более 8 секунд. Он шпиндель не останавливает, поэтому возврат в рабочее положение занимает милисекунды. Я знаю это потому что на ноуте та же беда с убунтой, винт щёлкает(http://ubuntuforums.org/showthread.php?p=5038155#post5038155), однако на скорости это никак не сказывается. А тут на сервере всё io замирает секунд на 10-15.

Кстати, совет от wd не помог:

master:/etc/cron.d# hdparm -B 255 /dev/sdb

/dev/sdb:
 setting Advanced Power Management level to disabled
 HDIO_DRIVE_CMD failed: Input/output error

true_admin ★★★★★
() автор топика
Ответ на: комментарий от mky

Думаю что пипец винту, вот данные со скрипта:

http://ompldr.org/vNmc0YQ

Там где точка это значит что скорость выше 30мб в секунду, там где число-это средняя скорость на участке в 10метров.

В общем, картина не жизнерадостная, всё равно его лучше поменять.

Спасибо за помощь в диагностике этого бага.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от Pinkbyte

рейд-массив случаем не полусофтовый от intel?

нет, полностью софтварный. Я доверяю только им :).

true_admin ★★★★★
() автор топика
Ответ на: комментарий от Nordman

Смотрим по очереди:

там всё хорошо. Всё это заменяет один dmesg, на самом деле.

true_admin ★★★★★
() автор топика

я лошара, скрипт не рабочий. Надо добавить os.fsync() и/или open(buffering=0) . А иначе кривые результаты получаются.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

На хабре и в других местах говорят о том, что автопарковка в WD даёт тормоза, да и вы сами писали: «Вообще, смотрю, под нагрузкой винт сбоить не хочет». Я не специалист по WD и по ноутбучным винтам, но, возможно, у них разные действия выполняются при парковке головок. Возможно, ваш WD как то криво выводит головки из паркованного состояния. Попробуйте изменить свой тест, сделайте рандомайзное чтение небольшого блока посмотрите среднее время, а потом сделайте то же самое, но между чтениями дайте 8-10 сек. Только блоки читайте разные, чтобы они в кеше случаем не оказались.

mky ★★★★★
()
Ответ на: комментарий от mky

автопарковка в WD даёт тормоза

ну не на 30 секунд же полный зависон. Если только не баг в прошивке винта... Попробую завтра wdidle из freedos запустить и пофиксить эту проблему.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от mky

йопрст, сначала эта утилита не видела диски, пришлось из ahci в обычный режим перерубать, потом обратно.

Так в финале она все данные потёрла с винта!!! Хорошо что это грёбаная утилита нашла только один диск wd(для второго выдала ошибку, хотя винт такой же модели), а то бы унижтожила рейд-массив целиком. А если бы и бэкапный винт был wd то вообще крантец(удалённые бэкапы есть, но полное восстановление займёт ооочень долго, поэтому и стоит отдельный винт для бэкапов). Пи**ец этот wd.

Ты hitachi использовал большого объёмая? Уж больно мнение о них противоречивое в инете. Хочу сваливать с wd по мере их выхода из строя. Надёжность у них средненькая, не вижу смысла дальше оплачивать из своего кошелька криворуких программеров wd.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от mky

так, я посмотрел внимательно на серийники и понял что wdidle3.exe не смог завершить операцию с этим винтом и выдал на нём ошибку. Видимо, капец винду, хотя при линейном чтении-запии проблем нет. Так же выяснилось что пострадала только таблица разделов, данные есть. Впрочем, логично, за 15 сек что висел wdidle3.exe он бы не успел стереть все данные.

В общем, или мамка дурит или винт. Как дальше определить не знаю, физического доступа нет, сервер очень далеко. Но склоняюсь к проблеме в винте, этот сервер уже много винтов видел, а вот материнки никогда не глючили.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от true_admin

>Ты hitachi использовал большого объёма

Нет, думал, но не стал их брать, а той неделе купил пару этих самых WD на 1 Тб, ещё не распакованные лежат. А ты мне тут ужастиков нарасказывал, как теперь спать :)

mky ★★★★★
()

Если вдруг интересно, смарт с винтов ~3-летнего возраста:

==============================================================================
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.11
Device Model:     ST31000340AS
Serial Number:    9QJ1PEJ2
Firmware Version: SD1A
User Capacity:    1,000,204,886,016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Wed Dec  8 15:40:05 2010 VOLT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 ( 634) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 225) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x103b)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   099   006    Pre-fail  Always       -       26648231
  3 Spin_Up_Time            0x0003   092   091   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       81
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   057   053   030    Pre-fail  Always       -       665791921430
  9 Power_On_Hours          0x0032   084   084   000    Old_age   Always       -       14115
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       81
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   061   043   045    Old_age   Always   In_the_past 39 (0 5 41 32)
194 Temperature_Celsius     0x0022   039   057   000    Old_age   Always       -       39 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   050   026   000    Old_age   Always       -       26648231
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

==============================================================================

berrywizard ★★★★★
()
==============================================================================
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     SAMSUNG HD103UJ
Serial Number:    S13PJ1CQ614741
Firmware Version: 1AA01112
User Capacity:    1,000,204,886,016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 3b
Local Time is:    Wed Dec  8 15:40:05 2010 VOLT

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (11882) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 199) minutes.
Conveyance self-test routine
recommended polling time: 	 (  21) minutes.
SCT capabilities: 	       (0x003f)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   098   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   076   076   011    Pre-fail  Always       -       7980
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       62
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       12365
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       62
 13 Read_Soft_Error_Rate    0x000e   100   098   000    Old_age   Always       -       0
183 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
184 Unknown_Attribute       0x0033   100   100   099    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       115
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   069   058   000    Old_age   Always       -       31 (Lifetime Min/Max 27/31)
194 Temperature_Celsius     0x0022   068   057   000    Old_age   Always       -       32 (Lifetime Min/Max 25/35)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       255217190
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 0
Warning: ATA Specification requires self-test log structure revision number = 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective Self-Test Log Data Structure Revision Number (0) should be 1
SMART Selective self-test log data structure revision number 0
Warning: ATA Specification requires selective self-test log data structure revision number = 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

==============================================================================
berrywizard ★★★★★
()
==============================================================================
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00J7B0
Serial Number:    WD-WMATV0110909
Firmware Version: 05.00K05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Dec  8 15:40:05 2010 VOLT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)	Offline data collection activity
					was suspended by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (19200) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 221) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x303f)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       5691
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       88
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   051    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   081   081   000    Old_age   Always       -       14452
 10 Spin_Retry_Count        0x0032   100   253   051    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   051    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       88
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       31
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       88
194 Temperature_Celsius     0x0022   104   101   000    Old_age   Always       -       46
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   051    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

==============================================================================
berrywizard ★★★★★
()
==============================================================================
smartctl version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi Deskstar 7K1000
Device Model:     Hitachi HDS721010KLA330
Serial Number:    GTE002PAJ3JJ6E
Firmware Version: GKAOAB0A
User Capacity:    1,000,204,886,016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 1
Local Time is:    Wed Dec  8 15:40:05 2010 VOLT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (15354) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 ( 255) minutes.
SCT capabilities: 	       (0x003f)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   130   130   054    Pre-fail  Offline      -       154
  3 Spin_Up_Time            0x0007   115   115   024    Pre-fail  Always       -       564 (Average 647)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       86
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   132   132   020    Pre-fail  Offline      -       33
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       14133
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       86
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       313
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       313
194 Temperature_Celsius     0x0002   142   142   000    Old_age   Always       -       42 (Lifetime Min/Max 21/57)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
==============================================================================

У сигейта (и имеющегося в наличии макстора, практически близнец барракуды вверху) был какой-то критический косяк с прошивкой, были оба перешиты.

Винты в 10 рейде.

Personalities : [raid1] [raid0] 
md2 : active raid0 md0[0] md1[1]
      1953519744 blocks 64k chunks
      
md1 : active raid1 sdc1[1] sdb1[0]
      976759936 blocks [2/2] [UU]
      
md0 : active raid1 sde1[1] sdd1[0]
      976759936 blocks [2/2] [UU]

berrywizard ★★★★★
()
Ответ на: комментарий от berrywizard

Если вдруг интересно, смарт с винтов ~3-летнего возраста:

Ну, в работе они меньше 2-х лет :). У меня один винт 13тыщ часов наработал, а второй, сбойный, 9.

true_admin ★★★★★
() автор топика
Ответ на: комментарий от mky

А ты мне тут ужастиков нарасказывал, как теперь спать :)

так раз на раз не приходится, я щас выяснил что под одним названием пихают модели даже с разным количеством блинов. Потом косяк выплыл после года эксплуатации и только после планового ребута. И то может там мамка глючит...

true_admin ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.