LINUX.ORG.RU
ФорумAdmin

SMART прислал сообщение. Диск менять? какой прогой перетаскивать данные ?

 ,


1

2
This email was generated by the smartd daemon running on:

   host name: proxmox1
  DNS domain: хххх.ru
  NIS domain: (none)

The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], Failed SMART usage Attribute: 1 Raw_Read_Error_Rate.

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
Another email message will be sent in 24 hours if the problem persists.
# smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.32-23-pve] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD4000FYYZ-01UL1B0
Serial Number:    WD-WCC130207477
LU WWN Device Id: 5 0014ee 207ac2a0c
Firmware Version: 01.01K01
User Capacity:    4,000,787,030,016 bytes [4.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Jan 14 14:12:12 2015 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x85) Offline data collection activity
                                        was aborted by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 241) Self-test routine in progress...
                                        10% of test remaining.
Total time to complete Offline
data collection:                (47100) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 255) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x70bd) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   001   001   051    Pre-fail  Always   FAILING_NOW 1264
  3 Spin_Up_Time            0x0027   156   143   021    Pre-fail  Always       -       11200
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       41
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   080   080   000    Old_age   Always       -       14819
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       41
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       26
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       38
194 Temperature_Celsius     0x0022   107   088   000    Old_age   Always       -       45
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     14764         -
# 2  Short offline       Completed without error       00%     14558         -
# 3  Short offline       Completed without error       00%     14524         -
# 4  Short offline       Completed without error       00%     14508         -
# 5  Short offline       Completed without error       00%     14426         -
# 6  Short offline       Completed without error       00%     14381         -
# 7  Short offline       Completed without error       00%     14286         -
# 8  Short offline       Completed without error       00%     14238         -
# 9  Short offline       Completed without error       00%     14207         -
#10  Short offline       Completed without error       00%     14160         -
#11  Short offline       Completed without error       00%     14114         -
#12  Short offline       Completed without error       00%     14073         -
#13  Short offline       Completed without error       00%     14053         -
#14  Short offline       Completed without error       00%     14021         -
#15  Short offline       Completed without error       00%     13974         -
#16  Short offline       Completed without error       00%     13961         -
#17  Short offline       Completed without error       00%     13925         -
#18  Short offline       Completed without error       00%     13904         -
#19  Short offline       Completed without error       00%     13873         -
#20  Short offline       Completed without error       00%     13830         -
#21  Short offline       Completed without error       00%     13788         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

на глазах увеличивается счетчик Raw_Read_Error_Rate
Диск заменить или для WD эта ошибка ничего не значит?
На замену 4TB от WD пойдет 4TB от HITACHI HDD 4 Tb SATA 6Gb / s Hitachi Ultrastar 7K4000 < HUS724040ALA640 > 3.5" 7200rpm 64Mb ?
Если менять то какой утилитой перетащить данные, диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.

★★★★

Последнее исправление: Vlad-76 (всего исправлений: 1)

Прогони в виктории. Может починит.

gh0stwizard ★★★★★
()

на глазах увеличивается счетчик Raw_Read_Error_Rate

В стодецальонный раз повторю — RAW_VALUE читают только роботы, это не для людей.

The raw value has different structure for different vendors and is often not meaningful as a decimal number.

или для WD эта ошибка ничего не значит?

Pre-fail

Не, конечно ничего не значит, ты чо. // sarcasm.png

redgremlin ★★★★★
()
Ответ на: комментарий от redgremlin

ничего не значит - имелось ввиду что беспокоиться не о чем в случае если эта ошибка появляется у производителя WD.

Vlad-76 ★★★★
() автор топика

Для WD критичный параметр.

Lavos ★★★★★
()

FAILING_NOW

Диск умирает (ну, или SMART так думает. Лучше поверить).

Диск заменить

Немедленно.

Я правильно понял, что RAID'а там нет?

nbw ★★★
()
Ответ на: комментарий от Vlad-76

ты умеешь вытащить смарт, но

Диск заменить или для WD эта ошибка ничего не значит?

ты не понимаешь что у тебя происходит, не знаешь оборудование или оно не твое

диск поду управлением drbd, поверх drbd LVM с виртуалками KVM.

весьма сложная конструкция, если бы ты это сделал это сам, то с элементарные вопросы тут не задавал бы, если таки натыкал эту конфигурацию в проксмоксе, и считаешь что этого достаточно, у меня для тебя плохие новости

Если менять то какой утилитой перетащить данные

ты не знаешь инструменты и следовательно не можешь уметь ими пользоваться т.е. ты не админ - логично позвать админа чтобы он сделал свою работу, из твоих вопросов, на мой взгляд, следует, что шансов справится у тебя немного.

handbrake ★★★
()
Ответ на: комментарий от anonymous_sama

следствие больного опыта, к счастью не моего

Vlad-76 ★★★★
() автор топика
Ответ на: комментарий от handbrake

WD диск точно не мой, это диск WD как впрочем и остальное железо и софт. опыт такая штука, что он устаревает и нужно его освежать.

Vlad-76 ★★★★
() автор топика
Последнее исправление: Vlad-76 (всего исправлений: 1)

Добавь в систему дополнительный диск. Сделай на нём LVM. И перетащи данные. Всё это можно сделать не отключая сервисы и не приостанавливая работу.

rezedent12 ☆☆☆
()
Ответ на: комментарий от MrClon

использовал clonezilla
Но увы диск сдох окончательно - во время копирования были слышны постукивания, поскрипывания,пришлось брать новый и с нуля настраивать drbd.

Vlad-76 ★★★★
() автор топика
Ответ на: комментарий от handbrake

Данные целы, копия данных drbd ресурса была на второй ноде. После синхронизации данных кластер заработал, с резервной ноды виртуалки перехали на основную - на которой был заменен диск.
В целом время НЕ обслуживания кластером пользователей равнялось времени миграции виртуалок в основной ноды на резервную, после аварии с диском.
И это мне повезло - грохнулся не системный диск, а диск с drbd на котором были виртуалки. Думаю что системный диск нужно резервировать с использованием RAID контроллера, т.е. повысить изначально отказоустойчивость в два раза - сделать зеркало.
Вот если он грохнется, то тут меня освежевают.

Vlad-76 ★★★★
() автор топика
Ответ на: комментарий от Vlad-76

А был бы простой mdadm без кластеров, наживую поменял бы диск и восстановил бы зеркало без простоя вообще - диски расходник. Аппаратные рейды - нафиг. Хорошо, что дрбд нормально отработал, он, кстати, по какой схеме собран ?

Думаю что системный диск нужно резервировать с использованием RAID контроллера, т.е. повысить изначально отказоустойчивость в два раза - сделать зеркало.

Еще один (почти) все понял. Я правильно понимаю, что все настройки через морду проксмокса делаются ?

handbrake ★★★
()
Ответ на: комментарий от handbrake

На живую не получается, кластер на десктопном железе. Корзинки для горячей замены дисков нет. А так да все на горячую можно было бы сделать и с гораздо меньшими издержками. DRBD сорбран по схеме primary-primary, по инструкции на сайте proxmox. То что нормально drbd отработал, ну не знаю может повезло - хотя ведь так и должно быть. Иначе зачем оно?
Настройки drbd изначальные руками делаются.
во время устранения аварии с диском все системные операции руками. В админке proxmox только миграцию виртуалок запускал, после того как drbd восстановил.
mdadm - не рекомендован разрабами proxmox. Хотя и не панацея.

Vlad-76 ★★★★
() автор топика
Последнее исправление: Vlad-76 (всего исправлений: 2)
Ответ на: комментарий от HeipaVai1o

займусь этими командами для системного диска

Vlad-76 ★★★★
() автор топика

Можешь гордиться, настоящее сообщение SMART большая редкость.

Температура диска высоковата и, и судя по значениям смарта была еще выше. Это не гут для дисков. Надо продумать вопрос с охлаждением.

Диск однозначно менять. Причем текущее состояние смарта — повод менять по гарантии, если еще есть.

Macil ★★★★★
()
Ответ на: комментарий от Vlad-76

Ты даже не представляешь, КАК тебе повезло. Смарт сработал на харде, на которых они обычно не работают, drbd в самом опасном режиме не сдох. На десктопном железе. Ты джекпот словил.

handbrake ★★★
()
Ответ на: комментарий от Macil

Про температруру для себя отметил когда менял винт, возможно в корпусе компа нужен доп вентилятор или новый корпус.
на других серверах у дисков температура 25,28,36 градусов.

Vlad-76 ★★★★
() автор топика
Ответ на: комментарий от Macil

собственно, вот таких осмысленных ответов и ожидаешь от форума

Vlad-76 ★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.