WD30EFRX ошибки smart

 , , ,



привет форумчане прошу помощи

Есть Xenserver к которому были недавно подключены 2 диска WD30EFRX диски новые и все смарт показатели были проверены перед началом работы. Ошибок не было. Работа под нагрузкой тоже была без ошибок. Далее диски были проброшены ка блочное устройство в виртуалку где их разбили на части и создали lvm (lvcreate -i3 -I512K -n lv02 -l100%free vg02). В процессе копирования информации оба диска получили ошибки по смарт.

[root@XEN ~]# smartctl -a /dev/sdd smartctl 6.2 2013-07-26 r3841 [x86_64-linux-4.4.0+10] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke,

=== START OF INFORMATION SECTION === Model Family: Western Digital Red (AF) Device Model: WDC WD30EFRX-68EUZN0 Serial Number: WD-WCC4N6ZTPU8V LU WWN Device Id: 5 0014ee 262d24f3a Firmware Version: 82.00A82 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Tue Jul 3 11:55:51 2018 EEST SMART support is: Available - device has SMART capability. SMART support is: Enabled

=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED

General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (38760) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 389) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x703d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 180 179 021 Pre-fail Always - 6000 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 9 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 41 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 9 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 2 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 36 194 Temperature_Celsius 0x0022 117 110 000 Old_age Always - 33 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

SMART Error Log Version: 1 Warning: ATA error count 36172 inconsistent with error log pointer 4

ATA Error Count: 36172 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 36172 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:48:28.927 READ DMA

Error 36171 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:47:39.801 READ DMA

Error 36170 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:46:49.532 READ DMA

Error 36169 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 08 00 e0 Error: UNC 8 sectors at LBA = 0x00000800 = 2048

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 08 00 e0 00 09:43:02.611 READ DMA

Error 36168 occurred at disk power-on lifetime: 35 hours (1 days + 11 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:16:48.118 READ DMA

SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 41 - # 2 Extended offline Aborted by host 90% 41 - # 3 Short offline Completed without error 00% 40 -

SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

Диски были выведены из виртуалки вся информация на них была снесена. Пытаюсь понять где я накосячил с разбивкой диска и можно ли убрать эти ошибки?

У тебя написано что они умерли. Не Бери WD в следующий раз. Ошибки служат напоминанием о том что всё плохо.

Aborted by host

вот это зря

Ответ на: комментарий от deimos

На горячую включали/выключали? Если больше появляться не будет, можно забить. Ну и -t long для успокоения прогнать (только не надо ему мешать).

Ответ на: комментарий от anonymous

когда на них шла запись был глюк с одним из кабелей Скорость по одному из винтов сильно просядала плюс я сделал lvcreate -i3 -I512K -n lv02 -l100%free vg02 а надо было -I4096K под размер сектора диска

ошибка сначала выпала на этом диске, потом и на втором появилась Так же был период когда просто один из дисков отваливался по не понятной причине :( Думаю питания не хватило или все-таки кабель гавно

() автор топика
Ответ на: комментарий от deimos

Ну оба варианта могли послужить причиной подобного. Это не похоже на программную проблему.

Ответ на: комментарий от anonymous

т.е. это не сбой винта это сбой моих кривых рук пофиксить это возможно ?

На некоторых форумах говорят что -t long может убрать эти ошибки но чет я не верю. Кабеля новые купил вечером сменю на всякий случай

() автор топика
Ответ на: комментарий от deimos

На некоторых форумах говорят что -t long может убрать эти ошибки но чет я не верю

Ошибки из логов, естественно, убрать нельзя и не нужно, это дело прошлое.

-t long не способен что-то убрать, поскольку это тест чтения.

Прогони badblocks -w и увидишь косяки и со шлейфами и (некоторые) с питанием и поверхность проверишь.


и все смарт показатели были проверены перед началом работы

почему тогда все три теста были на 40+ часу, когда он уже померал? может ты не те диски тестил?
или имеешь ввиду, что просто посмотрел значения?

system-root ★★★★★
Ответ на: комментарий от deimos

Нам нужны специалисты по дешёвым бпшкам из того топика (особенно в свете проблем Залмана). Есть ещё вариант бага в чипсете материнской платы, очень популярная тема была.

Ответ на: комментарий от deimos

смотри как оно бывает

~# smatctl -a /dev/disk/by-id/ata-ST2000DM006-2DM164_Z4ZB4913
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       40
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%         4         -
тест кончился на четвёртом часу работы диска, а всего он включён 40 часов.

system-root ★★★★★
Последнее исправление: system-root (всего исправлений: 1)

Ошибки никак не связаны с разбивкой, это UNC (uncorrectable read error), диску с поверхности не прочесть данные. Если дело не в самом диске, то в БП или шлейфе питания. Если бы беда была со шлейфом данных, то ошибки были бы ICRC.

olegkrutov ★★
Ответ на: комментарий от olegkrutov

я каким-то образом потерял два винта? 4 других без ошибок

ими можно пользоваться? или уже рыдать (купил по скидке в Европе, вернуться нет возможности чеки сдал по GlobalBlue) все эти показатели Vendor Specific SMART Attributes with Thresholds: в норме. Плюс нету посторонних звуков диска

забыл добавить gpt я поставил в винде разбивал диски fdisk

тут могло быть проблемой?

() автор топика
Ответ на: комментарий от deimos

Это ошибки второго винта, они идентичны :( Оба винта новые работали как видите не долго

[root@XEN ~]# smartctl -a /dev/sde smartctl 6.2 2013-07-26 r3841 [x86_64-linux-4.4.0+10] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke,

=== START OF INFORMATION SECTION === Model Family: Western Digital Red (AF) Device Model: WDC WD30EFRX-68EUZN0 Serial Number: WD-WCC4N1UH29C5 LU WWN Device Id: 5 0014ee 262d20569 Firmware Version: 82.00A82 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Tue Jul 3 14:59:08 2018 EEST SMART support is: Available - device has SMART capability. SMART support is: Enabled

=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED

General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (40380) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 405) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x703d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported.

SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 178 178 021 Pre-fail Always - 6058 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 9 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 45 10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 9 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 0 193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 41 194 Temperature_Celsius 0x0022 115 109 000 Old_age Always - 35 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

Может это какая-то специфика работы этих NAS накопителей?

() автор топика
Ответ на: комментарий от deimos

Error 11 occurred at disk power-on lifetime: 37 hours (1 days + 13 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:47:09.594 READ DMA

Error 10 occurred at disk power-on lifetime: 37 hours (1 days + 13 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:44:29.800 READ DMA

Error 9 occurred at disk power-on lifetime: 37 hours (1 days + 13 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:43:44.462 READ DMA

Error 8 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:19:19.261 READ DMA ef 10 02 00 00 00 a0 00 09:19:19.260 SET FEATURES [Enable SATA feature] ec 00 00 00 00 00 a0 00 09:19:19.260 IDENTIFY DEVICE

Error 7 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours) When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 08 00 00 00 e0 Error: UNC 8 sectors at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- c8 00 08 00 00 00 e0 00 09:19:12.256 READ DMA

SMART Self-test log structure revision number 1 No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

() автор топика
Ответ на: комментарий от deimos

Сегодня утащу эти диски в другую машину и там проверю, с другими кабелями мамкой и блоком питания завтра отпишусь

() автор топика
Ответ на: комментарий от deimos

badblocks прогонять до смарта если что, желательно чтобы не перегрелись в процессе (см. в спеках рабочие температуры). Это займёт время, много времени.

Ответ на: комментарий от deimos

по-моему, всё в порядке. Вообще, есть любители заглядывать в SMART и потом устраивать панику - а такие ли там атрибуты. Малополезное занятие. Но в данном примере они такие. Ещё приведена выдержка из какого-то лог файла с сообщением об ошибках ATA. Ну и что. Они случаются и при нормальной работе исправного диска. Хотя если их число быстро нарастает, это может говорить о плохом SATA кабеле.

Partisan ★★★★★
Ответ на: комментарий от Partisan

было бы интересно, если ошибка UNC 8 из за плохого кабеля, но вероятность, как известно, «крайне мала».

system-root ★★★★★
Ответ на: комментарий от Partisan

случаются и при нормальной работе исправного диска

мм как насчёт нет

Ответ на: комментарий от Partisan

Прошу прощение что я Вас всех потревожил, но реальность такова. 1. У меня кривые руки и мало знаний. Первый запуск этих винтов был в Винде. И Там же я проводил проверку скорости. Винда зарезервировала 128 мегабайт под свои нужды. Не знаю почему но их не видел fdisk и gdisk. Gparted увидел и снес нафиг эту ересь. Не знаю связано ли это, но начало диска как раз было занято виндой. 2. Были проблемы с питанием + кабель. Два винта сидели на одной линии питания конектор IDE + переходник на SATA. И скорее всего это явилось причиной данной записи в логи. Винтам тупо не хватало энергии. 3. Все винты проверил на другой машине. Все тесты хорошие. Единственное логи не ушли и походу убрать их ни как. Запись логов была как в винт так и в логи операционки. Наверное это такая фича. Т.к. винт для серверов то они в них записывают все сбои. Дабы новый покупатель знает на что идет. (Это мое предположение). Т.е. пробег как на машине + ошибки не изменишь.

Спасибо всем кто откликнулся. Первый раз с таким столкнулся. Вот и запаниковал :)

() автор топика
Ответ на: комментарий от deimos

Два винта сидели на одной линии питания конектор IDE + переходник на SATA

Это была очень плохая идея. У меня так диск вообще сдох когда-то. Одиночные переходники тоже лучше не использовать, у них бывают похожие проблемы.

Наверное это такая фича. Т.к. винт для серверов то они в них записывают все сбои.

Все диски с поддержкой SMART хранят записи об ошибках внутри.


Error 36172 occurred at disk power-on lifetime

С винтом всё в порядке. Эти ошибки ничего не значат. Можно с ними жить.

// b.

Ответ на: комментарий от Partisan

Ошибки UNC у исправных дисков на нормальном питании происходить не должны.

olegkrutov ★★
Error 36169 occurred at disk power-on lifetime: 36 hours (1 days + 12 hours)
  40 51 08 00 08 00 e0  Error: UNC 8 sectors at LBA = 0x00000800 = 2048
Error 36168 occurred at disk power-on lifetime: 35 hours (1 days + 11 hours)
  40 51 08 00 00 00 e0  Error: UNC 8 sectors at LBA = 0x00000000 = 0

Итого, на 35-36 час жизни у диска было ~35к ошибок чтения. Но что же мы видим вначале лога?

  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       41

На 41-й час жизни ошибок нет. ИМХО, кто-то здесь врёт. Я бы попробовал поменять диск по гарантии.


Подскажи, что в HDD сильнее всего греется:
Почему его платой вниз размещают?

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.