LINUX.ORG.RU
решено ФорумAdmin

failed command: FLUSH CACHE


0

1

Сервер с 3 SSD дисками (рейд софт). CentOS 6, ядро 2.6.32 ovz (последний стабл).
Разделы сделаны так

/ => raid1
/boot => raid1
/vz => raid5

Сервер пустой. Несколько раз в день в логах появляются ошибки на дисках sdb и sdc
Воспроизвести под нагрузкой не получается, происходит периодически.

Aug 28 10:04:02 mars kernel: [669254.444316] ata3.00: status: { DRDY }
Aug 28 10:04:02 mars kernel: [669254.444838] ata3: hard resetting link
Aug 28 10:04:02 mars kernel: [669254.750083] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Aug 28 10:04:02 mars kernel: [669254.751218] ata3.00: configured for UDMA/133
Aug 28 10:04:02 mars kernel: [669254.751729] ata3.00: device reported invalid CHS sector 0
Aug 28 10:04:02 mars kernel: [669254.752248] ata3: EH complete
Aug 28 11:01:02 mars kernel: [672672.428508] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 28 11:01:02 mars kernel: [672672.429044] ata2.00: failed command: FLUSH CACHE
Aug 28 11:01:02 mars kernel: [672672.429594] ata2.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 1
Aug 28 11:01:02 mars kernel: [672672.429594] res 40/00:00:00:00:00/00:00:00:00:00/a0 Emask 0x4 (timeout)
Aug 28 11:01:02 mars kernel: [672672.430667] ata2.00: status: { DRDY }
Aug 28 11:01:02 mars kernel: [672672.431200] ata2: hard resetting link
Aug 28 11:01:02 mars kernel: [672672.736186] ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Aug 28 11:01:02 mars kernel: [672672.737439] ata2.00: configured for UDMA/133
Aug 28 11:01:02 mars kernel: [672672.737967] ata2.00: device reported invalid CHS sector 0
Aug 28 11:01:02 mars kernel: [672672.738500] ata2: EH complete
Aug 28 12:06:02 mars kernel: [676570.136197] ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 28 12:06:02 mars kernel: [676570.136741] ata2.00: failed command: FLUSH CACHE
Aug 28 12:06:02 mars kernel: [676570.137287] ata2.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 7
Aug 28 12:06:02 mars kernel: [676570.137288] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)

По смарту с жесткими дисками - все окей.

 smartctl -A /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       11572
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       30
170 Reserve_Block_Count     0x0033   100   100   010    Pre-fail  Always       -       0
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0030   100   100   000    Old_age   Offline      -       3
184 End-to-End_Error        0x0032   100   100   090    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       29
199 UDMA_CRC_Error_Count    0x0030   100   100   000    Old_age   Offline      -       1
225 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       395353
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       6589
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       0
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       1208654906
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   097   097   000    Old_age   Always       -       0
241 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       395353
242 Host_Reads_32MiB        0x0032   100   100   000    Old_age   Always       -       191062

 smartctl -A /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       21590
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       22
170 Reserve_Block_Count     0x0033   100   100   010    Pre-fail  Always       -       0
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0030   100   100   000    Old_age   Offline      -       0
184 End-to-End_Error        0x0032   100   100   090    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       21
199 UDMA_CRC_Error_Count    0x0030   100   100   000    Old_age   Offline      -       0
225 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       289704
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       1840
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       9
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       1295408
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   099   099   000    Old_age   Always       -       0
241 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       289704
242 Host_Reads_32MiB        0x0032   100   100   000    Old_age   Always       -       29952
smartctl -A /dev/sdc
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 5
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0020   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0030   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       12488
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       16
170 Reserve_Block_Count     0x0033   100   100   010    Pre-fail  Always       -       0
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0030   100   100   000    Old_age   Offline      -       3
184 End-to-End_Error        0x0032   100   100   090    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       15
199 UDMA_CRC_Error_Count    0x0030   100   100   000    Old_age   Offline      -       0
225 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       110090
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       1225
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       47
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       749290
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   099   099   000    Old_age   Always       -       0
241 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       110090
242 Host_Reads_32MiB        0x0032   100   100   000    Old_age   Always       -       99112

На данный момент, сделал без рейда, разбил на /sda, /sdb, /sdc -> нагружаю диски, пытаюсь воспроизвести.

Может быть кто-нибудь сталкивался с подобной проблемой?
Думаю что проблема в шлейфах или с жесткими дисками. Заменить их сам не могу - веду переписку с ДЦ.


Ответ на: комментарий от anonymous

sda не фризило.
Нашел тему на форуме ovh. Но тот сервер был на SATA дисках. Мне кажется странным такое решение проблемы.

I managed to solve the problem by disabling write cache

poiuty
() автор топика

Проверил прошивки на SSD дисках.

# hdparm -I /dev/sda | grep "Firmware Revision"
Firmware Revision:  4PC10362

# hdparm -I /dev/sdb | grep "Firmware Revision"
Firmware Revision:  4PC10362

# hdparm -I /dev/sdc | grep "Firmware Revision"
Firmware Revision:  4PC10362

Заметил, что фриз происходит исключительно в начале часа.

Aug 21 02:05:01
Aug 21 05:01:01
Aug 21 10:04:01
Aug 24 21:01:02
Aug 25 03:02:02
Aug 25 06:06:02
Aug 25 11:01:01
Aug 25 20:06:01
Aug 26 22:03:02
Aug 27 00:02:02
Aug 27 07:04:02
Aug 27 10:05:02
Aug 27 12:02:02
Aug 28 08:06:01
Aug 28 10:02:02
Aug 31 06:05:01
Aug 31 17:01:02
Sep  1 12:03:02
poiuty
() автор топика
Ответ на: комментарий от poiuty

В кроне ничего вызывающего фриз не нашел.
Проверил еще раз логи. Все-таки попадается и не в начале часа.

Aug 31 01:49:02 -> перед ребутом
Aug 31 01:56:02

Но всегда это или первая секунда или вторая. В кроне лишь один скрипт (от дц ovh), который запускается каждую минуту.

poiuty
() автор топика
Ответ на: комментарий от poiuty

Поставил обратно как было. Смарт из оф репо centos

# smartctl -V
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-3.10.23-xxxx-std-ipv6-64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Запустил скрипт

#!/bin/bash
while [ 1 ]; do
echo date;
time smartctl -a -d ata /dev/sda > /dev/null
time smartctl -a -d ata /dev/sdb > /dev/null
time smartctl -a -d ata /dev/sdc > /dev/null
echo date
echo ""
done

Новая ошибка xDD

Sep  2 03:25:37 stock kernel: ata3.00: exception Emask 0x2 SAct 0x1 SErr 0x3000400 action 0x6
Sep  2 03:25:37 stock kernel: ata3.00: irq_stat 0x44000008
Sep  2 03:25:37 stock kernel: ata3: SError: { Proto TrStaTrns UnrecFIS }
Sep  2 03:25:37 stock kernel: ata3.00: failed command: WRITE FPDMA QUEUED
Sep  2 03:25:37 stock kernel: ata3.00: cmd 61/08:00:60:23:94/00:00:00:00:00/40 tag 0 ncq 4096 out
Sep  2 03:25:37 stock kernel:         res 41/84:08:60:23:94/00:00:00:00:00/40 Emask 0x412 (ATA bus error) <F>
Sep  2 03:25:37 stock kernel: ata3.00: status: { DRDY ERR }
Sep  2 03:25:37 stock kernel: ata3.00: error: { ICRC ABRT }
Sep  2 03:25:37 stock kernel: ata3: hard resetting link
Sep  2 03:25:37 stock kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep  2 03:25:37 stock kernel: ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20130328/psargs-359)
Sep  2 03:25:37 stock kernel: ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT2._GTF] (Node ffff8807f3c9d7a8), AE_NOT_FOUND (20130328/psparse-537)
Sep  2 03:25:37 stock kernel: ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20130328/psargs-359)
Sep  2 03:25:37 stock kernel: ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT2._GTF] (Node ffff8807f3c9d7a8), AE_NOT_FOUND (20130328/psparse-537)
Sep  2 03:25:37 stock kernel: ata3.00: configured for UDMA/133
Sep  2 03:25:37 stock kernel: ata3: EH complete

poiuty
() автор топика
Ответ на: комментарий от poiuty

Получилось воспроизвести (достаточно большой лог).

Sep  2 03:53:30 stock kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Sep  2 03:53:30 stock kernel: ata3.00: failed command: FLUSH CACHE
Sep  2 03:53:30 stock kernel: ata3.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Sep  2 03:53:30 stock kernel:         res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep  2 03:53:30 stock kernel: ata3.00: status: { DRDY }
Sep  2 03:53:30 stock kernel: ata3: hard resetting link
Sep  2 03:53:30 stock kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)

Посмотрел в /usr/share/smartmontools/drivedb.h. Нет фиксов 3606. По идее нет и 3591.

Вообщем, осталось обновить smartmontools. И попробовать снова воспроизвести.

poiuty
() автор топика
Ответ на: комментарий от poiuty

Не нашел репозиторий с которого можно скачать новый.
Качаем новый smartmontools.

yum remove smartmontools
yum install gcc gcc-c++ libcap-ng-devel
tar zxvf smartmontools-6.3.tar.gz
cd smartmontools-6.3

./configure '--build=x86_64-redhat-linux-gnu' '--host=x86_64-redhat-linux-gnu' '--target=x86_64-redhat-linux-gnu' '--program-prefix=' '--prefix=/usr' '--exec-prefix=/usr' '--bindir=/usr/bin' '--sbindir=/usr/sbin' '--sysconfdir=/etc' '--datadir=/usr/share' '--includedir=/usr/include' '--libdir=/usr/lib64' '--libexecdir=/usr/libexec' '--localstatedir=/var' '--sharedstatedir=/var/lib' '--mandir=/usr/share/man' '--infodir=/usr/share/info' '--with-libcap-ng=yes' '-with-systemdsystemunitdir=no' 'build_alias=x86_64-redhat-linux-gnu' 'host_alias=x86_64-redhat-linux-gnu' 'target_alias=x86_64-redhat-linux-gnu' 'CXXFLAGS=-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -m64 -mtune=generic' 'CFLAGS=-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -m64 -mtune=generic' 'PKG_CONFIG_PATH=/usr/lib64/pkgconfig:/usr/share/pkgconfig'

make
make install

poiuty
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.