illegal qc_active transition

sata hdd wtf

0

1

Приветствую. Есть 7 практически идентичных серверов c RHEL6. Различия только в количестве памяти и производителе винтов.

Все они с разной для каждого периодичностью неизбежно зависают. Один пропработал пол года и встал колом - самый долгожитель. Два других раз в неделю виснут стабильно. Остальные примерно 1-2 раза в месяц.

Вот примеры ошибок с разных серверов:

Jun  8 16:33:00 srv-c kernel: ata2: illegal qc_active transition (00000001->00000050)

May 19 10:03:01 s-1-13 kernel: ata2: illegal qc_active transition (00000001->00000060)
May 19 10:03:01 s-1-13 kernel: ata2.00: exception Emask 0x42 SAct 0x1 SErr 0x800 action 0x6 frozen
May 19 10:03:01 s-1-13 kernel: ata2: SError: { HostInt }
May 19 10:03:01 s-1-13 kernel: ata2.00: failed command: WRITE FPDMA QUEUED
May 19 10:03:01 s-1-13 kernel: ata2.00: cmd 61/08:00:a8:ae:22/00:00:05:00:00/40 tag 0 ncq 4096 out
May 19 10:03:01 s-1-13 kernel:         res 40/00:28:e8:65:14/00:00:0c:00:00/40 Emask 0x42 (HSM violation)
May 19 10:03:01 s-1-13 kernel: ata2.00: status: { DRDY }
May 19 10:03:01 s-1-13 kernel: ata2: hard resetting link
May 19 10:03:02 s-1-13 kernel: ata2: link resume succeeded after 4 retries

Mar 20 01:48:01 s-1-46 kernel: ata2: illegal qc_active transition (00000003->00000052)
Mar 20 01:48:01 s-1-46 kernel: ata2.00: exception Emask 0x2 SAct 0x3 SErr 0x0 action 0x6 frozen
Mar 20 01:48:01 s-1-46 kernel: ata2.00: failed command: WRITE FPDMA QUEUED
Mar 20 01:48:01 s-1-46 kernel: ata2.00: cmd 61/08:00:30:1d:d9/00:00:00:00:00/40 tag 0 ncq 4096 out
Mar 20 01:48:01 s-1-46 kernel:         res 40/00:24:28:54:b4/00:00:73:00:00/40 Emask 0x2 (HSM violation)
Mar 20 01:48:01 s-1-46 kernel: ata2.00: status: { DRDY }
Mar 20 01:48:01 s-1-46 kernel: ata2.00: failed command: WRITE FPDMA QUEUED
Mar 20 01:48:01 s-1-46 kernel: ata2.00: cmd 61/08:08:38:1d:d9/00:00:00:00:00/40 tag 1 ncq 4096 out
Mar 20 01:48:01 s-1-46 kernel:         res 40/00:24:28:54:b4/00:00:73:00:00/40 Emask 0x2 (HSM violation)
Mar 20 01:48:01 s-1-46 kernel: ata2.00: status: { DRDY }
Mar 20 01:48:01 s-1-46 kernel: ata2: hard resetting link
Mar 20 01:48:03 s-1-46 kernel: ata2: failed to resume link (SControl 33)
Mar 20 01:48:03 s-1-46 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 33)
Mar 20 01:48:08 s-1-46 kernel: ata2.00: qc timeout (cmd 0xec)
Mar 20 01:48:08 s-1-46 kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Mar 20 01:48:08 s-1-46 kernel: ata2.00: revalidation failed (errno=-5)
Mar 20 01:48:08 s-1-46 kernel: ata2: hard resetting link
Mar 20 01:48:09 s-1-46 kernel: ata2: failed to resume link (SControl 33)
Mar 20 01:48:09 s-1-46 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 33)
Mar 20 01:48:19 s-1-46 kernel: ata2.00: qc timeout (cmd 0xec)
Mar 20 01:48:19 s-1-46 kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Mar 20 01:48:19 s-1-46 kernel: ata2.00: revalidation failed (errno=-5)
Mar 20 01:48:19 s-1-46 kernel: ata2: limiting SATA link speed to 1.5 Gbps
Mar 20 01:48:19 s-1-46 kernel: ata2: hard resetting link
Mar 20 01:48:20 s-1-46 kernel: ata2: failed to resume link (SControl 33)
Mar 20 01:48:20 s-1-46 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 33)

На всех серверах ошибки выглядят примерно одинаково. Если очень повезет - через некоторое время сами перезагружаются после kenrel panic.

На каждом сервере активно работает nginx и пишет логи. При увеличении кол-ва запросов, логов становится больше-> возрастает дисковая активность -> увеличивается вероятность ошибки. Если сервер не нагружен - не зависает, ошибок нет.

Последние обновления установил - не помогло.

Ссылка

←	Как выбирается MAC адрес линуксового bridge ( bridgeutils, brctl )?

Ubuntu 11.10 в Домене

→

Железо проверь:

1) блок питания. Проверяй выдаваемые напряжения, прикинь хватает ли мощности

2) sata кабели к дискам. Они редкостное недоразумение. Те что с защёлками ещё более-менее держатся, остальные отходят время от времени.

3) сами винты. Проверь смарт.

Как временное лечение симптомов, можно отменить запись логов на диск и натравить на удалённый syslog, или в ramdisk

router ★★★★★
(11.06.12 17:59:24 UTC)

Ссылка

память?

May 19 10:03:01 s-1-13 kernel: ata2: hard resetting link
May 19 10:03:02 s-1-13 kernel: ata2: link resume succeeded after 4 retries
Mar 20 01:48:01 s-1-46 kernel: ata2: hard resetting link
Mar 20 01:48:03 s-1-46 kernel: ata2: failed to resume link (SControl 33)

сата шлейфы?

отключить говнорейд? включить AHCI?

это, что за диски и контроллер sata?

dimon555 ★★★★★
(11.06.12 18:07:23 UTC)

Ссылка

ну если диски разные
а материнки-контроллеры одни и теже
то надо искать по контроллеру - проблемы с ним
линкуй всю инфу с них

ae1234 ★★
(11.06.12 18:14:41 UTC)

Ссылка

router:

Первое, что было проверено, это SMART. Там всё хорошо. Далее менял кабели, менял sata слоты - толку нет. А вот с блоком питания это идея - надо будет проверить напряжения.

dimon555:

Память проверялась пару дней memtest86+ перед вводом сервера в эксплуатацию. Недорейд тоже был выключен, включен AMD_AHCI - всё правильно сделал?.

Контроллер вот такой:

00:11.0 SATA controller: ATI Technologies Inc SB7x0/SB8x0/SB9x0 SATA Controller [AHCI mode] (prog-if 01 [AHCI 1.0])
        Subsystem: ATI Technologies Inc SB7x0/SB8x0/SB9x0 SATA Controller [AHCI mode]
        Control: I/O+ Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr- Stepping- SERR+ FastB2B- DisINTx-
        Status: Cap+ 66MHz+ UDF- FastB2B- ParErr- DEVSEL=medium >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
        Latency: 64, Cache Line Size: 64 bytes
        Interrupt: pin A routed to IRQ 22
        Region 0: I/O ports at c000 [size=8]
        Region 1: I/O ports at b000 [size=4]
        Region 2: I/O ports at a000 [size=8]
        Region 3: I/O ports at 9000 [size=4]
        Region 4: I/O ports at 8000 [size=16]
        Region 5: Memory at fe9fa400 (32-bit, non-prefetchable) [size=1K]
        Capabilities: [60] Power Management version 2
                Flags: PMEClk- DSI+ D1- D2- AuxCurrent=0mA PME(D0-,D1-,D2-,D3hot-,D3cold-)
                Status: D0 NoSoftRst- PME-Enable- DSel=0 DScale=0 PME-
        Capabilities: [70] SATA HBA <?>
        Kernel driver in use: ahci
        Kernel modules: ahci

Кроме него есть еще вот этот неиспользуемый IDE:

00:14.1 IDE interface: ATI Technologies Inc SB7x0/SB8x0/SB9x0 IDE Controller (prog-if 8a [Master SecP PriP])
        Subsystem: Super Micro Computer Inc Device a711
        Control: I/O+ Mem- BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr- Stepping- SERR- FastB2B- DisINTx-
        Status: Cap+ 66MHz+ UDF- FastB2B- ParErr- DEVSEL=medium >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
        Latency: 64
        Interrupt: pin A routed to IRQ 16
        Region 0: I/O ports at 01f0 [size=8]
        Region 1: I/O ports at 03f4 [size=1]
        Region 2: I/O ports at 0170 [size=8]
        Region 3: I/O ports at 0374 [size=1]
        Region 4: I/O ports at ff00 [size=16]
        Capabilities: [70] MSI: Enable- Count=1/2 Maskable- 64bit-
                Address: 00000000  Data: 0000
        Kernel driver in use: pata_atiixp
        Kernel modules: ata_generic, pata_acpi, pata_atiixp

Диски разные. Не самые новые:

=== START OF INFORMATION SECTION ===
Model Family:     Maxtor DiamondMax 10 family (ATA/133 and SATA/150)
Device Model:     Maxtor 6L160M0
Serial Number:    L3DMQ2LH    L3DMQ2LH
Firmware Version: BACE1G10
User Capacity:    160,000,000,000 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  ATA/ATAPI-7 T13 1532D revision 0
Local Time is:    Tue Jun 12 02:10:45 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Вот тут посвежее терабайтники:

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1003FBYX-01Y7B0
Serial Number:    WD-WCAW31037821
Firmware Version: 01.01V01
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Jun 12 02:08:25 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF INFORMATION SECTION ===
Device Model:     ST31000524NS
Serial Number:    9WK5H7AW
Firmware Version: SN12
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Tue Jun 12 02:13:39 2012 EDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

ae1234:

Ничего конкретного найти пока не смог. Только игры с настройками контроллера в биосе. Или всякие хаки типа отключения acpi/aspm и прочего энергосбережения. Пишут, что похожая ошибка часто появяется, если винт выключается из-за неактивности и система не может его нормально включить. Всё это не помогло.

fjoe ★
(12.06.12 06:36:49 UTC) автор топика

Ответ на: комментарий от fjoe 12.06.12 06:36:49 UTC

хреновая ситуация

что пришло в голову - взять отдельный sata контроллер (плату) - и поставить в самый глючащий сервер - и перевести диски на него - и протестировать - посмотреть на результат

если проблемы уйдут - то проблема была точно в контроллере/драйвере/проводке sata

у меня вот

00:14.1 IDE interface: ATI Technologies Inc SB700/SB800 IDE Controller (prog-if 8a [Master SecP PriP])
        Subsystem: ASUSTeK Computer Inc. Device 8389
        Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 16
        I/O ports at 01f0 [size=8]
        I/O ports at 03f4 [size=1]
        I/O ports at 0170 [size=8]
        I/O ports at 0374 [size=1]
        I/O ports at ff00 [size=16]
        Capabilities: [70] MSI: Enable- Count=1/2 Maskable- 64bit-
        Kernel driver in use: pata_atiixp
        Kernel modules: ata_generic, pata_acpi, pata_atiixp

но это десктопный - ничего такого нет и в помине

ae1234 ★★
(12.06.12 07:34:36 UTC)

Ссылка

Ответ на: комментарий от fjoe 12.06.12 06:36:49 UTC

Первое, что было проверено, это SMART.

Как говорится, если SMART в порядке - значит винты скоро сдохнут
если SMART не в порядке - значит винты скоро сдохнут

Диски - старое дерьмо (на помойке одинаковых не нашлось?), меняй на вменяемые и проверяй снова.

~~zgen~~ ★★★★★
(12.06.12 15:37:09 UTC)

Ответ на: комментарий от zgen 12.06.12 15:37:09 UTC

на помойке одинаковых не нашлось?

Ну почему же. Нашлось! Каждый сервер был укомплектован двумя одинаковыми. Второй диск был вынут и использутеся для других нужд - бэкапы, базы, логи. Никто не жалуется пока, серверы другой модели их хорошо приняли.

меняй на вменяемые

Хотеть модели вменяемых дисков.

fjoe ★
(12.06.12 16:29:21 UTC) автор топика

Ссылка

у меня похожая проблема. винтов много разных перепробовал. удалось ли вам решить проблему? если да то как?

материнка ASUS M4A77TD

archlinux

00:11.0 SATA controller: Advanced Micro Devices [AMD] nee ATI SB7x0/SB8x0/SB9x0 SATA Controller [IDE mode] (prog-if 01 [AHCI 1.0])
        Subsystem: ASUSTeK Computer Inc. M4A785TD Motherboard
        Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 22
        I/O ports at b000 [size=8]
        I/O ports at a000 [size=4]
        I/O ports at 9000 [size=8]
        I/O ports at 8000 [size=4]
        I/O ports at 7000 [size=16]
        Memory at f8fffc00 (32-bit, non-prefetchable) [size=1K]
        Capabilities: [60] Power Management version 2
        Capabilities: [70] SATA HBA v1.0
        Kernel driver in use: ahci

00:14.1 IDE interface: Advanced Micro Devices [AMD] nee ATI SB7x0/SB8x0/SB9x0 IDE Controller (prog-if 8a [Master SecP PriP])
        Subsystem: ASUSTeK Computer Inc. Device 8389
        Flags: bus master, 66MHz, medium devsel, latency 64, IRQ 16
        I/O ports at 01f0 [size=8]
        I/O ports at 03f4
        I/O ports at 0170 [size=8]
        I/O ports at 0374
        I/O ports at ff00 [size=16]
        Capabilities: [70] MSI: Enable- Count=1/2 Maskable- 64bit-
        Kernel driver in use: pata_atiixp



$ dmesg | grep ata1
[    1.192710] ata1: SATA max UDMA/133 abar m1024@0xf8fffc00 port 0xf8fffd00 irq 22
[    1.676219] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    1.682170] ata1.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    1.682172] ata1.00: 1953525168 sectors, multi 16: LBA48 NCQ (depth 31/32), AA
[    1.688268] ata1.00: configured for UDMA/133
[ 2530.642665] ata1: exception Emask 0x40 SAct 0x0 SErr 0x800 action 0x7
[ 2530.642678] ata1: SError: { HostInt }
[ 2530.642690] ata1: hard resetting link
[ 2531.128131] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 2531.139572] ata1.00: configured for UDMA/133
[ 2531.151402] ata1: EH complete

aleksonik
(04.07.12 22:33:23 UTC)

Ответ на: комментарий от aleksonik 04.07.12 22:33:23 UTC

Обновил до RHEL6.3. Пока никто не падал, но говорить о том, что проблема решена пока рано. Вот параметры загрузки ядра, которые могут помочь.

nolapic_timer
nohz=off
highres=off
hpet=disable
pci=noacpi
acpi=off

fjoe ★
(05.07.12 06:15:20 UTC) автор топика

Ответ на: комментарий от fjoe 05.07.12 06:15:20 UTC

проблема появляется периодически. как на зло сейчас все работает. как снова заглючит попробую параметры ядра.

aleksonik
(08.07.12 08:16:37 UTC)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Как выбирается MAC адрес линуксового bridge ( bridgeutils, brctl )?

Admin

Ubuntu 11.10 в Домене

→

Похожие темы