Приветствую. Есть 7 практически идентичных серверов c RHEL6. Различия только в количестве памяти и производителе винтов.
Все они с разной для каждого периодичностью неизбежно зависают. Один пропработал пол года и встал колом - самый долгожитель. Два других раз в неделю виснут стабильно. Остальные примерно 1-2 раза в месяц.
Вот примеры ошибок с разных серверов:
Jun 8 16:33:00 srv-c kernel: ata2: illegal qc_active transition (00000001->00000050)
May 19 10:03:01 s-1-13 kernel: ata2: illegal qc_active transition (00000001->00000060)
May 19 10:03:01 s-1-13 kernel: ata2.00: exception Emask 0x42 SAct 0x1 SErr 0x800 action 0x6 frozen
May 19 10:03:01 s-1-13 kernel: ata2: SError: { HostInt }
May 19 10:03:01 s-1-13 kernel: ata2.00: failed command: WRITE FPDMA QUEUED
May 19 10:03:01 s-1-13 kernel: ata2.00: cmd 61/08:00:a8:ae:22/00:00:05:00:00/40 tag 0 ncq 4096 out
May 19 10:03:01 s-1-13 kernel: res 40/00:28:e8:65:14/00:00:0c:00:00/40 Emask 0x42 (HSM violation)
May 19 10:03:01 s-1-13 kernel: ata2.00: status: { DRDY }
May 19 10:03:01 s-1-13 kernel: ata2: hard resetting link
May 19 10:03:02 s-1-13 kernel: ata2: link resume succeeded after 4 retries
Mar 20 01:48:01 s-1-46 kernel: ata2: illegal qc_active transition (00000003->00000052)
Mar 20 01:48:01 s-1-46 kernel: ata2.00: exception Emask 0x2 SAct 0x3 SErr 0x0 action 0x6 frozen
Mar 20 01:48:01 s-1-46 kernel: ata2.00: failed command: WRITE FPDMA QUEUED
Mar 20 01:48:01 s-1-46 kernel: ata2.00: cmd 61/08:00:30:1d:d9/00:00:00:00:00/40 tag 0 ncq 4096 out
Mar 20 01:48:01 s-1-46 kernel: res 40/00:24:28:54:b4/00:00:73:00:00/40 Emask 0x2 (HSM violation)
Mar 20 01:48:01 s-1-46 kernel: ata2.00: status: { DRDY }
Mar 20 01:48:01 s-1-46 kernel: ata2.00: failed command: WRITE FPDMA QUEUED
Mar 20 01:48:01 s-1-46 kernel: ata2.00: cmd 61/08:08:38:1d:d9/00:00:00:00:00/40 tag 1 ncq 4096 out
Mar 20 01:48:01 s-1-46 kernel: res 40/00:24:28:54:b4/00:00:73:00:00/40 Emask 0x2 (HSM violation)
Mar 20 01:48:01 s-1-46 kernel: ata2.00: status: { DRDY }
Mar 20 01:48:01 s-1-46 kernel: ata2: hard resetting link
Mar 20 01:48:03 s-1-46 kernel: ata2: failed to resume link (SControl 33)
Mar 20 01:48:03 s-1-46 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 33)
Mar 20 01:48:08 s-1-46 kernel: ata2.00: qc timeout (cmd 0xec)
Mar 20 01:48:08 s-1-46 kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Mar 20 01:48:08 s-1-46 kernel: ata2.00: revalidation failed (errno=-5)
Mar 20 01:48:08 s-1-46 kernel: ata2: hard resetting link
Mar 20 01:48:09 s-1-46 kernel: ata2: failed to resume link (SControl 33)
Mar 20 01:48:09 s-1-46 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 33)
Mar 20 01:48:19 s-1-46 kernel: ata2.00: qc timeout (cmd 0xec)
Mar 20 01:48:19 s-1-46 kernel: ata2.00: failed to IDENTIFY (I/O error, err_mask=0x4)
Mar 20 01:48:19 s-1-46 kernel: ata2.00: revalidation failed (errno=-5)
Mar 20 01:48:19 s-1-46 kernel: ata2: limiting SATA link speed to 1.5 Gbps
Mar 20 01:48:19 s-1-46 kernel: ata2: hard resetting link
Mar 20 01:48:20 s-1-46 kernel: ata2: failed to resume link (SControl 33)
Mar 20 01:48:20 s-1-46 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 33)
На всех серверах ошибки выглядят примерно одинаково. Если очень повезет - через некоторое время сами перезагружаются после kenrel panic.
На каждом сервере активно работает nginx и пишет логи. При увеличении кол-ва запросов, логов становится больше-> возрастает дисковая активность -> увеличивается вероятность ошибки. Если сервер не нагружен - не зависает, ошибок нет.
Последние обновления установил - не помогло.