Обращение к md0 останавливается на несколько минут
Всем привет!
У нас имеется сервер SUSE 11 x86_64, устанвленный на blade HS22 в IBM BladeCenter E.
На нем стоит Oracle 10g.
Данные хранятся на файловой системе raiserfs, которая размещена на устройстве md0 (software mirror). Устройство md0 составляют два устройства sdb и sde.
sdb и sde являются LUN-ами с дисковых систем IBM DS5020, подключенных через SAN-свичи на 8Гб/с.
Т.е. данные зеркалируются между двумя физическими дисковыми устройствами посредством софтверного зеркала.
Проблема заключается в следующем:
В неопределенное время люди начинают жаловаться, что «база зависает», т.е. не отвечает на любые запросы. Это состояние длится примерно 3-5 минут, после чего работа возобновляется.
В течении суток мы собирали статистику с помощью nmon (снапшот каждую минуту). За эти сутки указанная проблема произошла один раз примерно в 22:00 на три минуты.
В этот промежуток времени (22:00 - 22:03) графики nmon показали следующее:
- diskread, diskwrite, diskxfer - почти по нулям (не было интенсивного IO)
- diskbusy - все девайсы почти по нулям, кроме sdb (2-й сторидж девайс), который был 100%
- память (32ГБ) - наполовину пустая
- метрики pgpgin, pgpgout, pswpin, pswpout - по нулям
- сетевой трафик - практически по нулям
- семь процессов в состоянии blocked
- CPU %wait - 100% на 6-ти из 16-ти процессоров
Логи системы не содержат какие-либо ошибки.
Логи обеих дисковых систем, а так же SAN-свичей так же не содержат ошибок, что свидетельствует о нормальном функционировании устройств.
Судя по графикам, использование системы в указанный промежуток времени, а так же +/- 2 часа относительно указанного времени было минимальным
Кто-нибудь сталкивался с подобным поведением?
Заранее спасибо!