Приветствую!
Сервер с Centos 5.4 32-bit на 2-х дисках WDC WD1002FBYS-02A6B0 по 1000Gb в Soft RAID Mirror
Ядро: 2.6.18-164.15.1.el5PAE
Периодически падает с такими ошибками в логе:
Apr 26 13:00:33 kernel: EXT3-fs error (device md3): ext3_lookup: unlinked inode 139067406 in dir #139067398
Apr 26 13:00:33 kernel: Aborting journal on device md3.
Apr 26 13:00:33 kernel: ext3_abort called.
Apr 26 13:00:33 kernel: EXT3-fs error (device md3): ext3_journal_start_sb: Detected aborted journal
Apr 26 13:00:33 kernel: Remounting filesystem read-only
Apr 26 13:00:33 kernel: __journal_remove_journal_head: freeing b_committed_data
Apr 26 13:00:44 kernel: EXT3-fs error (device md3): ext3_lookup: unlinked inode 139067406 in dir #139067398
Apr 26 13:00:52 kernel: BUG: soft lockup - CPU#2 stuck for 10s! [kswapd0:238]
Apr 26 13:00:52 kernel:
Apr 26 13:00:52 kernel: Pid: 238, comm: kswapd0
Apr 26 13:00:52 kernel: EIP: 0060:[<f88b49b6>] CPU: 2
Apr 26 13:00:52 kernel: EIP is at ext3_write_dquot+0x0/0x61 [ext3]
Apr 26 13:00:52 kernel: EFLAGS: 00000202 Not tainted (2.6.18-164.15.1.el5PAE #1)
Apr 26 13:00:52 kernel: EAX: eeefe840 EBX: eeefe840 ECX: f74b0600 EDX: f88c72a0
Apr 26 13:00:52 kernel: ESI: 00000000 EDI: ffffffe2 EBP: f7f62f10 DS: 007b ES: 007b
Apr 26 13:00:52 kernel: CR0: 8005003b CR2: 8fdc8007 CR3: 00739000 CR4: 000006f0
Apr 26 13:00:52 kernel: [<c049e21f>] dqput+0xe5/0x15d
Apr 26 13:00:52 kernel: [<c049e783>] dquot_drop+0x26/0x4c
Apr 26 13:00:52 kernel: [<f88b6b4b>] ext3_dquot_drop+0x3b/0x5d [ext3]
Apr 26 13:00:52 kernel: [<c048ad34>] clear_inode+0x9f/0x104
Apr 26 13:00:52 kernel: [<c048affb>] dispose_list+0x33/0xb1
Apr 26 13:00:52 kernel: [<c048b1f5>] shrink_icache_memory+0x17c/0x1a4
Apr 26 13:00:52 kernel: [<c045e5de>] shrink_slab+0xd3/0x13c
Apr 26 13:00:52 kernel: [<c045e969>] kswapd+0x2a6/0x3ab
Apr 26 13:00:52 kernel: [<c0436047>] autoremove_wake_function+0x0/0x2d
Apr 26 13:00:52 kernel: [<c045e6c3>] kswapd+0x0/0x3ab
Apr 26 13:00:52 kernel: [<c0435f85>] kthread+0xc0/0xeb
Apr 26 13:00:52 kernel: [<c0435ec5>] kthread+0x0/0xeb
Apr 26 13:00:52 kernel: [<c0405c53>] kernel_thread_helper+0x7/0x10
Apr 26 13:00:52 kernel: =======================
Лечится не надолго только перезагрузкой и fsck по разделам, самое печальное что аткая проблема уже была и тогда решения так и не было найдено, а баг спустя некоторое время перестал появятся %)
Так и в этот раз:
- В логах никаких ошибок кроме указанной нету - S.M.A.R.T. обоих дисков девственно чистый - bablocks обоих дисков и всего рейд раздела, ничего не находит - В /etc/mdstat с рейдом все нормально - Серваку несколько месяцев, диски и железо новое, питание от UPS, охлаждение и т.п. все как положено.
Железо разное, разные дата-центры, ядра, диски...
Общего только soft raid, centOS (ядра разные) и ФС ext3