LINUX.ORG.RU

Регулярная проблема с файловой системой 2


0

0

Приветствую!

Сервер с Centos 5.4 32-bit на 2-х дисках WDC WD1002FBYS-02A6B0 по 1000Gb в Soft RAID Mirror

Ядро: 2.6.18-164.15.1.el5PAE

Периодически падает с такими ошибками в логе:

Apr 26 13:00:33 kernel: EXT3-fs error (device md3): ext3_lookup: unlinked inode 139067406 in dir #139067398
Apr 26 13:00:33 kernel: Aborting journal on device md3.
Apr 26 13:00:33 kernel: ext3_abort called.
Apr 26 13:00:33 kernel: EXT3-fs error (device md3): ext3_journal_start_sb: Detected aborted journal
Apr 26 13:00:33 kernel: Remounting filesystem read-only
Apr 26 13:00:33 kernel: __journal_remove_journal_head: freeing b_committed_data
Apr 26 13:00:44 kernel: EXT3-fs error (device md3): ext3_lookup: unlinked inode 139067406 in dir #139067398
Apr 26 13:00:52 kernel: BUG: soft lockup - CPU#2 stuck for 10s! [kswapd0:238]
Apr 26 13:00:52 kernel:
Apr 26 13:00:52 kernel: Pid: 238, comm:              kswapd0
Apr 26 13:00:52 kernel: EIP: 0060:[<f88b49b6>] CPU: 2
Apr 26 13:00:52 kernel: EIP is at ext3_write_dquot+0x0/0x61 [ext3]
Apr 26 13:00:52 kernel:  EFLAGS: 00000202    Not tainted  (2.6.18-164.15.1.el5PAE #1)
Apr 26 13:00:52 kernel: EAX: eeefe840 EBX: eeefe840 ECX: f74b0600 EDX: f88c72a0
Apr 26 13:00:52 kernel: ESI: 00000000 EDI: ffffffe2 EBP: f7f62f10 DS: 007b ES: 007b
Apr 26 13:00:52 kernel: CR0: 8005003b CR2: 8fdc8007 CR3: 00739000 CR4: 000006f0
Apr 26 13:00:52 kernel:  [<c049e21f>] dqput+0xe5/0x15d
Apr 26 13:00:52 kernel:  [<c049e783>] dquot_drop+0x26/0x4c
Apr 26 13:00:52 kernel:  [<f88b6b4b>] ext3_dquot_drop+0x3b/0x5d [ext3]
Apr 26 13:00:52 kernel:  [<c048ad34>] clear_inode+0x9f/0x104
Apr 26 13:00:52 kernel:  [<c048affb>] dispose_list+0x33/0xb1
Apr 26 13:00:52 kernel:  [<c048b1f5>] shrink_icache_memory+0x17c/0x1a4
Apr 26 13:00:52 kernel:  [<c045e5de>] shrink_slab+0xd3/0x13c
Apr 26 13:00:52 kernel:  [<c045e969>] kswapd+0x2a6/0x3ab
Apr 26 13:00:52 kernel:  [<c0436047>] autoremove_wake_function+0x0/0x2d
Apr 26 13:00:52 kernel:  [<c045e6c3>] kswapd+0x0/0x3ab
Apr 26 13:00:52 kernel:  [<c0435f85>] kthread+0xc0/0xeb
Apr 26 13:00:52 kernel:  [<c0435ec5>] kthread+0x0/0xeb
Apr 26 13:00:52 kernel:  [<c0405c53>] kernel_thread_helper+0x7/0x10
Apr 26 13:00:52 kernel:  =======================

Лечится не надолго только перезагрузкой и fsck по разделам, самое печальное что аткая проблема уже была и тогда решения так и не было найдено, а баг спустя некоторое время перестал появятся %)

Так и в этот раз:

- В логах никаких ошибок кроме указанной нету - S.M.A.R.T. обоих дисков девственно чистый - bablocks обоих дисков и всего рейд раздела, ничего не находит - В /etc/mdstat с рейдом все нормально - Серваку несколько месяцев, диски и железо новое, питание от UPS, охлаждение и т.п. все как положено.

Железо разное, разные дата-центры, ядра, диски...

Общего только soft raid, centOS (ядра разные) и ФС ext3

S.M.A.R.T. обоих дисков девственно чистый

Ты что специально поехал на склад хранения винтов, подключил там комп, и начал перебирать винты ? :)
и из 50-100 винтов тебе попались два девственно чистых ;)
СМАРТ таким может быть на конвейере до транспортировки, пока винты как нам доставляют, они не один раз падают, из за чего появляется масса дефектов механики...

Дай вывод смарта обоих дисков smartctl

ANGELOS
()

Дайте больше информации: список всего железа, что делает сервер, нет ли там чего необычного, допустим drdb на RAID, как организован RAID (типы разделов диска, где swap), сильно ли ругается fsck, повторяются ли в логах номера inode.

mky ★★★★★
()
Ответ на: комментарий от ANGELOS

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1258
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 9
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 096 096 000 Old_age Always - 3334
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 8
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 4
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 4
194 Temperature_Celsius 0x0022 122 109 000 Old_age Always - 28
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0


ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1133
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 10
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 096 096 000 Old_age Always - 3311
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 9
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 3
194 Temperature_Celsius 0x0022 125 112 000 Old_age Always - 25
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

Kalashmat
() автор топика
Ответ на: комментарий от mky

>список всего железа

00:00.0 Host bridge: Intel Corporation 3200/3210 Chipset DRAM Controller (rev 01)
00:01.0 PCI bridge: Intel Corporation 3200/3210 Chipset Host-Primary PCI Express Bridge (rev 01)
00:1a.0 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #4 (rev 02)
00:1a.1 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #5 (rev 02)
00:1a.2 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #6 (rev 02)
00:1a.7 USB Controller: Intel Corporation 82801I (ICH9 Family) USB2 EHCI Controller #2 (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 1 (rev 02)
00:1c.4 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 5 (rev 02)
00:1c.5 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 6 (rev 02)
00:1d.0 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #1 (rev 02)
00:1d.1 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #2 (rev 02)
00:1d.2 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #3 (rev 02)
00:1d.7 USB Controller: Intel Corporation 82801I (ICH9 Family) USB2 EHCI Controller #1 (rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 92)
00:1f.0 ISA bridge: Intel Corporation 82801IR (ICH9R) LPC Interface Controller (rev 02)
00:1f.2 SATA controller: Intel Corporation 82801IR/IO/IH (ICH9R/DO/DH) 6 port SATA AHCI Controller (rev 02)
00:1f.3 SMBus: Intel Corporation 82801I (ICH9 Family) SMBus Controller (rev 02)
00:1f.6 Signal processing controller: Intel Corporation 82801I (ICH9 Family) Thermal Subsystem (rev 02)
01:00.0 PCI bridge: Intel Corporation 6702PXH PCI Express-to-PCI Bridge A (rev 09)
01:00.1 PIC: Intel Corporation 6700/6702PXH I/OxAPIC Interrupt Controller A (rev 09)
0d:00.0 Ethernet controller: Intel Corporation 82573E Gigabit Ethernet Controller (Copper) (rev 03)
0f:00.0 Ethernet controller: Intel Corporation 82573L Gigabit Ethernet Controller
11:03.0 VGA compatible controller: ATI Technologies Inc ES1000 (rev 02)
11:04.0 IDE interface: Integrated Technology Express, Inc. IT8213 IDE Controller

processor : 1
vendor_id : GenuineIntel
cpu family : 6
model : 23
model name : Intel(R) Core(TM)2 Quad CPU Q9400 @ 2.66GHz
stepping : 10
cpu MHz : 2000.000
cache size : 3072 KB
physical id : 0
siblings : 4
core id : 3
cpu cores : 4
apicid : 3
fdiv_bug : no
hlt_bug : no
f00f_bug : no
coma_bug : no
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe nx lm constant_tsc pni monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr sse4_1 lahf_lm
bogomips : 5332.95

MemTotal: 4148464 kB
MemFree: 185744 kB
Buffers: 253312 kB
Cached: 1753376 kB
SwapCached: 0 kB
Active: 2872820 kB
Inactive: 716100 kB
HighTotal: 3275200 kB
HighFree: 26760 kB
LowTotal: 873264 kB
LowFree: 158984 kB
SwapTotal: 4096564 kB
SwapFree: 4096400 kB
Dirty: 41524 kB
Writeback: 0 kB
AnonPages: 1582148 kB
Mapped: 27128 kB
Slab: 354608 kB
PageTables: 8332 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
CommitLimit: 6170796 kB
Committed_AS: 2454976 kB
VmallocTotal: 116728 kB
VmallocUsed: 5332 kB
VmallocChunk: 111236 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
Hugepagesize: 2048 kB

нет ли там чего необычного, допустим drdb на RAID

Нет, просто SOFT-RAID на разделы и на них обычный ext3

как организован RAID (типы разделов диска, где swap)


Personalities : [raid1]
md2 : active raid1 sdb2[1] sda2[0]
153597376 blocks [2/2] [UU]

md1 : active raid1 sdb3[1] sda3[0]
15358016 blocks [2/2] [UU]

md3 : active raid1 sdb5[1] sda5[0]
802687616 blocks [2/2] [UU]

md0 : active raid1 sdb1[1] sda1[0]
5116544 blocks [2/2] [UU]

unused devices: <none>

Файловая система Разм Исп Дост Исп% смонтирована на
/dev/md0 4,8G 437M 4,1G 10% /
/dev/sdc3 885G 94G 746G 12% /backup
/dev/md3 742G 72G 632G 11% /home
/dev/md2 142G 7,6G 128G 6% /var
/dev/md1 15G 4,4G 9,1G 33% /usr
/dev/sdc1 15G 197M 14G 2% /tmp
tmpfs 2,0G 0 2,0G 0% /dev/shm

swap + tmp + backup на третьем диске

повторяются ли в логах номера inode.

Сколько раз проверял - везде разные файлы во сновном все с /var /home там где чаще работа файлов...

Сервер используется под обычный LAMP без изысков, все стандартное.

Kalashmat
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.