Вот совсем недавно здесь был (и, кажется, ещё полыхает) эпический срач о преимуществах файловых систем с поддержкой контрольных сумм данных, и вот я сам столкнулся с вопросом.
Есть несколько «зеркал» (mdadm
, RAID 1), каждое из которых «натянуто» на два идентичных (по геометрии) раздела двух физических дисков (всего дисков три, но в RAID 1 их разделы всегда участвуют попарно). Поверх md-разделов – LVM2. Поверх LVM2 – ext4
.
/proc/mdstat
в порядке:
Personalities : [raid1]
md4 : active raid1 sda6[0] sdb6[2]
1299452672 blocks super 1.2 [2/2] [UU]
md3 : active raid1 sda5[4] sdb5[5]
165540964 blocks super 1.2 [2/2] [UU]
md2 : active raid1 sdb3[5] sda3[4]
165540964 blocks super 1.2 [2/2] [UU]
md1 : active raid1 sdb2[4] sda2[3]
321793764 blocks super 1.2 [2/2] [UU]
md0 : active raid1 sdb1[4] sda1[3]
1048564 blocks super 1.2 [2/2] [UU]
unused devices: <none>
S.M.A.R.T-атрибуты (18x, 19x) тоже в порядке.
/usr/share/mdadm/checkarray
положен в cron
, и в какой-то момент в почте я начал замечать следующее:
Nov 3 03:54:03 helios mdadm[3953]: RebuildFinished event detected on md device /dev/md4, component device mismatches found: 4224 (on raid level 1)
Nov 3 05:04:10 helios mdadm[3953]: RebuildFinished event detected on md device /dev/md2, component device mismatches found: 256 (on raid level 1)
Dec 1 03:53:45 helios mdadm[3929]: RebuildFinished event detected on md device /dev/md4, component device mismatches found: 4224 (on raid level 1)
Dec 1 04:12:32 helios mdadm[3929]: RebuildFinished event detected on md device /dev/md2, component device mismatches found: 128 (on raid level 1)
Jan 13 00:01:30 helios mdadm[3914]: RebuildFinished event detected on md device /dev/md2, component device mismatches found: 256 (on raid level 1)
Jan 13 04:28:05 helios mdadm[3871]: RebuildFinished event detected on md device /dev/md4, component device mismatches found: 7168 (on raid level 1)
Jan 13 05:36:56 helios mdadm[3871]: RebuildFinished event detected on md device /dev/md2, component device mismatches found: 256 (on raid level 1)
Jan 13 14:03:54 helios mdadm[3871]: RebuildFinished event detected on md device /dev/md4, component device mismatches found: 7168 (on raid level 1)
Jan 13 15:12:38 helios mdadm[3871]: RebuildFinished event detected on md device /dev/md2, component device mismatches found: 256 (on raid level 1)
Повторная проверка (check
), как видно, к изменению результатов не привела. Сейчас ситуация следующая (соответствует логам выше):
# cat /sys/block/md2/md/mismatch_cnt
256
# cat /sys/block/md4/md/mismatch_cnt
7168
Формально у меня сейчас два варианта:
- Попытаться прочитать (скопировать) все данные с потенциально проблематичных разделов и в результате гадать, была ли проблема и, если была, то с какой из двух половинок зеркала я эти данные считал.
- Выполнить
echo repair > /sys/block/md{2,4}/md/sync_action
и … Вспоминается Картман и его мега-бизнес-идея собирать старые кальсоны.
Вопросы:
- Как обычно в таких случаях ремонтируется RAID 1?
- Есть ли возможность «посмотреть» (интерактивный
repair
) на различающиеся блоки, занятые файлами?