Приветствую!
Что имею:
- Debian 10
- Software RAID6 8x8TB mdadm + LVM
Описание проблемы:
Буквально сразу после установки системы на lvm, после первой первой перезагрузки, сервер уходит в ребут с ошибкой md: super_written gets error=10
. После перезагрузки смотрю cat /proc/mdstat
- все нормально
Personalities : [raid1] [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid10]
md1 : active raid6 sdd2[3] sda2[0] sdc2[2] sdb2[1] sde2[4] sdh2[7] sdg2[6] sdf2[5]
46880212992 blocks super 1.2 level 6, 512k chunk, algorithm 2 [8/8] [UUUUUUUU]
[=>...................] resync = 7.5% (592285532/7813368832) finish=864.8min speed=139154K/sec
bitmap: 57/59 pages [228KB], 65536KB chunk
синхронизация идет. Окей. Проходит время (рандомное) - сервер снова в ребут с той же ошибкой. Проверяю cat /proc/mdstat
- все нормально, синхронизация продолжается. В итоге синхронизация дойдет до конца, с постоянными перезагрузками, но это только начало.
Настраиваю сервер на работу с xen hypervisor, создаю lvm разделы для виртуальных машин, разворачивают уже существующие образы в lvm - все хорошо, все работает. Но недолго. Буквально через неделю произошел первый полный завис сервера с той же ошибкой (полный текст не выложу, т.к. переписываю со скрина, да там и не нужно):
md: super_written gets error=10
md/raid:md1: Disk failure on sd[a-h] (то есть он пишет так про каждый диск)
EXT4-fs error (device dm-0): __ext4_find_entry:1449: inode #2098447: comm systemd-udevd: reading directory iblock 0
Buffer I/O error on dev dm-3, logical block $BLOCK_NUMBER, lost async page write
EXT4-fs (dm-0): I/O error while writing superblock
EXT4-fs (dm-0): previous I/O error to superblock detected
EXT4-fs (dm-0): Remounting filesystem to read-only
JBD2: Error -5 detected when updating journal superblock for dm-0-8
И т.д.
Ну и система встает, не реагирует ни на что, Sysrq недоступен, сеть лежит - только ручная перезагрузка.
Проверил каждый диск: бэдблоков нет, smartctl показывает идеальное состояние, SMART overall-health self-assessment rest result: PASSED
для каждого диска, fsck ничего не видит. Диски как в рабочем состоянии.
Я не пойму где и что я упускаю, ведь проблема довольно серьезная: из-за постоянных зависаний системы сервер не может войти в строй уже почти месяц. Комрады, поделитесь, пожалуйста, опытом тестирования дисков и помогите мне с моей бедой. Сервер есть - сервисов нет.