LINUX.ORG.RU
ФорумAdmin

Зависает/перезагружается сервер с RAID6

 , ,


0

5

Приветствую!

Что имею:

  1. Debian 10
  2. Software RAID6 8x8TB mdadm + LVM

Описание проблемы:

Буквально сразу после установки системы на lvm, после первой первой перезагрузки, сервер уходит в ребут с ошибкой md: super_written gets error=10. После перезагрузки смотрю cat /proc/mdstat - все нормально

Personalities : [raid1] [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid10]
md1 : active raid6 sdd2[3] sda2[0] sdc2[2] sdb2[1] sde2[4] sdh2[7] sdg2[6] sdf2[5]
      46880212992 blocks super 1.2 level 6, 512k chunk, algorithm 2 [8/8] [UUUUUUUU]
      [=>...................]  resync =  7.5% (592285532/7813368832) finish=864.8min speed=139154K/sec
      bitmap: 57/59 pages [228KB], 65536KB chunk

синхронизация идет. Окей. Проходит время (рандомное) - сервер снова в ребут с той же ошибкой. Проверяю cat /proc/mdstat - все нормально, синхронизация продолжается. В итоге синхронизация дойдет до конца, с постоянными перезагрузками, но это только начало.

Настраиваю сервер на работу с xen hypervisor, создаю lvm разделы для виртуальных машин, разворачивают уже существующие образы в lvm - все хорошо, все работает. Но недолго. Буквально через неделю произошел первый полный завис сервера с той же ошибкой (полный текст не выложу, т.к. переписываю со скрина, да там и не нужно):

md: super_written gets error=10
md/raid:md1: Disk failure on sd[a-h] (то есть он пишет так про каждый диск)
EXT4-fs error (device dm-0): __ext4_find_entry:1449: inode #2098447: comm systemd-udevd: reading directory iblock 0
Buffer I/O error on dev dm-3, logical block $BLOCK_NUMBER, lost async page write
EXT4-fs (dm-0): I/O error while writing superblock
EXT4-fs (dm-0): previous I/O error to superblock detected
EXT4-fs (dm-0): Remounting filesystem to read-only
JBD2: Error -5 detected when updating journal superblock for dm-0-8

И т.д.

Ну и система встает, не реагирует ни на что, Sysrq недоступен, сеть лежит - только ручная перезагрузка.

Проверил каждый диск: бэдблоков нет, smartctl показывает идеальное состояние, SMART overall-health self-assessment rest result: PASSED для каждого диска, fsck ничего не видит. Диски как в рабочем состоянии.

Я не пойму где и что я упускаю, ведь проблема довольно серьезная: из-за постоянных зависаний системы сервер не может войти в строй уже почти месяц. Комрады, поделитесь, пожалуйста, опытом тестирования дисков и помогите мне с моей бедой. Сервер есть - сервисов нет.

Показывай smartctl -a для каждого диска

Black_Shadow ★★★★★
()

К сожалению, я абсолютно не понимаю, как выложить сюда стену текста, чтобы оно читалось. Надо разобраться с разметкой.

echos063
() автор топика

Вангую за железо.

anc ★★★★★
()
Ответ на: комментарий от anonymous

Не могу ни подтвердить, ни опровергнуть. Информацию не нашел. В списках SMR не числится.

echos063
() автор топика

То, что все диски отваливаются разом, это странно.

Ну хорошо, диски отваливаются, ФС переходит в read-only.

А сервер-то почему перезагружается? Что-то в логах есть еще, что ты нам не показывешь.

bigbit ★★★★★
()
Ответ на: комментарий от bigbit

На данный момент мне нечего показать, т.к. все работает уже вторые сутки (я пересобрал рейд).

И сервер уходил в перезагрузку в лучшем случае, в худшем он намертво зависал.

echos063
() автор топика

Если были сообщения о попытках записи за пределы FS, то скорее всего контроллер втихушку портит данные.

anonymous
()
Ответ на: комментарий от anonymous

Дак нет никакого контроллера.

Сейчас, спустя два дня стабильной работы после пересборки рейда, мне уже кажется, что просто руки не из плеч. Оставлю сервер нагруженным до понедельник, посмотрю, что же с ним произойдет. Предыдущий рекорд был около 6 дней аптайма, а после, в течении двух недель, аптайм уменьшался и уменьшался до неприличных полутора часов.

Так что, до понедельника. Всем спасибо и хороших выходных!

echos063
() автор топика
Ответ на: комментарий от Black_Shadow

Он не записывает ошибки до перезагрузки. Либо я не там их ищу. Сижу настраиваю kdump для перехвата.

echos063
() автор топика
Ответ на: комментарий от bigbit

может backplane или expander отваливается/глючит

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.