Правильная работа со сбоящими дисками?

0

1

Тема не новая и, в чём-то, стандартная.

Имеется кластер из серверов Hadoop, на каждом сервере 15 дисков. Диски там - это RAID0 из 1 винта через контроллер HP Smart Array 420i (почему так через жопу и почему не HBA - тема отдельная), но в общем и целом это не важно. Каждый диск форматирован в XFS и смонтирован в отдельную директорию (в духе /data/XX) и юзается как HDFS Volume.

В какой-то момент один из винтов сдыхает и начинается веселье:

kernel: sd 0:0:0:8: [sdi]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
kernel: sd 0:0:0:8: [sdi]  Sense Key : Medium Error [current]
kernel: sd 0:0:0:8: [sdi]  Add. Sense: Unrecovered read error
kernel: sd 0:0:0:8: [sdi] CDB: Read(10): 28 00 00 00 52 10 00 00 10 00
kernel: end_request: critical medium error, dev sdi, sector 21008
...
kernel: XFS (sdi): metadata I/O error: block 0x5210 ("xfs_trans_read_buf") error 61 buf count 8192
kernel: XFS (sdi): xfs_imap_to_bp: xfs_trans_read_buf() returned error 61.
kernel: XFS (sdi): metadata I/O error: block 0x5210 ("xfs_trans_read_buf") error 61 buf count 8192
kernel: XFS (sdi): xfs_imap_to_bp: xfs_trans_read_buf() returned error 61.

При этом софт (в данном случае - HDFS Data Node) пытается читать\писать файлы усиленно генерируя данные ошибки тоннами и периодически залипая на I/O.

Что было сделано:

Сначала пытался убрать ноду из HDFS без его перезапуска, не вышло - процесс реконфигурирования залип.
Попытался закрыть дескриптор файла (он там был один) - не вышло, дебаггер gdb зависал при подключении к процессу.
Затем была попытка потушить HDFS штатно - не вышло, убил через kill -9 - процесс превратился в зомби но при этом продолжил усиленно насиловать этот диск
umount -f не прошло, umount -l выполнился, но это ничего не изменило - ошибки продолжали лезть и зомби мучил диск
Финально ребут сервера - тоже залип т.к. не смог отмонтировать все ФС и убить процессы (зомби то висит)
В итоге резет

Собсно вопрос - как (и можно ли) эту ситуацию решить *штатно*, без таких радикальных мер. Может это проблемы конкретно XFS что оно не возвращает нормально софту ошибку i/o? Или это проблемы Hadoop что он её штатно не обрабатывает? Если что - пока не экспериментировал.

Ось - центос 6.

Ссылка

←	lxc в CentOS 7 без libvirt

Не обновляется ubuntu 16.04

→

Удали сдохший винт.

Vsevolod-linuxoid ★★★★★
(30.05.16 22:54:08 MSK)

Ответ на: комментарий от Vsevolod-linuxoid 30.05.16 22:54:08 MSK

Я его потом перед ребутом отстрелил через /sys/block/sdi/delete - без толку. А физически его не вынуть - это HP Apollo, эдакий блейд, они не особо хотсвап.

blind_oracle ★★★★★
(31.05.16 09:16:29 MSK) автор топика

Ответ на: комментарий от blind_oracle 31.05.16 09:16:29 MSK

Последний блейд, который я видел (MFSYS25) позволял чуть ли не сами лезвия на горячую перетыкать. Забивая их на место ногами. А уж винты менялись по кулдауну, ибо экономия на спичках (вместо 2.5" SAS закупили на eBay ящик ноутбучных SATA).

svr4 ☆
(31.05.16 14:45:01 MSK)
Последнее исправление: svr4 31.05.16 14:45:18 MSK (всего исправлений: 1)

Ответ на: комментарий от svr4 31.05.16 14:45:01 MSK

Это не блейд как таковой. Это просто три сервера в одном 5U корпусе, которые забиваются дисками *сверху*, в выдвинутом состоянии. То бишь его для этого в моём случае нужно выключить т.к. проводка не обеспечивает запаса чтобы выдвинуть.

В любом случае, удаление диска не решает проблему - я его delete делал, он из системы пропадал, но зомбаку от этого лучше не становилось.

blind_oracle ★★★★★
(31.05.16 15:17:47 MSK) автор топика

Ссылка

kill -9 - процесс превратился в зомби но при этом продолжил усиленно насиловать этот диск

Да, было бы интересно узнать, как с этим бороться. Тоже бывало, что банальные команды связанные с I/O нельзя было убить даже из под рута. Причём не хотелось бы отмонтировать всю ФС вот так:

umount -f не прошло,

А тут пишут, что именно это должно было бы помочь. Неужели ядро противится прервать I/O?

Собсно вопрос - как (и можно ли) эту ситуацию решить *штатно*, без таких радикальных мер.

Если в xfs есть опция монтирования errors=read-only, то использовать её. Как превентивную меру.

gag ★★★★★
(01.06.16 04:34:22 MSK)

Ответ на: комментарий от gag 01.06.16 04:34:22 MSK

А тут пишут, что именно это должно было бы помочь.

Там речь про нфс в комменте, с ним может и помогло бы. В моем случае сразу выдавало ошибку в духе Resource busy или что-то такое.

Если в xfs есть опция монтирования errors=read-only, то использовать её. Как превентивную меру.

Я об этом сразу подумал и полез в ман - такой опции как у ext там нет. В рассылках нашел патчи на добавление похожего функционала для xfs в sysfs, но они от этого года, а пихать туда самое свежее ядро не очень безопасно думаю. Хотя переформатировать в ext4 и реплицировать 300тб тоже нет никакого желания :/

blind_oracle ★★★★★
(01.06.16 08:57:17 MSK) автор топика