Добрый день! Недавно в сефе по причине вывода одной из нод, после его перестроения начали заполняться с выше 85% 5 OSD. С нодой все необходимые работы провели, вернули ее в кластер, но уже с вычищенными дисками под OSD (отказываемся от RAID: с HP переключаем на HBA, с Huawei на JBOD без кэша записи). Массив «размазал» данные по вновь введенному серверу. Но остался флаг «nearfull», ceph osd unset такого флага не знает и убрать его не удается. Стоит ли на него вообще обращать внимание? И нужно ли с этим что-нибудь делать? Есть ли какое-нибудь влияние от этого флага?
health HEALTH_OK
monmap e6: 3 mons at {mon1=10.10.10.2:6789/0,mon2=10.10.10.3:6789/0,mon3=10.10.10.4:6789/0}
election epoch 14298, quorum 0,1,2 mon1,mon2,mon3
osdmap e212153: 138 osds: 138 up, 138 in
flags nearfull
pgmap v72003723: 6656 pgs, 4 pools, 25984 GB data, 7231 kobjects
78180 GB used, 44126 GB / 119 TB avail
6656 active+clean
client io 1188 kB/s rd, 15303 kB/s wr, 764 op/s
Так же хотел еще уточнить как более грамотно выводить для проведение работ ноду из кластера. Подразумевается, что после она будет пустая, данных с OSD на ней больше не будет. Мы используем релиз Hammer, но ноды после переустановки по причине отказа от RAID уже устанавливаем на Jewel, поскольку у нас в планах и обновление до Luminous (с блекджеком и BlueStore). Но вот добавить в действующий массив ноды с Luminous не удается, из-за этого добавляем с Jewel. До сих пор не могу понять из-за чего( Предполагаю, что из-за мониторов на Hammer'e. В общем, к самой сути, Hammer в плане приоритетов восстановления не очень хорош. Из книги LearningCeph (2-е изд.). Вычитал как снизить эти приоритеты и какие именно надо вообще менять. Сделал согласно рекомендациям из книги. Вывожу ноду и все равно пока массив очухивается, что у него больше нет тех OSD, что были на ноде и начинает перестроение, в этот момент начинает проседать I/O, увеличиваются задержки на виртуалках. Не долго и не так сильно, все это занимает буквально 5 минуты с момента отключения сервера. Далее массив уже начинает перестроение и все нормализуется. Но вот эти 5 минут делают много вони (и боли, мне админу, потому что на утро куча писем с заголовками: ко-ко-ко ваш OpenStack говно). Ноду исключаю тупо выключив ее, но думаю может мне сперва лучше проводить процедуру удаления каждой OSD? Чтобы не было просадки по I/O.