Падение производительности дисков после достижения объема в 75% места

1

2

Добрый день.

Столкнулся с проблемой. Есть система, которая должна хранить 1 миллиард картинок по ~120КБ. Пишет она со скоростью от 10 до 50МБ\с в зависимости от времени суток. Сделали 2 ВМ Убунту в PCS кластере, каждая 4цпу\8рам, напрямую подключена СХД netapp e-серии, лун на 100ТБ. На борту нджинкс с вебдав доступом. Диски через iscsi, мультипасс, далее vg, lvm, FS ext4. Монтируется всё как кластерный ресурс PCS, включая вип, нджинкс, лвм и фс. Кластер актив\стендбай. Дерево дирректорий - папка аплоадс, далее папки по датам, и в каждой из них примерно 1500 подпапок, в каждой из который примерно 12000 файлов. Суть - всё работает шикарно, ровно до момента пока не наберется примерно 77-78ТБ заполненного места. Начинаю видеть утилизацию диска в 100%, иовейт до 80%, одно ядро подвешивается kworker-flush, а в перфтопе ext4_mb_good_group. Также при достижении 74-75ТБ начинается странное чтение на 50-100 иопсов мелким блоком, но без деградации.

Пока нашли единственный способ - удаляем часть старых данных, но это не вариант, так как в прод надо выводить обьем х3 от текущего.

Может кто сталкивался?

Ссылка

←	Умеет ли OpenZFS добавлять в пул dRAID новые диски для расширения пула?

Как исправить? PHP Warning: PHP Startup: Unable to load dynamic library

→

Все написал! Кроме того, какие винты )

kindof ★
(13.08.22 21:00:08 MSK)

Ответ на: комментарий от kindof 13.08.22 21:00:08 MSK

Так написал жеж - netapp e-series :) на ней SDB, SDA как толстый диск через вмваре, датастора на dorade 6000.

По сути - NL-SAS, но к её производительности вопросов нету. Там ДДП из 60 дисков. На другой системе мы её грузим до 700МБ\с без проседаний.

HoroHoro
(13.08.22 21:22:16 MSK) автор топика

Ответ на: комментарий от HoroHoro 13.08.22 21:22:16 MSK

Так написал жеж - netapp e-series :) на ней SDB, SDA как толстый диск через вмваре, датастора на dorade 6000.

По сути - NL-SAS, но к её производительности вопросов нету.

Это все понятно

Там ДДП из 60 дисков.

Из каких?

На другой системе мы её грузим до 700МБ\с без проседаний.

при заполняемости >75% ?

kindof ★
(13.08.22 21:25:01 MSK)

Ответ на: комментарий от kindof 13.08.22 21:25:01 MSK

Диски по 8ТБ, всего 330ТБ полезного. Больше на хранилке пока никого нету (потребителей)

Да, но там по сути 10 ВМ по 30ТБ и каждая пишет по 60-70МБ\с крупным блоком. И прокинута она через вмваре, а не напрямую. Там вплоть до 100% нет падения производительности.

HoroHoro
(13.08.22 21:28:36 MSK) автор топика

Ответ на: комментарий от HoroHoro 13.08.22 21:28:36 MSK

Какие диски ты так и не ответил.

firkax ★★★★★
(13.08.22 21:42:00 MSK)

Ответ на: комментарий от firkax 13.08.22 21:42:00 MSK

Что ты имеешь в виду какие диски? nl-sas, 8TB… Какая инфа еще может быть? Ну могу сказать что не подерживающие аппаратное шифрование, то есть обычные

HoroHoro
(13.08.22 21:46:05 MSK) автор топика

Ответ на: комментарий от HoroHoro 13.08.22 21:46:05 MSK

Полное название модели диска. Например Жесткий диск IBM 1TB HS 7.2K 6G NL SAS LFF HDD [42D0777] модель диска конкретную. NL SAS это не модель, а отличие от обычных дисков.

LINUX-ORG-RU ★★★★★
(13.08.22 21:50:49 MSK)

Ссылка

Ответ на: комментарий от HoroHoro 13.08.22 21:28:36 MSK

Диски по 8ТБ, всего 330ТБ полезного. Больше на хранилке пока никого нету (потребителей)

Модель дисков-то какая?

На второй такие-же?

Да, но там

там - это на второй? Там тоже DDP?

по сути 10 ВМ по 30ТБ и каждая пишет по 60-70МБ\с крупным блоком. >И прокинута она через вмваре, а не напрямую.

т.е. на второй гипевизор ESXi?

Там вплоть до 100% нет падения производительности.

до 100% объема?

Чекните UniManager-ом event-log. Может там policy нарулены

kindof ★
(13.08.22 21:50:55 MSK)

ФС, основанные на allocation-группах, не рекомендуется забивать больше, чем на 80%. После этого начинает тратится много времени на поиск подходящей allocation-группы.

Кстати, RedHat не сертифицирует ext4 размером более 50TB. Попробуй XFS, там сертифицирванный объем 500TB.

bigbit ★★★★★
(13.08.22 22:05:09 MSK)

Ответ на: комментарий от kindof 13.08.22 21:50:55 MSK

Коллеги, я извиняюсь, но неужели тут есть люди, которые основываясь на модели дисков во внешнем СХД могут сказать, что из-за них проблемы? Нет, мне не проблема скинуть инфу - просто я потерялся, к чему она нужна. Capacity (TiB):7.14 Speed (RPM):7200 Current data rate:12 Gb/s Drive block size:512 Logical sector size (bytes):512 Physical sector size (bytes):4096 Product ID:HUS728T8TAL5204 Manufacturer:HGST

Давайте я наверное пояснение дам - под падением производительности дисков - я имел в виду дисковую подсистему в линуксе. Саму СХД проверили, её показатели идеальные.

По наруленному\накрученному - всё по дефолту. По сути чистая убунта. Установлен пцс, поднят кластер, добавлены ресурсы. Никакого вмешательства в настройки чего-либо не было, даже ФС маунтится без опций. Сразу скажу (-noatime и подобное эффекта не принесло)

Про другую СХД я упомянул для сравнения, что в железо мы не упираемся точно. Сами сервисы в разных цодах. Конфиги СХД одинаковые, разве что инициаторы в одном случае линукс-дм, а в другом esxi. Диск на 100ТБ через esxi не прокинуть, только если бить на кусочки + это не подойдет для организации кластера.

HoroHoro
(13.08.22 22:09:24 MSK) автор топика

Ответ на: комментарий от bigbit 13.08.22 22:05:09 MSK

Спасибо за инфу, очень похоже, что он начинает искать куда аллоцировать.

По XFS - стремно. Как понимаете, вместе с записью предполагается время от времени удалять старое и xfs тут такой себе помощник по скорости. Плюс xfs как говорят слабо ремонтнопригоден.

HoroHoro
(13.08.22 22:11:52 MSK) автор топика

Ответ на: комментарий от HoroHoro 13.08.22 22:09:24 MSK

Коллеги, я извиняюсь, но неужели тут есть люди, которые основываясь на модели дисков во внешнем СХД могут сказать, что из-за них проблемы? Нет, мне не проблема скинуть инфу - просто я потерялся, к чему она нужна.

да теперь уже ясно, что там LUN 30% от общего, так что не важно

Давайте я наверное пояснение дам - под падением производительности дисков - я имел в виду дисковую подсистему в линуксе. Саму СХД проверили, её показатели идеальные.

а вот мне, по фотографии, мнится что нетапп режет иопсы по достижении трешолда по объему. Чекните event-log на нетаппе

kindof ★
(13.08.22 22:17:02 MSK)
Последнее исправление: kindof 13.08.22 22:19:56 MSK (всего исправлений: 1)

Ответ на: комментарий от kindof 13.08.22 22:17:02 MSK

Есть по ним требование оставлять 10% не размеченным на ДДП, оно соответственно выполнено. По заполненности лунов такого нету точно, да и как я уже писал - на других наших системах таких приколов нету, но профиль и характер нагрузок там отличается.

HoroHoro
(13.08.22 22:22:48 MSK) автор топика

Ответ на: комментарий от HoroHoro 13.08.22 22:11:52 MSK

Судя по ext4_mb_good_group, это оно и есть.


/*
 * This is also called BEFORE we load the buddy bitmap.
 * Returns either 1 or 0 indicating that the group is either suitable
 * for the allocation or not.
 */
static bool ext4_mb_good_group(struct ext4_allocation_context *ac,
				ext4_group_t group, int cr)

bigbit ★★★★★
(13.08.22 22:22:59 MSK)

Ответ на: комментарий от bigbit 13.08.22 22:22:59 MSK

Не знаете как победить\обойти? Всё же странно, что подобное происходит, учитывая не сказать чтоб серьёзную нагрузку. Не хочется менять ФС, мы не любители экспериментов на проде :)

HoroHoro
(13.08.22 22:25:29 MSK) автор топика

Ответ на: комментарий от HoroHoro 13.08.22 22:25:29 MSK

Нет, я на проде ФС такого большого размера никогда не использовал. Просто потому, что их нельзя забэкапить/восстановить за приемлемое время.

bigbit ★★★★★
(13.08.22 22:28:22 MSK)

Ссылка

Ответ на: комментарий от HoroHoro 13.08.22 22:22:48 MSK

ну если уверены, что ext4 виновата, можно там debug включить не знаю только стоит ли на проде )

и vmstat поглядеть в динамике в момент инцидента

BTW, 8 RAM выглядят как-то скромно в таком сетапе. Может там kernel internals мнется

kindof ★
(13.08.22 23:25:48 MSK)
Последнее исправление: kindof 13.08.22 23:27:49 MSK (всего исправлений: 1)

Ответ на: комментарий от kindof 13.08.22 23:25:48 MSK

Я сказал, что похоже, что есть проблема с аллоцированием, но не уверен точно :)) Спасибо за советы, попробую глянуть.

по 8ГБ RAM - докидывал до 24, ничего не меняется.

HoroHoro
(13.08.22 23:37:46 MSK) автор топика

Ответ на: комментарий от HoroHoro 13.08.22 23:37:46 MSK

как хинт - сделайте еще lun 100T +VM там же и потестируйте чем прод почем зря теребить

PS для начала - тупо dd в девайс, чтобы отбросить сомнения о фс

kindof ★
(13.08.22 23:39:40 MSK)
Последнее исправление: kindof 13.08.22 23:45:01 MSK (всего исправлений: 1)

Ссылка

В btrfs есть b-деревья не только для занятого пространства но и для пустого.

Забивать 100тб файлами размером 120кб это какой то сюр. Вам надо в консерватории что то поправить.

theurs ★★
(14.08.22 02:33:37 MSK)