Почему SSD тормозят при добавлении их разделов в разные пулы и их кэш?

наша паршивка по вашим просьбам заточена под тесты для хомяков @(всегда ваши, вендоры)

Deleted
(06.07.16 20:50:09 MSK)

Ответ на: комментарий от Deleted 06.07.16 20:50:09 MSK

начинай с описания модели своих дисков.

Deleted
(06.07.16 20:50:45 MSK)

Я бы не стал использовать zfsonlinux от слова «совсем».

Оно даже на Hipstere начинало непонятно вести себя при больших нагрузках.

Только Solaris, только Oracle.

~~int13h~~ ★★★★★
(06.07.16 20:51:05 MSK)

Под базы данных ZFS нужно как-то тонко настраивать. ~~King_Carlo~~ может рассказать

Deleted
(06.07.16 20:51:13 MSK)

Ответ на: комментарий от Deleted 06.07.16 20:51:13 MSK

zfs хороша тем, что прекрасно документирована, берём доку http://www.solarisinternals.com/wiki/index.php/ZFS_for_Databases
и не рушим себе мозг.
Но ТС не про это спрашивал.

~~King_Carlo~~ ★★★★★
(06.07.16 21:05:53 MSK)

Причем утилизация SSD по dstat от нескольких % до примерно 10%.

Какой размер пула, какой % пула занят, ~~какого размера ssd~~, какой uptime?

~~King_Carlo~~ ★★★★★
(06.07.16 21:06:59 MSK)
Последнее исправление: King_Carlo 06.07.16 21:08:43 MSK (всего исправлений: 1)

Ответ на: комментарий от int13h 06.07.16 20:51:05 MSK

Только Solaris, только Oracle

Это религиозный экстаз...

~~King_Carlo~~ ★★★★★
(06.07.16 21:10:01 MSK)

Ссылка

Ответ на: комментарий от King_Carlo 06.07.16 21:05:53 MSK

берём доку http://www.solarisinternals.com/wiki/index.php/ZFS_for_Databases

уже читал

~~sanyock~~ ★★
(06.07.16 21:25:47 MSK) автор топика

Ссылка

Ответ на: комментарий от King_Carlo 06.07.16 21:06:59 MSK

Какой размер пула, какой % пула занят, какого размера ssd, какой uptime?

рассмотрим один пул:

zpool list
NAME SIZE ALLOC FREE EXPANDSZ FRAG CAP DEDUP HEALTH ALTROOT
data 556G 367G 189G - 67% 65% 1.00x ONLINE -

планируется замена дисков на бОльшие

zpool status: http://pastebin.com/3uMxsMGT

~~sanyock~~ ★★
(06.07.16 21:27:54 MSK) автор топика
Последнее исправление: sanyock 06.07.16 21:28:50 MSK (всего исправлений: 1)

Ответ на: комментарий от Deleted 06.07.16 20:50:45 MSK

начинай с описания модели своих дисков.

1) когда работает хорошо, конфиг такой:

зеркало SLOG: 2 x Intel3700 partition1: 10GB
L2ARC: те же самые 2xIntel3700 partition2: = 320GB total

2) если сделать:
L2ARC: те же самые 2xIntel3700 partition2: = 120GB total

А остаток те же самые 2xIntel3700 partition3 около 200GB добавить в другой пул в качестве зеркала данных

то работает значительно медленнее

причем в этом другом пуле еще и зеркало обычных относительно быстрых десктопных SSD, т.е. получается RAID 10

3) Планирую попробовать:

зеркало разделов 2xIntel3700 по 10 гиг ТОЛЬКО под SLOG, остаток пока пусть пропадает
пара десктопных SSD ТОЛЬКО под L2ARC

dstat показывает:

заполнение SLOG всего на 1-3 мегабайт в секунду

L2ARC объемом 320GB заполняется примерно за неделю

L2ARC объемом 120GB заполняется примерно за пару дней

Доступ СУБД к хранилищу организован примерно так:

DBMS->ext3->iscsi client (RedHat) -> iscsi lio target (Debian) -> zvol (8k blocks)->pool

~~sanyock~~ ★★
(06.07.16 21:36:22 MSK) автор топика
Последнее исправление: sanyock 06.07.16 21:43:08 MSK (всего исправлений: 6)

Ответ на: комментарий от sanyock 06.07.16 21:36:22 MSK

До меня только сейчас дошло, что ты хочешь один ssd-mirror и под zil и под l2arc. Это не очень хорошая идея, оно действительно работает медленнее чем отдельные ssd под zil и l2arc.

~~King_Carlo~~ ★★★★★
(06.07.16 21:58:05 MSK)

Ссылка

Ответ на: комментарий от int13h 06.07.16 20:51:05 MSK

С первым тезисом согласен на 100%

Со вторым - хипстер на то и хипстер :)

С третьим ты переборщил. Поделись своим открытием с joyent, omniti, netflix, integros, ixsystems, etc.

Плюс я сам наблюдал как в режиме 24/7 zfs переваривает 250000 iops на запись при дефолтных настройках (FreeBSD/OmniOS).

anonymous
(06.07.16 22:11:14 MSK)

Ссылка

Ответ на: комментарий от sanyock 06.07.16 21:27:54 MSK

Дефрагментация приличная.

У тебя данных в пуле 367 гб и имеются 2 ssd по 500 гб, правильно? Вариант положить базы на ssd не вариант?

scsi-SAdaptec_V* прошивка на контроллере raid или it?

anonymous
(06.07.16 22:54:30 MSK)

Жадность фраера погубит.

Тормозит, потому что конфликтующие режимы использования. Для slog важна низкая задержка, иначе ускорения не получится, и размеры блоков, которые slog пишет на SSD, небольшие - по умолчанию до 32K, но их может быть много и пишутся они часто. Пока пишутся только они - все хорошо. Места при этом используется немного, ибо блоки эти короткоживущие, живут там не более 3-х идущих подряд групп транзаций, зато IOPSы используются только в путь. При этом эти блоки читаются только в одном случае - при импорте пула и монтировании файловых систем и/или томов после нештатного завершения работы.

Тут жадного фраера начинает душить жаба - это как же, столько ж места пропадает, - и он нчаинает использовать тот же диск в качестве кэша второго уровня. У которого совершенно иной режим использование - запись большими блоками по 8M (или меньше, если в момент записи нужного количества блоков не нашлось), и случайные чтения блоков меньшего размера, но их тоже может быть много в зависимости от размеров памяти, ARC, политик кэширования и нагрузки на систему.

Вот отправил ты такой восьмимегабайтную запись, а теперь подумай, сколько времени понадобится чтобы ее через интерфейс для твоего SSD пропихнуть, и что в это время будут делать те операции записи, которые идут в slog... Курить нервно в сторонке они будут. Вот эта запись кончилась, и вроде бы можно начинать писать, а тут вдруг чтения из l2cache поперли, и хорошо если они IOPS'ы с записью пополам поделят, а могут ведь и в совершенно иной пропорции. А через секунду еще одна такая 8M запись может полететь в l2cache. И так далее, и тому подобное.

Короче, плохая это идея.

anonymous
(07.07.16 02:31:07 MSK)

Ответ на: комментарий от sanyock 06.07.16 21:36:22 MSK

А если фраер эти же устройства еще и для данных в другом пуле собрался использовать, то пенять ему только на себя, ибо это добавит еще записей, которые, за счет аггрегирования при условии не сильно фрагментированного свободного пространства могут быть по мегабайту тоже, плюс изрядно добавит чтения, причем если другое зеркало в том же пуле существенно медленнее, то для чтения метаданных ZFS будет предпочитать более быстрое устройство, ибо метаданных по умолчанию всегда две или три копии, по возможности на разных устройствах (на разных зеркалах в случае нашего фраера).

И вот тут-то slog'у становится совсем грустно.

anonymous
(07.07.16 02:46:41 MSK)

Ответ на: комментарий от anonymous 07.07.16 02:31:07 MSK

столько ж места пропадает, - и он нчаинает использовать тот же диск в качестве кэша второго уровня. У которого совершенно иной режим использование - запись большими блоками по 8M (или меньше, если в момент записи нужного количества блоков не нашлось), и случайные чтения блоков меньшего размера, но их тоже может быть много в зависимости от размеров памяти, ARC, политик кэширования и нагрузки на систему.

в таком конфиге работало нормально и даже хорошо, намного лучше, чем после одновременного добавления другой партиции Intel SSD в другой пул

видимо Intel 3700 SSD легко справляется с такой «неэффективной» нагрузкой (SLOG + L2ARC но только одного пула), именно жадность в данном случае и мешает отказаться от такого способа использования

зачем отказываться если все хорошо?

но планирую попробовать Intel SDD только под SLOG, пусть остаток Intell SSD отдохнет

~~sanyock~~ ★★
(07.07.16 04:31:33 MSK) автор топика
Последнее исправление: sanyock 07.07.16 04:33:29 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от anonymous 06.07.16 22:54:30 MSK

У тебя данных в пуле 367 гб и имеются 2 ssd по 500 гб, правильно? Вариант положить базы на ssd не вариант?

lsblk:
http://pastebin.com/wa3euBYS

sda-sdd - это HDD
sde,sdf - это десктопные относительно быстрые SSD
nvme* - это пара Intel3700

при таком раскладе (zpool status):
http://pastebin.com/DvnFgC97

пул data притормаживает
пул fast работает относительно нормально
оба пула нагружены базами данных

Планирую улучшить положение использованием:
nvme* только под SLOG пула data
sde,sdf только под L2ARC пула data
соответственно пула fast не станет

scsi-SAdaptec_V* прошивка на контроллере raid или it?

Прошивка дефолтная RAID, HDD настроены четырьмя массивами из одного диска каждый «массив», диски были быстрые 15K RPM, один помер, пришлось заменить на SAS Constilation большего объема и с меньшим RPM, но по dstat все же его утилизация редко поднимается до 100%, хоть для него и неправильный дефолтный ashift

тормоза проявляются именно когда nve* SSD используется одновременно и под SLOG,L2ARC пула data и под одно из зеркал данных другого пула fast, в пуле fast тоже наблюдается незначительное снижение производительности, при этом утилизация nve* не поднимается выше 10%

~~sanyock~~ ★★
(07.07.16 04:39:03 MSK) автор топика

Ответ на: комментарий от anonymous 07.07.16 02:46:41 MSK

И вот тут-то slog'у становится совсем грустно.

где это можно увидеть в статистике типа dstat, кроме как на рабочем месте пользователя?

утилизация Intel 3700 SSD при такой грусти SLOG-а колышется между 5 и 10 процентами

~~sanyock~~ ★★
(07.07.16 04:41:35 MSK) автор топика
Последнее исправление: sanyock 07.07.16 04:42:33 MSK (всего исправлений: 2)

Ответ на: комментарий от sanyock 07.07.16 04:41:35 MSK

use dtrace, luke!

Чёрт, совсем забыл, в ляликсе его до сих пор путем нету.

anonymous
(07.07.16 06:24:19 MSK)

Ответ на: комментарий от anonymous 07.07.16 06:24:19 MSK

в ляликсе

:)

а транжирить свое время на изучение солярки невыгодно, мне за это не доплачивают

~~sanyock~~ ★★
(07.07.16 07:10:18 MSK) автор топика
Последнее исправление: sanyock 07.07.16 07:11:01 MSK (всего исправлений: 1)

потому что херовые ссд?

~~darkenshvein~~ ★★★★★
(07.07.16 07:13:17 MSK)

Потому-что для ssd есть ext4, а zfs вендовненько и ненужно.

Lavos ★★★★★
(07.07.16 07:14:06 MSK)

Ответ на: комментарий от darkenshvein 07.07.16 07:13:17 MSK

потому что херовые ссд?

аха Intel 3700 херовей некуда

~~sanyock~~ ★★
(07.07.16 07:14:06 MSK) автор топика

Ссылка

Ответ на: комментарий от Lavos 07.07.16 07:14:06 MSK

Потому-что для ssd есть ext4, а zfs вендовненько и ненужно.

насколько надо быть упоротым, чтобы сравнивать ZFS с ExtX?

мне ведь кроме FS еще и снэпшоты нужны и многое другое, что есть только в ZFS

и интересно как можно с помощью ExtX собрать контроллеро независимый при его сдыхании редундантный массив относительно большой емкости из HDD, чтобы при этом он вытягивал random iops на запись в десятки или сотни раз больше того, что могут осилить HDD?

это все равно, что Oracle сравнивать с базами в текстовых файлах, и утверждать, что txt файлы объемом 1к через ODBC работают намного быстрее, чем Oracle, у которого даже пустая база занимает столько то сотен метров ..

~~sanyock~~ ★★
(07.07.16 07:18:34 MSK) автор топика
Последнее исправление: sanyock 07.07.16 07:19:52 MSK (всего исправлений: 2)

Ответ на: комментарий от sanyock 07.07.16 07:18:34 MSK

Вот поэтому zfs и ненужен. В печь комбайны.
Вообще, снапшоты не нужны, но если очень сильно хочется, то есть lvm2.

Lavos ★★★★★
(07.07.16 07:24:58 MSK)

Ответ на: комментарий от Lavos 07.07.16 07:24:58 MSK

Вот поэтому zfs и ненужен. В печь комбайны.

да и Sun с Oracle не нужны (корпорации в целом)

Вообще, снапшоты не нужны

а я и не знал, большое спасибо, что просветили

но если очень сильно хочется, то есть lvm2.

LVM может создавать массивы с избыточностью?
копировать снэпшот с одного LVM на второе резервное хранилище по сетке, чтобы одновременно при копировании! на обоих хранилищах работали базы?
сжимать и дедуплицировать данные?
каким местом LVM улучшает random iops?

жопорожец завсигда лучше, это понятно, остальное ессно ненужно

~~sanyock~~ ★★
(07.07.16 07:57:09 MSK) автор топика
Последнее исправление: sanyock 07.07.16 07:59:34 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от sanyock 07.07.16 07:10:18 MSK

Ну можешь, конечно, системтапом потачать, может чего и натапаешь. Хотя, дай угадаю - тебе за это тоже не доплачивают?

anonymous
(07.07.16 08:44:03 MSK)

Ссылка

Ответ на: комментарий от sanyock 07.07.16 07:18:34 MSK

Что ты прямо бисер мечешь, как ребёнок, честное слово

anonymous
(07.07.16 08:49:32 MSK)

Ссылка

Ответ на: комментарий от sanyock 07.07.16 04:39:03 MSK

Если тебя устраивает то, как ридзилла и логзилла сосуществуют (слово-то какое) на одном диске, то можешь рассмотреть вариант отказаться от избыточности для логзиллы и отдать по одному распиленному в желаемой пропорции диску в каждый пул.

anonymous
(07.07.16 08:52:07 MSK)

Ссылка

Ответ на: комментарий от Lavos 07.07.16 07:24:58 MSK

Не забудьдобавить ZFS в свой список «Ненужно», недоадмин локалхоста.

anonymous
(07.07.16 08:54:21 MSK)

Ссылка

Ответ на: комментарий от Lavos 07.07.16 07:24:58 MSK

Вообще, снапшоты не нужны

Не нужны клоуны, которые со своим локалхостным мнением лезут куда их не просят.

anonymous
(07.07.16 09:04:05 MSK)

Ответ на: комментарий от anonymous 07.07.16 09:04:05 MSK

опять троли со своими высе*ами, ни дня не обосрать своей безмерной глупостью и необразованностью что-нибудь хорошее

неандертальцы опять усе*аются в ветку форума без понимания зачем взрослые дяди в Oracle развивают самые передовые файловые системы, может лучше вам порисовать свое твордчесдво на заборах под пифко или клей, чтобы другие оценили по достоинству ваши пропадающие таланты?

~~sanyock~~ ★★
(07.07.16 09:18:12 MSK) автор топика

Ответ на: комментарий от sanyock 07.07.16 09:18:12 MSK

еще интересно по продлению срока жизни Intel SSD, тех, что будут в SLOG-е

как у них происходит remap неисправных ячеек или что-то подобное?

имеет ли смысл время от времени сдвигать рабочую партицию 10Gb на новое место при общем объеме около 400Gb?

~~sanyock~~ ★★
(07.07.16 17:39:40 MSK) автор топика

Ответ на: комментарий от sanyock 07.07.16 17:39:40 MSK

Зачем? 2016 на дворе. Нет, если очень хочется геморроя, то хозяин барин.

anonymous
(07.07.16 17:43:15 MSK)

Ответ на: комментарий от anonymous 07.07.16 17:43:15 MSK

Зачем? 2016 на дворе. Нет, если очень хочется геморроя, то хозяин барин.

т.е. SSD сама будет ремапить все проблемные блоки

использование всего лишь пары процентов от всего объема SSD вместо 100% увеличит срок жизни SSD пропорционально, т.е. в 10-ки раз при прочих равных условиях?

~~sanyock~~ ★★
(07.07.16 18:01:03 MSK) автор топика
Последнее исправление: sanyock 07.07.16 18:01:28 MSK (всего исправлений: 1)

Ответ на: комментарий от sanyock 07.07.16 18:01:03 MSK

использование всего лишь пары процентов от всего объема SSD вместо 100% увеличит срок жизни SSD пропорционально, т.е. в 10-ки раз при прочих равных условиях?

Нет. Они рассчитаны на определенный объем записи, после того, как записано больше этого объема, никто ничего не гарантирует. Важно не сколько от линейного размера диска ты используешь, а как много ты на наего пишешь.

anonymous
(07.07.16 18:51:35 MSK)

Ссылка

Ответ на: комментарий от sanyock 07.07.16 04:39:03 MSK

Ну и наворотил ты :)

Зачем пулу на ssd сделал slog?! Да ещё на тех же дисках!

sda на 2 тб с размером сектора 4к, остальные - 512b?

zfs нормально работает когда имеет direct access к диску, без умных raid контроллеров с nv-cache и on disk cache, т.е. best choice это LSI HBA, на крайняк onboard Intel sata in ahci mode. На adaptec-ах бывают глюки даже с IT прошивкой, редко но бывают. Посему, если планируешь остаться на hdd - меняй контроллер или перепрошей.

ПС: скажи какой у тебя объём всех баз на этих пулах и размер оперативки кстати сколько. ППС: zd0 это что за девайс?

anonymous
(07.07.16 21:24:11 MSK)

Ответ на: комментарий от anonymous 07.07.16 21:24:11 MSK

Зачем пулу на ssd сделал slog?! Да ещё на тех же дисках!

ну так Intel то производительнее же

sda на 2 тб с размером сектора 4к, остальные - 512b?

ессно, я рожу новый диск при выходе из строя старого? все равно скоро все поменяю на 2T 4k

zfs нормально работает когда имеет direct access к диску, без умных raid контроллеров с nv-cache и on disk cache

да знаю, поэтому кэш записи отключен по понятным причинам

, т.е. best choice это LSI HBA

на другом хранилище именно такой HBA и установлен

, на крайняк onboard Intel sata in ahci mode.

диски то SAS

На adaptec-ах бывают глюки даже с IT прошивкой, редко но бывают. Посему, если планируешь остаться на hdd - меняй контроллер или перепрошей.

а что за IT мод прошивки?

~~sanyock~~ ★★
(08.07.16 03:37:41 MSK) автор топика
Последнее исправление: sanyock 08.07.16 03:39:01 MSK (всего исправлений: 1)

Ответ на: комментарий от sanyock 08.07.16 03:37:41 MSK

ну так Intel то производительнее же

Если пул на ssd - slog не нужен. Samsung 850 EVO на 50% быстрее твоего s3700.

ессно, я рожу новый диск при выходе из строя старого? все равно скоро все поменяю на 2T 4k

Не ессно, есть диски и с 512b сектором. А так тебе придётся пул пересоздавать.

диски то SAS

Ну я же и написал - накрайняк :).

а что за IT мод прошивки?

IT - Initator-Target. Но у адаптека их нет, и щас почитал что Pass-Through там фейковый. Что и видно по наименованию девайса в пуле. Сорри, думал если есть у lsi, то есть и у adaptec.

Сколько оперативки то на серваке?

anonymous
(08.07.16 19:16:53 MSK)

Ответ на: комментарий от anonymous 08.07.16 19:16:53 MSK

Если пул на ssd - slog не нужен.

наверно, это зависит от моделей SSD?

Samsung 850 EVO на 50% быстрее твоего s3700.

а причем тут Samsung 850 EVO? у меня нет такой модели
дело не только в скорости (скорости чего? последовательного чтения фильма про стритрейсеров?), но еще и в:
1) надежности сохранения данных в случае внезапного выключения
2) latency
3) Random IOPS для нагрузки типичной для СУБД

Не ессно, есть диски и с 512b сектором. А так тебе придётся пул пересоздавать.

где есть? у меня они есть? у меня они НЕ есть

Сколько оперативки то на серваке?

16Gb ECC

~~sanyock~~ ★★
(09.07.16 00:04:03 MSK) автор топика
Последнее исправление: sanyock 09.07.16 00:09:35 MSK (всего исправлений: 5)

Ответ на: комментарий от sanyock 09.07.16 00:04:03 MSK

16Gb ECC

Если б не ECC, подумал бы что у тебя сервер на ноутбуке...

anonymous
(09.07.16 01:51:06 MSK)

Ответ на: комментарий от anonymous 09.07.16 01:51:06 MSK

Если б не ECC, подумал бы что у тебя сервер на ноутбуке...

так это только под хранилище, разве недостаточно?

или надо обязательно попонтоваться своим (anonymous) сервером с оперативой в несколько сотен гиг? профит от ЧСВ? ветка то открыта не для этого вообще-то

~~sanyock~~ ★★
(09.07.16 06:34:20 MSK) автор топика

Ответ на: комментарий от sanyock 09.07.16 06:34:20 MSK

так это только под хранилище, разве недостаточно?

Смотря для какой нагрузки. Ну и память-то лишней не бывает. А по нынешним временам 16 уже и на ноуте не самый большой возможный объем.

или надо обязательно попонтоваться своим (anonymous) сервером с оперативой в несколько сотен гиг? профит от ЧСВ?

Эк у тебя бомбануло-то :)

ветка то открыта не для этого вообще-то

Если что, я в этой ветке поболе иных регистрантов поучаствовал. Так что ты уж научись себя в руках держать, ок?

anonymous
(09.07.16 07:07:46 MSK)

Ответ на: комментарий от anonymous 09.07.16 07:07:46 MSK

Смотря для какой нагрузки. Ну и память-то лишней не бывает. А по нынешним временам 16 уже и на ноуте не самый большой возможный объем.

из того, что есть на работе

~~sanyock~~ ★★
(09.07.16 07:44:30 MSK) автор топика

Ссылка

Ответ на: комментарий от sanyock 09.07.16 00:04:03 MSK

наверно, это зависит от моделей SSD?

Ну, если бы ты под slog заюзал ZeusRAM, на выделенном канале, то профит бы был, а в твоей конфигурации скорее наоборот. Т.к. пул и лог на одном канале.

а причем тут Samsung 850 EVO?

Как пример десктопного ssd, по тестам никса быстрее интеля по иопсам как раз. Надежность хранения обеспечивается транзакциями фс, для этого их и придумали. Latency and iops имеют обратно пропорциональную зависимость, с чего то ты их разделил.

16Gb ECC

Ещё некоторое время назад, я бы сказал что использовать l2arc при таком объёме ram ССЗБ. Т.к. l2arc съедал 250 байт ram на каждую запись, т.е. твои 120 gb/8kb*250b=3,7gb, щас вроде как уменьшили до 170, а в оракловой ветке до 80. Но оракл не делится кодом.

Далее, в линуксе ARC конфликтует с другими кэшами по очевидной причине - хреновая интеграция.

Ладно, дабы не начинать холивар, причины твоей проблемы (по нисходящей):

Очень высокая, для hdd, фрагментация пула.

Выбор платформы.

Сомнительная польза от l2arc, в случае если объём горячих данных твоих баз влазит или чуть чуть больше размера arc, а это 80% ram by default.

anonymous
(09.07.16 12:23:27 MSK)