LINUX.ORG.RU

Ceph v0.87 Giant

 ,


5

5

29-го октября тихо и незаметно вышла 7-я мажорная версия ceph 0.87 «Giant».
Основная идея Ceph — быть свободным и полностью распределенным хранилищем без единой точки отказа, расширяемым до эксабайтного уровня.

Список основных изменений:

  • Ускорение RADOS: внесены изменения в OSD и клиентской части librados, которые увеличивают пропускную способность на flash-бекэндах и улучшают параллелизм и масштабируемость на быстрых машинах.
  • CephFS: исправлены различные ошибки в CephFS, которые приводили к проблемам стабильности и производительности. К сожалению, CephFS всё еще не рекомендована к промышленному применению.
  • Код для локального восстановления: OSD теперь поддерживают erasure-coding схемы, которые содержат дополнительные блоки данных для уменьшения IO во время восстановления после отказа одиночного OSD.
  • Деградация vs ошибочное расположение: репорты о состоянии кластера Ceph во время вывода‘ceph -s’ и сопутствующих команд теперь делают различие между данными, которые находятся в состоянии деградации, и данными, которые неверно расположены(неверное расположение в кластере). Это важно, так как в последнем случае это не приводит к возможной потере данных.
  • Улучшения в мониторинге: мониторы теперь пишут данные асинхронно, что улучшает общую отзывчивость.

Полный список изменений доступен по ссылке.

>>> Подробности

★★★★★

Проверено: Shaman007 ()
Последнее исправление: Wizard_ (всего исправлений: 4)

> Основная идея Ceph — быть свободным и полностью распределенным хранилищем без единой точки отказа, расширяемым до эксабайтного уровня.

В 2050-м прочитают и посмеются. В те годы надёжное и распределённое хранилище из кластера 2-терабайтных HDD будет звучать, как сейчас «надёжное и распределённое хранилище из кластера флоппи-дисководов».

ZenitharChampion ★★★★★
()
Последнее исправление: ZenitharChampion (всего исправлений: 2)
Ответ на: комментарий от ZenitharChampion

Ну все, пиши ребятам, пусть сворачивают проект.

t184256 ★★★★★
()
Ответ на: комментарий от ZenitharChampion

А в 2250-м как посмеются над твоим 2050-м, прямо обоссаться можно будет.

anonymous
()

Судя по всему ребята делают нужное дело, однако интересно кто-то уже достиг эксабайтного объема обрабатываемых данных или пока это еще не достигнутый рубеж?

pylin ★★★★★
()
Ответ на: комментарий от ZenitharChampion

В 2050-м прочитают и посмеются.

Да. Покорные будут смеяться. Потому что Аллах круче, чем распределенные хранилища из floppy или hhd.

Sociopsih ★☆
()
Ответ на: комментарий от CHIPOK

<упорин>Не, в 2250 будут делать распределенные сети прямо на нейронах живых людей и придем мы к биораспределенным сетям, а над всеми этими железкаами и битиками ржать будут. </упорин>

pylin ★★★★★
()
Ответ на: комментарий от Mr_Alone

есть Ceph Storage Cluster

Там есть нечто под названием «Ceph Block Devices» - поверх нее можно создать обычную ФС и пользоваться ею? Если да, то является ли это обычным способом использования storage cluster?

tailgunner ★★★★★
()
Ответ на: комментарий от CHIPOK

Фильмы в 2250-ом году? Да в ту эпоху вместо фильмов для развлечения и получения опыта будут проживать чужие искусственные жизни, возможно даже что и нашего времени... вот тут мне неуютно стало... какой полоумный извращенец из будущего проживает меня??

pedobear
()
Ответ на: комментарий от tailgunner

Ceph умеет 3 вещи: object store, block device, FS. Block device в данном случаем - RADOS block device(rbd). Цепляешь rbd к какому-нибудь Proxmox/CloudStack/OpenStack и гоняешь виртуалки(у меня такой вариант на двух кластерах).

http://ceph.com/docs/master/

Mr_Alone ★★★★★
() автор топика
Ответ на: комментарий от Mr_Alone

второе уже давно там.

вот некоторое время назад делал тестовую установку, чисто побаловаться- так если одну из двух ( ну вот такой тестовый кластер) ноду отстрелить то VM продолжает работать, образ которой на ceph, а вот если одной из нод нет при старте- другая так и не стартует. с этим как нынче? никто ж не отменял скажем, отключения электричества длительного и выхода из строя одного сервера.

anonymous
()
Ответ на: комментарий от Mr_Alone

http://ceph.com/docs/master/

Я смотрел документацию. Вопрос был именно о том, как Ceph в реальности используется. Если как хост блочных устройств для виртуалок - окей. Правда, непонятно, что мешает использовать его для блочных устройств ОС непосредственно, вез виртуалок. И если ничто не мешает - является ли это обычным вариантом использования.

tailgunner ★★★★★
()
Ответ на: комментарий от anonymous

если одну из двух

Эммм... Такой вариант не тестил, минимум что было - 3 ноды. Да и по документачке вариант из 3-х нод «крайне рекомендуемый».

а вот если одной из нод нет при старте- другая так и не стартует. с этим как нынче?

Две из трёх точно кворум образуют, проходил уже такое.

Mr_Alone ★★★★★
() автор топика
Ответ на: комментарий от tailgunner

И если ничто не мешает - является ли это обычным вариантом использования

Это смотря кому что нужно. В одном случае у меня просто большое «хранилище» данных. Во втором - виртуалки. Ап ту ю.

Mr_Alone ★★★★★
() автор топика
Ответ на: комментарий от CHIPOK

в 2250 фильмы будут качать по 1 эксабайт

Дедуля, почему тогда уже в 2014-м году не качают, а зыркают онлайн?

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от pylin

кто-то уже достиг эксабайтного объема обрабатываемых данных или пока это еще не достигнутый рубеж?

define «обрабатываемых». хранилища такого обьема есть точно.

val-amart ★★★★★
()
Ответ на: комментарий от tailgunner

обычно блокдевайс отдается как диск квм'у или ксену. можно конечно и ОС отдать, но последний раз когда пробовал, весной, ядренный драйвер для радос был очень нестабилен (речь идет о локальном использовании, по сети через цеф — без проблем). еще одно перспективное направление — использовать этот блокдевайс как загрузочный, вроде начальная поддержка уже есть.

val-amart ★★★★★
()
Ответ на: комментарий от val-amart

Например строят аналитику на таких объемах, ариск, агрегацию выполняют, модели статистические проверяют и т.д.

pylin ★★★★★
()
Ответ на: комментарий от pylin

тогда есть. знаю точно про одно которое очень близко (точные цифры под нда), а бывшие сотрудники конкурента которые нынче работают со мной намекают, что у них толще (хотя тоже точных цифр не называют).

val-amart ★★★★★
()
Ответ на: комментарий от Mr_Alone

Две из трёх точно кворум образуют, проходил уже такое.

спасибо, значит надо будет собрать стенд из 3-х нод...

anonymous
()

CephFS: исправлены различные ошибки в CephFS, которые приводили к проблемам стабильности и производительности. К сожалению, CephFS всё еще не рекомендована к промышленному применению.

Вот интересно, что стоит за этими словами? Поделитесь историями неуспеха.

ugoday ★★★★★
()
Ответ на: комментарий от val-amart

обычно блокдевайс отдается как диск квм'у или ксену. можно конечно и ОС отдать, но последний раз когда пробовал, весной, ядренный драйвер для радос был очень нестабилен

Чего-то с этого момента я не понял, какая разница между отдачей блочного устройства хосту под какую-нибудь FS, и отдачей его тем же хостом для виртуалок Xen / KVM? Как так может быть, что в одном случае драйвер ядра не используется, а в другом используется? Или у Xen / KVM есть пряма поддержка Ceph в пространстве пользователя?

anonymous
()

ceph

Мне очень нравиться ceph. Вот только я пока одно не могу понять, как правильно произноситься ceph? (сеф??)

Bragin
()
Ответ на: ceph от Bragin

сэф

anonymous
()
Ответ на: комментарий от Mr_Alone

я создаю блочное устройство RADOS, далее внутри него создаю ту же ext4 и совершенно успешно могу там складировать, например, openvz виртуалки для совместно доступа с нескольких нод, собранных в кластер?

awesome
()

Если бы не притащеный за уши питухон как зависимость, проект бы имел бы право на жизнь, а так — лесом.

anonymous
()
Ответ на: комментарий от Bragin

да, это печально. я так понимаю, что есть openvz+кластерная фс, что дает в итоге редкое в плане широты применения решение и посредственную производительность, либо запусть контейнеры на NFS. что как-то не очень подходит архитектурно, при наличии SAN. Какой вывод: забить на openvz и запускать все в KVM?

awesome
()
Ответ на: комментарий от anonymous

Или у Xen / KVM есть пряма поддержка Ceph в пространстве пользователя?

есть

anonymous
()
Ответ на: комментарий от awesome

Как вариант CephFS.

Но «CephFS всё еще не рекомендована к промышленному применению»

Bragin
()

хранилищем без единой точки отказа, расширяемым до эксабайтного уровня.

Вот, где хранят пор видео с популярных сервисов.

Tactile ★★
()
Ответ на: комментарий от Tactile

Можно много смеяться но ceph делает свое, сейчас для старта нормального надо 3и ноды, так как хранится по 3 копии одного объекта. В обще почти любой адекватный кластер требует от 3х нод.

Дальше отдается блочное устройство на машину и kvm уже работает непосредственно с rdb устройством, соответствующие механизмы уже давно интегрированы.

Производительность ceph тоже довольно высокая, ну и сеть он жрет как самолет топливо, но на 10G карта по 8 винтов в каждой ноде крутится и кушать не просит. А дальше только от ваших потребностей.

InventoR
()

Можно много смеяться но ceph делает свое, сейчас для старта нормального надо 3и ноды, так как хранится по 3 копии одного объекта. В обще почти любой адекватный кластер требует от 3х нод.

3 копии одних и тех же данных ?! то есть вместо 1000 HDD - надо 3000 ?.. и потребление электричества в тех же объемах? вместо 2МВт - нужно будет 6.. круто - ничего не скажешь :)

anonymous
()
Ответ на: комментарий от anonymous

А ты хотел бесплатно получить высокопроизводительное расширяемое хранилище без единой точки отказа?

ugoday ★★★★★
()
Ответ на: комментарий от anonymous

Можешь сделать одну копию - не вопрос. У тебя получится здоровенный RAID0. Только надо помнить, что чем больше будет OSD (== дисков, в общем случае), тем выше вероятность отказа.

Deleted
()
Ответ на: комментарий от Darkman

В случае block device чем оно лучше glusterfs ?

  • Поддержкой в ядре.
  • Поддержкой в ВАНИЛЬНОМ ядре.
  • Отсутствием лишнего слоя обстракции в виде ФС.
Deleted
()
Ответ на: комментарий от Deleted

Поддержкой в ядре.
Поддержкой в ВАНИЛЬНОМ ядре.

А как со стабильностью под серьёзной нагрузкой (миллионы файлов, постоянная запись в 100500 потоков на пределе пропускной способности сети) ?

Отсутствием лишнего слоя обстракции в виде ФС.

Этот слой всё-равно часто нужен.

Darkman ★★★
()
Ответ на: комментарий от Darkman

А как со стабильностью под серьёзной нагрузкой (миллионы файлов, постоянная запись в 100500 потоков на пределе пропускной способности сети) ?

У меня серьёзной нагрузки нет, так что врать не буду. Можешь попробовать сам или поспрашивать в списке рассылки.

Этот слой всё-равно часто нужен.

Но не два раза.

Deleted
()
Ответ на: комментарий от Darkman

миллионы файлов, постоянная запись в 100500 потоков на пределе пропускной способности сети

Всё работает и не пыхтит.

Mr_Alone ★★★★★
() автор топика
Ответ на: комментарий от ZenitharChampion

Пацаны из IBM и EMC уже годов так с 80х-90х над создателями надежных распределенных хранилищ угорают. Как и над создателями отказоустойчивых облаков.

anonymous
()
Ответ на: комментарий от Darkman

В случае block device чем оно лучше glusterfs ?

Может, и лучше. Но не прямая замена. Gluster полностью одноранговый, так что может легко расширяться равноценными нодами, а ceph требует сервер метаданных. Из-за которого работа может быть и шустрее, но и структурно система становится не столь однородной.

KRoN73 ★★★★★
()
Ответ на: комментарий от KRoN73

Может, и лучше. Но не прямая замена. Gluster полностью одноранговый, так что может легко расширяться равноценными нодами, а ceph требует сервер метаданных. Из-за которого работа может быть и шустрее, но и структурно система становится не столь однородной.

Ceph требует сервер метаданных (MDS) только для работы CephFS. Для RBD и просто объектного стораджа он не нужен.

Deleted
()

Пробовал этой весной... не впечатлило.

Использовал 3 ноды под хранение данных, каждая с 2 дисками и 1 SSD. Мониторы были запущены на 3-х виртуальных машинах. Ноды харенения соеденил 2-мя 1 Гигабитными сетями, как это рекомендовали в документации.

Пробовал вариант размещения журнала на SSD, отедельный cash-pool из SSD и просто чистый pool из 3-х SSD.

Там еще была черная магия связаная CRUSH Maps...

Подключил к этому творению гипервизор kvm (на отдельной машине) и запустил Windows 2008R2. Лучшее что мне удалось добится от дисковой подсистемы - 250Мбит. Т. е. в виртуалке данные записывались на диск со скоростью 25МБ/сек. Про iops - там вообще всё грустно. Из машинки вывалилавось около 200 iops на SSD из падало несколько десятков тысяч.

Для сравнения, ZFS из 6-х дисков 7200rpm (mirror) даст на запись 2500мегабит.

Гора родила мышь :-(

А пробовал кто-нибудь sheepdog?

riv1329
()
Ответ на: Пробовал этой весной... не впечатлило. от riv1329

Мониторы были запущены на 3-х виртуальных машинах.

Зачем ты запустил их на виртуальных машинах?

Ноды харенения соеденил 2-мя 1 Гигабитными сетями, как это рекомендовали в документации.

Как именно? В бондинг объединил? И через какую сеть клиенты общались с хранилищем?

Там еще была черная магия связаная CRUSH Maps...

CRUSH лучше руками не трогать. В случае трёх нод в этом вообще нет никакого смысла.

Подключил к этому творению гипервизор kvm (на отдельной машине) и запустил Windows 2008R2. Лучшее что мне удалось добится от дисковой подсистемы - 250Мбит. Т. е. в виртуалке данные записывались на диск со скоростью 25МБ/сек. Про iops - там вообще всё грустно. Из машинки вывалилавось около 200 iops на SSD из падало несколько десятков тысяч.

Ты что-то сделал неправильно.

Для сравнения, ZFS из 6-х дисков 7200rpm (mirror) даст на запись 2500мегабит.

А tmpfs даст ещё больше! =)

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.