LINUX.ORG.RU
ФорумTalks

Hetzner ку-ку (24.05.2018)

 ,


1

3

https://www.hetzner-status.de/en.html

На хетцнере какой-то глобальный факап с питанием и в 3 сараях серверов что-то капитально повышибало. Кого еще задело? У меня 1 самый нужный сервер с 11 утра тю-тю и до сих пор в нефритовом сосуде.

PS. Уходить пока не собираюсь, это какой-то совсем большой форс-мажор, каких за 10 последних лет точно не было.

★★★★★

замечал, да

а ещё они мне недавно прислали письмо с рекомендацией удалить впск-у на старом тарифе и переходить на эти ваши облачные инстансы

Harald ★★★★★
()

Соединение пропало, сервер не упал.

steemandlinux ★★★★★
()
Ответ на: комментарий от garik_keghen

«повезло» что уже вернулись. А у меня девелоперский в DC6 не задело, а продакшеновский в DC7 до сих пор не доступен, 13 часов уже.

Даже интересно, сколько они разгребаться будут в самом худшем случае. В твитере ваще огонь творится :)

Vit ★★★★★
() автор топика
Ответ на: комментарий от Harald

Михалыч с бадуна полез в будку, его нахер закоротило и пока бригпда отковыряет его остатки...

FluffyPillow
()
Ответ на: комментарий от StReLoK

Какое резервирование? У них там стойки с обычными системниками.

ritsufag ★★★★★
()

У меня есть VPS в их облаке. Только что проверил, работает нормально.

Rinaldus ★★★★★
()

А надо было использовать отечественных Tier IV хостеров.

Suigintou ★★★★★
()
Ответ на: комментарий от Vit

у меня тоже продакшн в DC7 отваливался но через 2 часа подняли. Запрос в поддержку напиши, мож им вручную нужно включить сервер. Было сильное падение напряжения в сети и сейчас расследуют почему бесперебойники не среагировали.

hzk
()
Последнее исправление: hzk (всего исправлений: 2)
Ответ на: комментарий от hzk

Вчера еще написал. Пока молчат.

Вообще конечно больше суток - это многовато, но я пока еще придерживаюсь мнения, что раз в 10 лет лажа не считается.

Vit ★★★★★
() автор топика

у нас один зацепило в dc7. Их же мониторинг нихрена не сообщил об этом, status.de никаких происшествий не показал, после отправки automatic reset панель повисла, а ТП через 8 часов закрыла тикет автоматом, мол «сейчас все в порядке». немного какашки они в общем.

dib2 ★★★★★
()

DC10 половина инфрааструктуры лежит.

суки не отвечают ни на телефон ни на тикеты. даже примерно непонятно что и когда

rsync ★★
()
Ответ на: комментарий от StReLoK

Давно всем говорят, что нельзя надеяться на все эти уровни сертификации цодов, все падает. У амазона стандарт размазывание по нескольким ДЦ в пределах региона + вынос в другой регион. Потому что регионы тоже падали.

stave ★★★★★
()
Ответ на: комментарий от Vit

Странно. Мне ответили почти сразу что проблема и работают над этим. Потом пришло письмо что всё ОК, но сервер не отвечал. Ешё раз их спросил, минут через 15 сервер был онлайн и пришел ответ что всё работает.

hzk
()
Ответ на: комментарий от dib2

их мониторинг тоже не работал. Мне вчера вечером пришёл только статус ОК. Панель (reset) тоже не реагировала..

hzk
()

Меня задело, не понравилось.

t184256 ★★★★★
()
Ответ на: комментарий от StReLoK

Где все хваленое резервирование?

хваленое резервирование просто не сработало, а немцы к такому повороту оказались не готовы.

t184256 ★★★★★
()
Ответ на: комментарий от hzk

Ты наверное первый прибежал, пока наплыва не было, или повезло. Посмотри, тут еще у парара челов пишет что суппорт отмораживается.

Vit ★★★★★
() автор топика
Ответ на: комментарий от stave

Ты ведь понимаешь что безопасно размазать можно только фронтендовую часть, где вертятся скрипты? А с репликами баз данных будет куча веселья на сплитах сети. Ну либо у тебя будут овердохрена лагов, каждый раз ждать пока данные расплескаются по репликам.

Vit ★★★★★
() автор топика
Последнее исправление: Vit (всего исправлений: 1)
Ответ на: комментарий от t184256

Как у них вообще электропитание подаётся? Из простого скачка напряжения хостер лёг...

FluffyPillow
()

Меня слегка задело в dc10. Минут через 15..20 сервер вернулся.

beastie ★★★★★
()

Меня включили. Даунтайм 30 часов. Раз в 10 лет - приемлемо.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

Поднимать второй регион из дифа между базами за какой-то промежуток времени. Да, даунтайм, но ты его знаешь заранее и можешь задавать сам. А не надежды юношей питают. Онлайн репликация - хз, хотя у энтерпрайзов любят метрокластеры схд.

stave ★★★★★
()
Ответ на: комментарий от stave

Амиго, проблема не в том чтобы поднять второй регион, а в том чтобы не просрать данные и не словить на обратном ходе коллизии когда первый регион прочухается. Или если соединение между регионами упадет, и они начнут независимо жить своей жизнью.

Пока ты делаешь архивы подкастов и странички с комментами на дискусе, у тебя будет все хорошо и регионисто. Как только подключишь базу - начнется ад и костыли.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

да, в течение получаса. Я ещё и на немецком обращался, может это тоже роль сыграло.

30 часов это конечно экстремально. Я бы уже поседел. Пишут что изготовитель бесперебойников разбирается в чём проблема и заменяет полетевшие модули (там была гроза и проседание напряжения в сети).
DC7 всё ещё без UPS...

hzk
()
Последнее исправление: hzk (всего исправлений: 2)
Ответ на: комментарий от Vit

У хостера на прошлой работе была фишка: телефония через voip, собственный мейлер, статус страничка — всё в ихнем собственном AS.

Вот это был цирк с корнями. Упал аплинк (а это случалось пару раз за пару лет) и усё, ни дозвониться, ни дописаться. И сидишь как дурак, пальцы грызёшь, пока они не раздуплятся.

beastie ★★★★★
()
Ответ на: комментарий от beastie

У них даже не было страницы статуса на отдельном домене или хотя бы канала в твиттере? Когда совсем ни какой обратной связи, то действительно тухло.

Vit ★★★★★
() автор топика
Ответ на: комментарий от hzk

Ну я опытный бобёр, полез первым делом на страницу статуса, читать что случилось. Увидел что размеры жопы космические но серверы не в углях и успокоился.

Если б ни какой инфы не было, все поломалось и суппорт умолк, я б наверное за 30 часов не по одному разу успел пересраться. А так - ну плохо конечно, но не на столько чтобы кирпичи откладывать.

Для себя отметил две вещи:

- Нехорошо получилось, что юзерам даже затычку с пояснениями не мог показать
- Надо озаботиться, чтобы бакапы все-таки другому хостеру выливались. А то глазик пару раз дёрнулся :)

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

Угу, в твиттере тоже было глухо.

Переезжали они как-то из старого dc в свеже-отстроенный новый. Намудрили что-то с сетью. (Но это я уже потом узнал, после нескольких бурений.) В результате всё у них там упало и часов 18 все сервера были в отключке. А у меня кампания в разгаре, клиент (L'Oreal) дышит в затылок, а я даже не знаю, что ответить.

А байку я к тому веду, что не так страшен downtime, как замалчивание и отсутствие информации.

Т.ч. hetzner тут молодцы. Они вон даже кол-во набежавших в очередь issues по нициденту публикуют.

beastie ★★★★★
()
Ответ на: комментарий от beastie

Ну они молодцы, но не до конца. Потому что могли бы отвечать на тикеты сразу. Хотя бы что «у нас песец, нужен 1 день». А они отмораживаются, IMHO это не правильно.

Сам смотри разброс - у кого-то серваки только мигнули, у кого-то на пару часов, у меня вот на 30, а есть кому еще меньше повезло. При этом, от чего зависит - совершенно непонятно. Было бы мне лучше если бы я сразу подорвался тикет писать или нет? Фик знает.

Vit ★★★★★
() автор топика
Ответ на: комментарий от Vit

Не приписывай мне свои мысли. У меня такая задача была решена с продовой базой в 1,8 тб и допустимой потерей данных за последние 5 минут. Развертывание второй площадки занимало около часа. Решения есть всегда. Ты рассказываешь о коллизиях и невозможности потери данных, при этом твой прод лежал 30 часов и по твоему это норм. Хозяин барин.

stave ★★★★★
()
Ответ на: комментарий от Vit

Вообще конечно больше суток - это многовато, но я пока еще придерживаюсь мнения, что раз в 10 лет лажа не считается.

Значит простой ничего не стоит и это нормально. Если бы стоил у вас был бы резерв на всех материках и на паре спутниках на всякий случай.

foror ★★★★★
()
Ответ на: комментарий от stave

Меня вполне устраивает простой 30 часов раз в 10 лет. То что ты сейчас говоришь про разворачивание пол часа - ручной привод, не имеющий ни какого отношения к репликации по регионам.

Если в твоих проектах допустима потеря 5 последних минут в произвольный момент времени - есть смысл это сразу озвучивать, когда говоришь о раскидывании по регионам. И не очень понятно, откуда взялась именно такая цифра чисто технически. Почему теряется именно 5 минут, а не одна, не 50, или не 5 секунд.

Vit ★★★★★
() автор топика
Ответ на: комментарий от foror

Абсолютно верно. Надо все аккуратно считать. Стоимость простоя у меня ниже чем стоимость навороченного резерсирования. Поэтому сейчас его нет (только бакапы раз в сутки).

Позже, когда на монгу перееду, попробую что-нибудь схимичить, если удастся обойтись дешевыми серверами или облаками.

Vit ★★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.