Сегодня Google выложила для скачивания новую книгу (верхняя в списке) из серии о проектировании безопасных и надежных систем, и в самой первой главе описан следующий забавный случай из практики компании.
В сентябре 2012 года компания разослала всем сотрудникам в своем кампусе в Сан-Франциско (тысячи человек) письмо. В нем сообщалось, что пароль к Wi-Fi сети, развернутой в циркулирующих по кампусу автобусах, с текущей даты изменен, и вот вам новый.
Для хранения различных паролей и прочих секретных ключей ко внешним и прочим сервисам в Google развернут собственный корпоративный сервис, куда почти одновременно и бросились тысячи человек. Никогда ранее не видавший (и не спроектированный для выдерживания) такого трафика сервис очень скоро прилег. Балансировщик перенаправил поток запросов на второй узел-реплику, но, естественно, прилегла и та.
Умный мониторинг распознал проблему и направил запрос в техподдержку с критичным статусом. Задача теперь легла на дежурного инженера в Нью-Йорке, который впервые в жизни столкнулся с отказом сервиса хранения паролей. Инженер решил просто его перезапустить, но даже не догадывался, что такое действие требует авторизации хардварным ключом (смарт-картой).
Смарт-карты для авторизации потенциально опасных и критичных действий хранятся в сейфах в разных офисах Google по всему миру, но именно в Нью-Йорке этой смарт-карты и не оказалось. Когда перезапуск сервиса завершился ошибкой, дежурный инженер связался со своим коллегой из Австралии, чтобы тот авторизовал перезапуск своей смарт-картой. Но здесь появилась новая проблема: комбинация для открытия сейфа на противоположном конце планеты хранилась как раз в упавшем сервисе, и на память ее не помнили. Но, по счастью, нашелся другой инженер в Сан-Франциско, который помнил шифр к своему сейфу. Он достал смарт-карту, вставил ее в кардридер, но получил ответ «Пароль не может быть считан с защитной карты».
В этом время в Австралии решили, что поскольку легла абсолютно критичная инфраструктура, теперь любые методы хороши. В итоге местные сотрудники раздобыли перфоратор и спустя час достали и свою смарт-карту, однако при попытке чтения и она выдавала то же сообщение об ошибке.
А спустя еще час коллективный разум осознал, что зеленый огонек на кардридере вовсе не означает, что смарт-карта вставлена нужной стороной. В итоге карту перевернули и злополучный сервис хранения паролей перезапустили. Естественно, после инцидента сам сервис претерпел существенные изменения.