Доброго времени суток.
Не могу не запостить ссылку: http://habrahabr.ru/blogs/sysadm/111473/
Для труЪ:
В компании был написан и запущен внутренний сервис под названием «Chaos Monkey» [...], который случайным образом убивает инстансы AWS или процессы на серверах, обслуживающих сервис.
В результате
- постоянно проверяется отказоустойчивость кластера
- в актуальном состоянии поддерживаются сведения о способах решения инцидентов