Amazon S3 около четырех часов работал с перебоями

28 февраля 2017 года, примерно в 21:00 по московскому времени перестали отвечать сервисы  amazon s3 US-EAST-1 региона. Продолжалось все это безобразие 4 часа 17 минут, в это время не работали задачи Trello, платформа Coursera, сервис вопросов Quora, пользователи жаловались на проблемы в работе Open Whisper Systems, Quora, IFTTT, рассылок Sailthru, Business Insider, Giphy, Medium, Slack, Coursera, различных фотохостингов и так далее.

Что же случилось? Если вкратце — человеческая ошибка, один из админов выполнил команду группового удаления сервисов, но вместо одной (небольшой) группы серверов, он выключил другую, почти целиком остановив биллинг (и все остальное) на S3 в этом регионе.

https://aws.amazon.com/ru/message/41926/

 

Стоит добавить, что недавно,  31  января 2017 так же из-за человеческой ошибки пострадал GitLab, когда сотрудник их компании, хотел почистить слейв БД, дропнув ее, но перепутал сервера, и дропнул мастер.

https://docs.google.com/document/d/1GCK53YDcBWQveod9kfzW-VCxIABGiryG7_z_6jHdVik/pub