• О проекте
  • Услуги
  • Заказать услугу
  • Новости
  • Блог
  • Глоссарий
  • Акции
  • Контакты
  • Новости

    Причиной сбоев Amazon S3 стала опечатка при дебаггинге

    Примерно в девять вечера по МСК 28 февраля во многих соцсетях, на Reddit и прочих порталах стали появляться уведомления о перебоях и проблемах в работе различных сервисов, утилит и веб-ресурсов. Юзеры утверждали, что перестали адекватно работать разнообразные фотохостинги, рассылк Saithru, приложения Strava, Slack, порталы Coursera, IFTTT, Quora и многое другое.

    Как стало известно, причиной поломок стал сервис Amazon S3. Слухи о критических «сбоях» подтвердились в официальном твиттере AWS. Специалисты компании уверили пользователей, что за короткий временной промежуток «проблемы» будут устранены. Перебои закончились примерно через 4 часа после первого их выявления, о конкретных причинах случившегося не рассказывали несколько дней.

    Уже 2 марта работники Amazon Web Services представили полный отчет о данной ситуации. Человеческий фактор стал основной причиной масштабных неполадок. Один из работников компании незадолго до происшедшего занимался отладкой биллинговой системы и дебаггингом S3. Служащему нужно было ввести команду, чтобы удалить из ряда подсистем сервиса определенное количество серверов, которые пользовались биллинговым процессом. Человек допустил ошибку, и ввел неправильный параметр, в связи с чем из разных подсистем удалилось огромное количество серверов.

    Причиной сбоев Amazon S3 стала опечатка при дебаггинге

    Управлявшая данными о местонахождении всех объектов S3 в дата-центре index-подсистема перестала корректно работать. Она используется для обслуживания всех PUT, LIST, GET, DELETE запросов. Placement-подсистема стала второй «жертвой» неудачной команды, её задачей было распределение новых хранилищ. Интересно, что для её нормального функционирования также нужна «связка» с index-подсистемой.

    Специалистам AWS в конечном счете пришлось полностью перезапустить все системы, которые пострадали из-за неверной команды, и S3 во время процедуры reboot не мог обрабатывать запросы. В зоне US-EAST-1 все сервисы AWS полагаются именно на S3, поэтому в связи с перезагрузкой отказали также тома AWS Lambda, EBS, запуск сущностей EC2, консоль S3.

    Представители компании принесли всем юзерам извинения, пообещав усовершенствовать работу своих продуктов. Напомним, система AWS представляет собой комплекс платформ cloud сервисов. Среди услуг, которые предоставляет компания Amazon с 2006 года благодаря внедрению AWS, выделяют хранение информации, предоставление сверхмощных машин, аренду серверов под различные нужды и др. Облачные технологии дают возможность существенно ускорить работу веб-приложений и повысить их безопасность. Уровню безопасности AWS доверяет огромное количество именитых предприятий и организаций, включая американские ВМС. Платформы Amazon доступны по всей планете, поэтому можно без труда развернуть свой ресурс именно в той точке, где расположена ваша целевая аудитория.