Технические специалисты Microsoft пытаются восстановить узлы хранения для «небольшого» числа клиентов после «проблемы с электропитанием» 20 октября, которая привела к отключению службы Azure и испорченному завтраку для тех, кто хотел использовать размещенные виртуальные машины или базу данных SQL.
Ухудшение началось в пятницу в 07:31 UTC, когда Microsoft обнаружила неустановленную проблему с питанием, которая затронула инфраструктуру в зоне доступности в регионе Западной Европы. Таким образом, компании, использующие виртуальные машины, хранилища, службы приложений или Cosmos и SQL DB, столкнулись с перебоями в работе.
Так в чем же причина незапланированного простоя? Об этом сообщает Microsoft в своем отчете об инциденте. Страница журнала состояния Azure: «Из-за сбоя в работе основных объектов мы перешли на генераторное питание для секции одного центра обработки данных примерно в 07:31 UTC. Подмножество генераторов, поддерживающих эту секцию, не смогло взять на себя работу, как ожидалось, во время переключения с электросети, что приводит к эффекту»
Инженеры смогли снова восстановить подачу электроэнергии примерно в 08:00 UTC, и пострадавшая инфраструктура начала восстанавливать работу. По мере восстановления сетей и сетей хранения данных были введены в эксплуатацию вычислительные единицы измерения, и для «подавляющего большинства» сервисы Azure снова стали доступны с 09:15 UTC.
Однако не все были готовы к бесперебойной работе, признала Microsoft.
«Небольшое количество узлов хранения необходимо восстанавливать вручную, что приводит к задержке в восстановлении некоторых служб и клиентов. Мы работаем над восстановлением этих узлов и продолжим общаться с затронутыми клиентами напрямую через блейд состояния службы на портале Azure. »
Мы попросили Microsoft предоставить обновленную информацию о том, когда эти игроки могут ожидать возобновления нормального обслуживания.
Последний раз Microsoft сообщала о незапланированном простое Azure SQL в середине сентября. Их посчитали на восточном побережье США после отключения электроэнергии из сети. Проблема не устранялась более полудня. К счастью, это была суббота, поэтому пострадали только работяги.
Гораздо более серьезный сбой в бизнесе произошел в конце августа, когда весь облачный регион Восточной Австралии вышел из строя, причем Microsoft признала, что отчасти виноват недостаток персонала на месте, а надоедливая автоматизация не помогла.
В мартовском отчете Uptime Institute было обнаружено, что темпы сбоев в работе инфраструктуры в последние годы замедлились, но они по-прежнему могут быть дорогостоящими, когда они происходят. «Десятилетия инноваций, инвестиций и лучшего управления привели к тому, что критически важные ИТ-системы, сети и центры обработки данных в целом стали гораздо надежнее, чем раньше», — сказала она.
Было обнаружено, что две трети отключений электроэнергии сейчас обходятся в среднем более чем в 100 000 долларов. ®