Надежность Google общеизвестна, но даже эта мега-корпорация не застрахована от сбоев в работе ЦОД. Что уж говорить о компаниях поменьше. Инциденты периодически случаются в самых разных регионах планеты. Вот сведения о значительных сбоях, случившихся в последние недели. Спойлер: большинство свежих аварий были спровоцированы пожарами. Дайджест также охватывает актуальные подходы к повышению аптайма серверных ферм.
Из-за сбоя в работе дата-центра телекоммуникационная компания Reliance Jio прекратилась предоставлять услуги по обеспечению доступа в интернет многочисленным клиентам в Индии. По предварительной информации, причиной отключения стал пожар в одном из дата-центров компании. Подробности о ЦОД, в котором возникли проблемы, не разглашаются.
Согласно данным сайта Downdetector, который отслеживает сбои в работе глобальной сети, более 10 тыс. клиентов Reliance Jio сообщили о проблемах с подключением. 42% заявили, что у них возникли проблемы с мобильным интернетом, 41% — с оптоволокном JioFiber, а остальные 17% сослались на полное отсутствие сигнала. Большинство затронутых клиентов находились в Мумбаи.
Те еж проблемы возникали у клиентов Reliance Jio и ранее. Сообщалось о перебоях в работе мобильного интернета, Jio Fiber и других услуг. Незадолго до очередного инцидента компания Reliance Industries, “дочкой” которой выступает Reliance Jio, объявила, что построит в Джамнагаре, штат Гуджарат, дата-центр мощностью в 1 гигаватт. ЦОД будет использоваться для обучения искусственного интеллекта.
Reliance Jio — телекоммуникационное подразделение Reliance Industries, имеющее около 489 миллионов абонентов, из которых 108 млн перешли на 5G. Это делает компанию крупнейшим поставщиком интернет-услуг во всей стране.
Внутри коммерческого дата-центра SIN11 компании Digital Reality вспыхнул пожар. Инцидент в ЦОД, находящемся в Сингапуре, произошел в 7:45 утра по местному времени 10 сентября 2024 года. Именно в этот момент сработала пожарная сигнализация. Огонь был взят под контроль к 8:04 вечера. Местная пресса предположила, что причиной пожара стали литий-ионные батареи, размещенные в аккумуляторных комнатах на третьем этаже четырехэтажного здания.
Из-за продолжающегося распыления H2O для тушения пожара в серверной комнате началось скопление воды и утечки, что создало риск короткого замыкания. Было осуществлено аварийное отключение электроэнергии для части здания.
Сингапурские огнеборцы задействовали четыре водомета для локализации пожара. Также была активирована система пожаротушения. Сообщается, что до прибытия пожарных из здания было эвакуировано около 2 десятков человек. К вечеру для тушения пожара был задействован беспилотный пожарный робот, призванный охладить аккумуляторные батареи, затронутые огнем.
Вероятно, наибольший ущерб получила компания Alibaba, арендующая значительную часть ЦОД для размещения облачных серверов. Представители компании отметили, что часть ее IT-оборудования находится в «опасной и заблокированной зоне здания», что затруднило доступ к нему. Также сообщается, что «некоторые устройства и механизмы требуют тщательной просушки для обеспечения безопасности хранящихся на них клиентских данных».
Китайский облачный гигант сообщил, что его процедуры аварийного восстановления и переключения на резервные системы сработали так, как и предполагалось. Но некоторым пользователям все равно пришлось вручную переносить рабочие нагрузки.
Пострадавший ЦОД был открыт в 2016 году. Его общая площадь составляет 17 тысяч квадратных метров. Сообщается, что в результате инцидента также возникли сбои в работе других компаний, арендовавших пространство внутри этого ЦОД, включая Lazada и ByteDance.
Неисправность в дата-центре, используемом нидерландском Министерством обороны, привела к масштабным проблемам с IT-системами по всей территории Нидерландов. В частности, были приостановлены гражданские авиарейсы в аэропорту Эйндховена, который также является военной базой. Рейсы были приостановлены из-за неработающих систем управления воздушным движением.
Кроме того, была нарушена работа экстренных и аварийных служб, включая полицию и береговую охрану. Их сотрудники не смогли получить доступ к своим системам связи. Государственные служащие из штата Министерства обороны Нидерландов и других ведомств также лишились доступа к своим рабочим станциям.
Больницы, налоговая инспекция страны и национальный номер экстренной помощи 112 не сообщали о проблемах. Но пострадали некоторые частные структуры. Например, телекоммуникационная компания KPN столкнулась с серьезными перебоями в работе мобильной связи.
Минобороны заявляет, что нет никаких признаков того, что инцидент был вызван кибератакой, как предположили многие местные СМИ. В ведомстве отметили, что причина сбоя уже определена. Чиновники планируют поделиться результатами расследования с широкой общественностью в ближайшее время.
В 2021 году Министерство обороны Нидерландов начало десятилетнюю программу модернизации IT-инфраструктуры. Ведомство привлекло IBM и Atos для помощи в строительстве и обустройстве новых дата-центров, защите IT-систем и создании собственной широкополосной мобильной сети для передачи секретной правительственной информации. Тогда сообщалось, что строительство новых ЦОД займет около 20 месяцев.
Из-за сбоя в работе IT-систем две больницы британском в Ноттингеме, которые входят в Национальную службу здравоохранения Великобритании (NHS), прекратили оказывать ряд услуги, включая анализы крови. Инцидентом оказались затронуты Городская больница и Медицинский центр Квинс. Пациентов попросили не приходить на приемы для сдачи крови или анализов до дальнейшего уведомления. Врачам общей практики пришлось вручную выполнить процедуру для срочных анализов крови.
Восстановить работоспособность IT-системы удалось примерно за сутки, после чего больницы продолжили работу в обычном режиме. Точная причина сбоя в работе оборудования не раскрывается.
Аналогичный инцидент произошел в больнице Ноттингемского университета в октябре 2023 года. В тот раз причиной стало отключение электроэнергии, которое привело к сбою в работе IT-систем в серверной больницы и сети Wi-Fi по всей ее территории, а также повлияло на систему переливания крови, значительно замедлив лечение и проведение хирургических операций.
Ранее в 2024 году в двух больницах в Сассексе (Великобритания) произошли перебои из-за сбоя электропитания в серверной. Это привело к временному отключению всех IT-систем. В июле 2024 года из-за сбоя системы охлаждения был выведен из строя центр обработки данных, используемый организацией UNC Health в Северной Каролине (США).
В 2023 году сбои в работе IT-систем затронули больницы в Новой Зеландии и западной Австралии. В том же году в Медицинском центре для ветеранов в Канзас-Сити (США) произошел четырехчасовой сбой в работе IT-систем после того, как кошка прыгнула на клавиатуру, удалив кластер серверов из общего пула ресурсов.
В 2022 году лондонский фонд Guy’s and St Thomas’ NHS Foundation Trust пострадал от серьезного сбоя во время летней жары, приведшей к перегреву оборудования в ЦОД. Из-за инцидента врачи долгое время не могли получить доступ к медицинским картам пациентов. Это в конечном итоге обошлось NHS Foundation Trust примерно в 1,4 млн фунтов стерлингов.
Поставщик хостинговых услуг Contabo столкнулся с масштабным сбоем в дата-центре в Нюрнберге (Германия). Несколько серверов были недоступны более суток. Клиенты хостинг-провайдера, базирующегося в Мюнхене, начали жаловаться на невозможность нормальной работы из-за сбоя, последствия которого наблюдались несколько дней. Многочисленные клиенты также жаловались на нежелание компании информировать их о ходе устранения неполадок. В частности, озвучивались жалобы на отключение телефона горячей линии. Многочисленные гневные комментарии можно прочитать на сайтах хостера в социальных сетях.
Сама компания сообщила, что в дата-центре в Нюрнберге возникли «неожиданные проблемы с охлаждением». В результате этого ряд серверов оказался недоступен. Пострадали система обработки новых заказов, система тикетов службы техподдержки и клиентские страницы для настроек сервера.
В Contabo заявили, что точная причина инцидента пока неизвестна. Расследование продолжается. Первоначальные выводы указали на удары молний во время сильного шторма во Франконии, который затронул несколько компаний в регионе. Это привело к колебаниям напряжения в центральной электросети. Результатом стал сбой системы управления силовым оборудованием ЦОД. Система охлаждения дата-центра не смогла корректно переключиться на аварийный источник электропитания. Это привело к перегреву серверов.
Компания планирует провести полный анализ первопричин в соответствии с регламентом KRITIS-BSI и намерена опубликовать результаты. Чтобы предотвратить подобные инциденты в будущем, в Contabo решили перевести всех клиентов, пользующихся услугами дата-центра в Нюрнберге, в недавно построенный ЦОД в Лаутербурге.
Компания Contabo была основана в 2003 году, первоначально именовавшись Giga-International. В последние годы немецкий хостер расширил бизнес на несколько других континентов. Компания насчитывает 3 сотни сотрудников, которые рассредоточены по 12 филиалам на четырех континентах. Она обслуживает более 400 тыс. серверных систем.
В дата-центре криптомайнинговой компании Sato Technologies Corp. вспыхнул пожар. Инцидент произошел в серверной ферме, расположенной в канадской провинции Квебек. Обошлось без травм, но повреждено оборудование для майнинга.
Причина пожара не сообщается. Известно, что инцидент затронул оборудование стоимостью около 40 петахэшей (ПХ). Общая стоимость IT-систем, работающих в дата-центре, на момент инцидента составляла 560 ПХ.
Компания сообщила, что пожар вспыхнул в самой старой части здания, где размещалось ее вычислительное оборудование. Многие IT-системы частично пострадали от воды, поскольку сработала система пожаротушения.
Представители Sato Technologies Corp не смогли назвать конкретные сроки полного восстановления пострадавшего оборудования, отметив, что главным приоритетом для компании является безопасность и благополучие сотрудников.
Компания Sato (ранее известная как Canada Computational Unlimited Corp.), была основана в 2017 году. Ее дата-центр в Квебеке имеет мощностью в 20 МВт. Площадь ЦОД составляет 2 320 квадратных метров. В нем размещено около 5,4 тыс. систем для майнинга биткоинов.
Стремясь минимизировать число аварий в ЦОД и их негативные последствия, правительство Великобритании присвоило ЦОД статус критически важной национальной инфраструктуры. Что это означает? Теперь операторы британских корпоративных и коммерческих серверных ферм могут рассчитывать на получение большей поддержки от государства в чрезвычайных ситуациях.
В частности, субъекты британского сектора ЦОД теперь могут рассчитывать на большую государственную поддержку при восстановлении после критических инцидентов, а также на этапе прогнозировании возможных даунтаймов.
Теперь британские дата-центры имеют тот же статус, что и местные экстренные / аварийно-спасательные службы, а также коммунальные компании, включая предприятия, ответственные за водоснабжение и энергоснабжение. Это первое расширение британского списка критически важной национальной инфраструктуры с 2015 года, когда в него были добавлены космический и оборонный секторы. Ожидается, что включение ЦОД в список позволит улучшить координацию и сотрудничество между частным сектором и правительством в контексте борьбы с киберпреступниками и непредвиденными событиями.