Организация AFCOM провела исследование актуальных причин отказов инфраструктуры ЦОД, опросив операторов центров обработки данных со всего мира. Выяснилось, что значительная часть респондентов столкнулась с простоями вследствие отсутствия возможности получить необходимые детали. Такой ответ дали 44% опрошенных. Годом ранее этот показатель составлял 25%.
Более того, 94% респондентов, анализ ответов которых был отражен в отчете «Состояние центров обработки данных в 2023 году» (англ.: State of the Data Center 2023), сталкивались с теми или иными проблемами с цепочками поставок. Наиболее часто упоминаемые дефицитные активы — базовое IT-оборудование, включая серверы и коммутаторы (59%). Далее следуют элементы энергосистемы (51%), включая дизель-генераторы и ИБП.
Но даже приобретение систем безопасности (34%), включая надежные двери и камеры видеонаблюдения, а также строительных материалов, включая изделия из бетона (35%), становится источником проблем для многих респондентов.
Исследователи отмечают, что многие корпоративные клиенты активно скупают оборудование, которое им может понадобиться в будущем, создавая внушительные запасы. Раньше они покупали только то, что им нужно в текущий момент или в краткосрочной перспективе, и ничего больше. Это усиливает дефицит.
Учитывая текущие тренды, эксперты рекомендуют закупать и хранить критически важные детали впрок. Также рекомендуется обращаться за помощью к логистическим партнерам, которые могут решить проблемы с авиаперевозками или железнодорожным транспортом.
Операторам ЦОД следует рассмотреть рынок подержанного IT-оборудования. Как правило, на этом рынке можно найти мощные системы, которым может потребоваться больше времени для выполнения определенных рабочих задач, чем самым передовым и высокотехнологическим решениям, но, по крайней мере, задачи будут выполняться.
Наконец, стоит брать пример с 29% респондентов, которые приняли участие в опросе AFCOM. Эти специалисты решили закупаться у нескольких поставщиков. Как правило, корпоративные клиенты предпочитают покупать оборудование для ЦОД у одного поставщика, которого они знают и с которым давно работают. В условиях дефицита это может быть нежизнеспособным вариантом.
12 мая 2023 года около 9 утра по гавайско-алеутскому стандартному времени базирующийся на Гавайях авиаперевозчик Hawaiian Airlines столкнулся с перебоями в работе IT-инфраструктуры, что привело к задержке рейсов. Сообщается о сбое в системе электропитания в серверной ферме поставщика услуг ЦОД DRFortress, с которым сотрудничает Hawaiian Airlines. Авария вынудила компанию отключить серверы. Инцидент произошел во время планового технического обслуживания инфраструктуры дата-центра в Гонолулу.
Причины отключения ЦОД, затронувшего IT-системы в штаб-квартире авиакомпании на Гавайях, были оперативно устранены. Но клиенты авиаперевозчика столкнулись с задержкой рейсов из-за временного ухода вычислительной инфраструктуры в офлайн.
Компания Hawaiian Airlines принесла извинения за неудобства всем пострадавшим клиентам. Подчеркивается, что никаких угроз для безопасности полетов не возникло. Отказ системы вызвал «значительные задержки» при отправлении рейсов Hawaiian Airlines между отдельными гавайскими островами и выполнении транстихоокеанских рейсов.
22 июня 2023 года в 4:00 утра по новозеландскому стандартному времени произошел сбой в одном из колокейшн-ЦОД на территории Новой Зеландии, из-за которого многочисленные местные учреждения здравоохранения оказались парализованы. Затронутые медучреждения находились в городах Веллингтон и Вайрарапа. В частности, сбои произошли в региональной больнице Веллингтона, общественной больнице Кенепуру, больнице Хатта и больнице Вайрарапа.
Сообщается, что инцидент был вызван отказом системы охлаждения ЦОД, за которым последовал перегрев нескольких серверов. Приложения и прочие рабочие задачи, обрабатывавшиеся с помощью этих серверов, оказались автоматически перенаправлены на другие машины, но эта процедура была выполнена с задержками.
Как следствие, перестали работать или замедлились системы доступа к записям пациентов, клиническим записям, результатам лабораторных анализов, платежным ведомостям и средствам удаленной работы. Некоторые пациенты были вынуждены перенести визиты к врачам. Операции не откладывались / переносились.
Проблема была оперативно решена. Дата-центр, в котором случилась авария, не был назван. Но, вероятно, проблемный ЦОД находится в Веллингтоне. В городе есть шесть дата-центров, предоставляющих колокейшн-услуги. Они находятся под управлением компаний Datacom Data Center, Plan B, Netspace, Chorus, Xtreme Networks и Spark Digital.
В период с июня 2022 года по январь 2023 года правительство юрисдикции Гернси (зависимая территория британской короны) столкнулось с четырьмя сбоями в работе IT-инфраструктуры, в результате которых перестали работать официальные сайты и внутренние системы. В частности, авариями оказались затронуты некоторые школы, система контроля посадки в аэропорту Гернси и программное обеспечение для начисления пособий. Сообщается, что в результате инцидентов данные не были потеряны.
Эксперты консалтинговой компании PricewaterhouseCoopers (PwC) провели анализ сбоев и пришли к выводу, что инфраструктура ЦОД, используемая местным правительством, значительно устарела. Властям юрисдикции было рекомендовано внести серьезные изменения для повышения устойчивости в будущем.
Было обнаружено отсутствие четкой информации о владельцах инфраструктуры ЦОД в юрисдикции, а также о том, кто несет ответственность за техническое обслуживание. В результате, когда одна из двух систем кондиционирования воздуха в местном ЦОД вышла из строя в июне 2022 года, она оставалась не отремонтированной до ноября, когда вышла из строя и вторая, оставив IT-оборудование без охлаждения.
Оборудование в местных государственных ЦОД, как правило, старое. Проверка выявила задержки с перемещением старых систем в новые центры обработки данных. Кроме того, более года назад истек срок действия контрактов на техническое обслуживание ИБП и генераторов.
Администрация Гернси в 2019 году подписала 10-летний контракт на сумму 200 миллионов фунтов стерлингов (254,4 миллиона долларов США) с поставщиком IT-услуг Agilisys. Но, по-видимому, соглашение не оговаривало ответственность за техническое обслуживание ЦОД.
Хотя Гернси является частью Великобритании, у юрисдикции есть значительная автономия и собственное правительство. Из-за этого государственные дата-центры Гернси не могут располагаться вне территории юрисдикции. В результате ее правительство профинансировало сделку с Agilisys, в рамках которой на острове были построены два ЦОД. Американская корпорация Dell Technologies предоставила серверы VxRail с процессорами AMD Epyc. Партнером по программному обеспечению была Microsoft Azure.
Больница им. Фионы Стэнли в Западной Австралии пострадала от сбоя IT-систем. Пациентам пришлось столкнуться с переносом дат приема у врачей на неопределенный срок, а машины скорой помощи были направлены в другие больницы. Инцидент не затронуло критическое важное медицинское оборудование.
Отключения IT-систем в больницах могут иметь смертельные последствия. В 2020 году сбой, вызванный программами-вымогателями, в больнице Дюссельдорфа привел к смерти пациента после того, как операции были отложены.
13 июня 2023 года произошел сбой в работе облачной платформы Amazon Web Services (AWS). Инцидент затронул пользователей из региона US-East-1. В компании не стали делиться информацией о технических причинах аварии, отметив лишь, что проблема затронула сервисы AWS CloudFormation, Lambda и Amazon Connect.
Решить проблему удалось в тот же день, но клиентам пришлось перезапускать сервисы вручную. О перебоях в работе своих сайтов, приложений и сервисов из-за аварии в инфраструктуре AWS сообщили многочисленные компании, включая Webflow, Chatbase и Cloudsmith, The Associated Press, PlutoTV, Hinge, Delta, Webflow, Simplecast, Shutterfly, Crunchyroll, Barclays, Goodreads, Story Origin, Option Research, DCU Center, Decent.xyz, Simplecast и Mobile Assistant. Техническое издание The Verge заявило, что не может обновить свою домашнюю страницу. Также перестало работать приложение Burger King.
29 мая 2022 года поставщик услуг ЦОД Rackspace сообщил о перебоях в работе колокейшн-дата-центров в Европе и Азиатско-Тихоокеанском регионе. В частности, отмечались проблемы с подключением к интернету в центрах обработки данных SYD2 (Сидней), HKG5 (Гонконг), LON5 и LON3 (Лондон). Инженерам удалось оперативно найти решение проблемы.
Изначально компания сообщила, что проблема могла быть связана с Системой мультиплексирования с разделением по спектральной плотности (англ.: Dense Wavelength-Division Multiplexing; DWDM) в Лондоне. Но позже инженеры исключили этот вариант. Впоследствии выяснилось, что сбой был связан с ограничениями ввода-вывода в многопользовательской общей среде SAN. Инженеры успешно восстановили значения по умолчанию, после чего клиентское IT-оборудование снова подключилось к сети.
28 июня 2023 года большинство веб-сайтов администрации американского штата Вермонт и некоторые онлайн-сервисы утратили работоспособность на 11 часов после того, как был перерезан кабель, обслуживающий сторонний центр обработки данных. Похожий случай произошел в апреле. Причиной предыдущей аварии также стало нарушение целостности телекоммуникационного кабеля, ведущего к ЦОД.
Администрация Вермонта ранее делегировала задачи, связанные с хостингом сайтов стороннему поставщику услуг ЦОД Tyler Technologies. Для обслуживания клиента компания использует ресурсы своего центра обработки данных, расположенного в Вашингтоне, округ Колумбия (США). Оптоволокно, используемое для подключения этого дата-центра к интернету, оказалось разорвано в 1:00 по местному времени. Восстановление сайтов и сервисов завершилось около 12:30.
Этот инцидент перекликается с отключением государственных сайтов и сервисов в апреле, который также был вызван обрывом оптоволоконной магистрали, обслуживающей тот же центр обработки данных Tyler Technologies.
В ходе второй аварии инструменты мониторинга, находящиеся в распоряжении администрации штата, обнаружили отключение интернета около часа ночи. Персонал ЦОД узнал об этом в 5 часов утра и начал пытаться расшифровать причину и устранить неполадки. Около 8 утра Tyler Technologies уведомила администрацию штата о случившемся. Усилия специалистов позволили восстановить около 95 процентов веб-сайтов к полудню. К 12:30 были восстановлены почти все сайты. В Tyler Technologies сообщили, что инцидент затронул и других клиентов.
У компании есть резервный центр обработки данных в Техасе. Во время апрельского инцидента не удалось оперативно перенести нагрузки в этот ЦОД в автоматическом режиме. Специалистам пришлось вручную вносить изменения в систему доменных имен (DNS), чтобы добиться цели. Извлекая уроки из этого опыта, администрация Вермонта настроила механизм автоматического перенаправления трафика в техасский ЦОД, если основной центр обработки данных выйдет из строя. Но, несмотря на эту новую меру, что-то еще пошло не так. В Tyler Technologies сообщили о проблемах в работе резервного ЦОД, не поделившись конкретикой.