Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов

27.07.2024 19:38

«iXBT.com»

Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа.

фото: Nvidia

Во время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа. В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.

Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения.

* Meta признана в России экстремистской организацией, её деятельность запрещена.

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Лещенко в 95-летний юбилей Пахмутовой раскрыл секрет ее долголетия

СМИ узнали о желании Трампа разорвать связи России, Китая, Ирана и КНДР

Московское «Динамо» сыграет с «Амкалом» — победителем Медиалиги

Кострома простилась с полковником запаса, экс-командиром 331-го парашютно-десантного полка Аркадием Черняковым

Музыкальные новости

Bigpot.news

В Мензелинской школе-интернате реализуют проект-победитель Фонда Президентских грантов

Стартовал пробный запуск Castle Doombad: Free To Slay на iOS и Android

«Вечером на лобном, а после — плацкарт»: как Бузова совмещала «ДОМ-2» и учебу

В Подмосковье росгвардейцы помогли автолюбительнице, оказавшейся в сложной ситуации из-за гололеда

Новости России

29ru.net

Появилось видео пожара в доме на Карельском бульваре в Москве

Более 8 тонн меда продали на ярмарках выходного дня осенью

Жуковский вошел в число лучших муниципалитетов по итогам ЕГЭ и ГИА 2024 года

Первенство по плаванию среди юниоров округа прошло в Химках

Экология в России и мире

Life24.pro

Притча об уверенности в собственных силах

"Женское дело. Лаборатория успеха". В гостях Дарья Геращенко

В День народного единства группа «ПЯТЕRО» представила премьеру песни «Одна и навсегда»

Богданов борется за сердце Glukozы, а Хрусталев ищет кольцо Нефертити

Спорт в России и мире

News.tennis

Теннисистка Пегула снялась с итогового турнира WTA, ее заменит Касаткина

Кудерметова и Чжань Хаоцин проиграли в полуфинале Итогового турнира WTA в парах

Российская теннисистка Анастасия Потапова сообщила о разводе

Кудерметова в паре с Чжань Хаоцин вышли в полуфинал итогового турнира WTA

Moscow.media

News24.pro

Овчинский: 10 новостроек возводят на месте расселенных домов в СЗАО

Нарколог рассказал, чем опасен алкоголь при вакцинации

Собянин: Дорогу Калужское шоссе — Саларьево планируется открыть в 2027 году

МЧС Ставрополья опубликовало фото дома в Пятигорске, где взорвался газ

Читайте на 123ru.net

Интернет

Авто Новости

Видео-новости

Модные новости

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Лещенко в 95-летний юбилей Пахмутовой раскрыл секрет ее долголетия

СМИ узнали о желании Трампа разорвать связи России, Китая, Ирана и КНДР

Московское «Динамо» сыграет с «Амкалом» — победителем Медиалиги

Кострома простилась с полковником запаса, экс-командиром 331-го парашютно-десантного полка Аркадием Черняковым

В Мензелинской школе-интернате реализуют проект-победитель Фонда Президентских грантов

Стартовал пробный запуск Castle Doombad: Free To Slay на iOS и Android

«Вечером на лобном, а после — плацкарт»: как Бузова совмещала «ДОМ-2» и учебу

В Подмосковье росгвардейцы помогли автолюбительнице, оказавшейся в сложной ситуации из-за гололеда

Появилось видео пожара в доме на Карельском бульваре в Москве

Более 8 тонн меда продали на ярмарках выходного дня осенью

Жуковский вошел в число лучших муниципалитетов по итогам ЕГЭ и ГИА 2024 года

Первенство по плаванию среди юниоров округа прошло в Химках

Притча об уверенности в собственных силах

"Женское дело. Лаборатория успеха". В гостях Дарья Геращенко

В День народного единства группа «ПЯТЕRО» представила премьеру песни «Одна и навсегда»

Богданов борется за сердце Glukozы, а Хрусталев ищет кольцо Нефертити

Теннисистка Пегула снялась с итогового турнира WTA, ее заменит Касаткина

Кудерметова и Чжань Хаоцин проиграли в полуфинале Итогового турнира WTA в парах

Российская теннисистка Анастасия Потапова сообщила о разводе

Кудерметова в паре с Чжань Хаоцин вышли в полуфинал итогового турнира WTA

Функциональные и тихие: две клавиатуры от A4Tech для комфортной работы

В России вновь пройдет культурно-благотворительный фестиваль детского творчества «Добрая волна»

Freedom Holding Corp. увеличил выручку на 33% и купил SilkNetCom

Самолва

Топ новостей на этот час

Русских упекли в "шкафы для хранения людей". Эксперт заявила о позоре России: "Ну не плодятся люди в будках"

YANDI.ga: Революция в коммуникации и Продвижении Музыкантов с использованием WEB3

Захарова назвала Штайнмайера безумным правителем после его инцидента с писателем

Более 8 тонн меда продали на ярмарках выходного дня осенью