Эта информация говорит о том, что, хотя санкции США повлияли на доступность оборудования для ИИ в Китае, учёные работают над тем, чтобы извлечь максимальную производительность из ограниченного количества оборудования и уменьшить влияние сокращения поставок чипов для ИИ в Китай.
Компания опубликовала модель и весовые коэффициенты в открытом доступе, тестирование начнётся в ближайшее время.
Компания Deepseek всего за два месяца обучила свою языковую модель DeepSeek-V3 Mixture-of-Experts (MoE) с 671 миллиардом параметров с помощью кластера, состоящего из 2048 графических процессоров Nvidia H800, что составляет 2,8 миллиона часов работы графических процессоров. Для сравнения: Meta потребовалось в 11 раз больше вычислительной мощности (30,8 млн часов работы графических процессоров) для обучения Llama 3 с 405 миллиардами параметров с помощью кластера, состоящего из 16 384 графических процессоров H100, в течение 54 дней.
DeepSeek утверждает, что значительно снизила требования к вычислительным мощностям и памяти, которые обычно требуются для моделей такого масштаба, с помощью передовых конвейерных алгоритмов, оптимизированной системы коммуникации и вычислений с низкой точностью FP8.
Компания использовала кластер из 2048 графических процессоров Nvidia H800, каждый из которых был оснащён межсоединением NVLink для связи между графическими процессорами и межсоединением InfiniBand для связи между узлами. В таких системах связь между графическими процессорами довольно быстрая, а связь между узлами — нет, поэтому оптимизация является ключом к повышению производительности и эффективности. Хотя DeepSeek внедрила десятки методов оптимизации для снижения вычислительных требований DeepSeek-v3, несколько ключевых технологий позволили добиться впечатляющих результатов.
Сообщение Китайская компания создала передовую модель искусственного интеллекта, которая потребляет в 11 раз меньше вычислительных ресурсов, чем ее конкуренты появились сначала на Время электроники.