Как и ее предшественник DeepSeek-V2, новая сверхбольшая модель использует архитектуру, основанную на применении специализированных «экспертов» — отдельных, более компактных нейронных сетей, входящих в состав общей модели. Для обработки каждого токена активируется 37 млрд параметров из 671 млрд. Это уже обеспечивает высокую производительность, но компания представила еще два улучшения. Первое — стратегия балансировки нагрузки между «экспертами», которая динамически регулирует их использование, не снижая общей производительности. Второе — функция MTP, позволяющая модели одновременно прогнозировать несколько будущих токенов. Это нововведение не только повышает эффективность обучения, но и позволяет модели работать в три раза быстрее, генерируя 60 токенов в секунду.
Предварительное обучение DeepSeek-V3 проводилось на 14,8 трлн токенов. Затем контекстное окно было расширено в два этапа: сначала до 32 тысяч, затем до 128 тысяч токенов. После этого базовая модель прошла постобучение, включая контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) для соответствия человеческим предпочтениям и оптимизации баланса между точностью и длиной генерируемого текста. При этом использовались наработки из серии моделей DeepSeekR1 в части рассуждений.
Полное обучение DeepSeek-V3 заняло 2,7 млн часов GPU H800, что при стоимости $2 за час аренды GPU составляет примерно $5,57 млн. Это гораздо меньше, чем сотни миллионов долларов, обычно требуемые для предварительного обучения больших языковых моделей. Например, тренировка Llama-3.1, по оценкам, обошлось более чем в $500 млн.
Несмотря на то, что обучение DeepSeek-V3 стоило относительно недорого, она стала одной из самых мощных открытых моделей на рынке. Сравнительные тесты показали, что она превосходит такие известные открытые модели, как Llama-3.1-405B и Qwen 2.5-72B. DeepSeek-V3 даже опередила закрытую модель GPT-4o по большинству показателей, уступив лишь в тестах SimpleQA (38,2 у GPT-4o против 24,9 у DeepSeek-V3) и FRAMES (80,5 против 73,3), ориентированных на английский язык. Особенно впечатляют результаты DeepSeek-V3 в тестах на знание китайского языка и математики, где она обошла всех конкурентов. В тесте Math-500 она набрала 90,2 балла, в то время как Qwen показала результат 80.
Единственной моделью, которой удалось составить конкуренцию DeepSeek-V3, стала Claude 3.5 Sonnet от Anthropic, показавшая более высокие результаты в тестах MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified и Aider-Edit.
Код DeepSeek-V3 доступен на GitHub под лицензией MIT, а сама модель — по лицензии DeepSeek. Протестировать ее можно через DeepSeek Chat (аналог ChatGPT), а для коммерческого использования доступен API. Эта работа показывает, что модели с открытым исходным кодом приближаются по своим возможностям к закрытым моделям, обещая практически эквивалентную производительность в задачах. Развитие таких систем важно для отрасли, так как предотвращает монополию одного крупного игрока и предоставляет бизнесу широкий выбор при построении IT-инфраструктуры.