Добавить новость

Выигравший 1 млрд рублей в лотерею получит более 781 млн после уплаты налогов

Старейшая олимпийская чемпионка Агнеш Келети скончалась в возрасте 103 лет

Столичную коммунальную технику украсили к новогодним и рождественским праздникам

Определен состав ученых для поиска способа очистки песка от мазута в Краснодарском крае





Новости сегодня

Новости от TheMoneytizer

В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом

Как и ее предшественник DeepSeek-V2, новая сверхбольшая модель использует архитектуру, основанную на применении специализированных «экспертов» — отдельных, более компактных нейронных сетей, входящих в состав общей модели. Для обработки каждого токена активируется 37 млрд параметров из 671 млрд. Это уже обеспечивает высокую производительность, но компания представила еще два улучшения. Первое — стратегия балансировки нагрузки между «экспертами», которая динамически регулирует их использование, не снижая общей производительности. Второе — функция MTP, позволяющая модели одновременно прогнозировать несколько будущих токенов. Это нововведение не только повышает эффективность обучения, но и позволяет модели работать в три раза быстрее, генерируя 60 токенов в секунду.

Предварительное обучение DeepSeek-V3 проводилось на 14,8 трлн токенов. Затем контекстное окно было расширено в два этапа: сначала до 32 тысяч, затем до 128 тысяч токенов. После этого базовая модель прошла постобучение, включая контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) для соответствия человеческим предпочтениям и оптимизации баланса между точностью и длиной генерируемого текста. При этом использовались наработки из серии моделей DeepSeekR1 в части рассуждений.

Полное обучение DeepSeek-V3 заняло 2,7 млн часов GPU H800, что при стоимости $2 за час аренды GPU составляет примерно $5,57 млн. Это гораздо меньше, чем сотни миллионов долларов, обычно требуемые для предварительного обучения больших языковых моделей. Например, тренировка Llama-3.1, по оценкам, обошлось более чем в $500 млн.

Несмотря на то, что обучение DeepSeek-V3 стоило относительно недорого, она стала одной из самых мощных открытых моделей на рынке. Сравнительные тесты показали, что она превосходит такие известные открытые модели, как Llama-3.1-405B и Qwen 2.5-72B. DeepSeek-V3 даже опередила закрытую модель GPT-4o по большинству показателей, уступив лишь в тестах SimpleQA (38,2 у GPT-4o против 24,9 у DeepSeek-V3) и FRAMES (80,5 против 73,3), ориентированных на английский язык. Особенно впечатляют результаты DeepSeek-V3 в тестах на знание китайского языка и математики, где она обошла всех конкурентов. В тесте Math-500 она набрала 90,2 балла, в то время как Qwen показала результат 80.

Единственной моделью, которой удалось составить конкуренцию DeepSeek-V3, стала Claude 3.5 Sonnet от Anthropic, показавшая более высокие результаты в тестах MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified и Aider-Edit.

Код DeepSeek-V3 доступен на GitHub под лицензией MIT, а сама модель — по лицензии DeepSeek. Протестировать ее можно через DeepSeek Chat (аналог ChatGPT), а для коммерческого использования доступен API. Эта работа показывает, что модели с открытым исходным кодом приближаются по своим возможностям к закрытым моделям, обещая практически эквивалентную производительность в задачах. Развитие таких систем важно для отрасли, так как предотвращает монополию одного крупного игрока и предоставляет бизнесу широкий выбор при построении IT-инфраструктуры.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

В Детской больнице МОЦОМДа поздравили пациентку с первым январским днем рождения

Максим Ликсутов: два офисных центра ввели в ...

Студента из Туркмении обвинили в изнасиловании жительницы Саратова

США обеспокоены возможностью применения Россией ядерного оружия

Музыкальные новости

Суд обязал "Яндекс" удалить снимки НПЗ после атак БПЛА

Продвижение Песни в Мою Волну музыкального стриминга Яндекс Музыка.

Шахматист Мурзин о победе на ЧМ по рапиду: ехал на турнир занять первое место

Селлеры России снижают цены на Apple-технику благодаря параллельному импорту

Новости России

Успей забрать новогодние подарки в STALCRAFT: X

В Детской больнице МОЦОМДа поздравили пациентку с первым январским днем рождения

США обеспокоены возможностью применения Россией ядерного оружия

Малайская медведица Маша в Московском зоопарке: уникальная встреча с гостями

Экология в России и мире

Создание Модели голоса. Создание Модели своего голоса. Создание AI модели голоса.

Carolina Herrera pre-fall 2025

Добавка Е621: для чего в СССР использовали глутамат натрия

Валентина Иванова неожиданно отреагировала на слухи о свадьбе с Тимати: видео

Спорт в России и мире

Кирьос: Нужно чудо, чтобы запястье выдержало Australian Open

Андреева вышла в четвертьфинал WTA 500 в Брисбене, обыграв Носкову

Касаткина за три с половиной часа одолела американку Стирнс на турнире WTA

Капризов стал лучшим снайпером года в НХЛ, Кудерметова прошла Касаткину. Главное к утру

Moscow.media

Продать стихи. Как продать стихи. Продать стихи собственного сочинения. Где продать стихи.

Ученые рассказали о сложностях секса в космосе (Big Think, США)

ИИ OpenAI обвинили в «жульничестве» при игре в шахматы

Городской пейзаж (+архитектура) в ЧБ











Топ новостей на этот час

Rss.plus






В Детской больнице МОЦОМДа поздравили пациентку с первым январским днем рождения

Mash: Друг Тиммы обвинил Седокову в заказном убийстве и заявит об этом в суде

Студента из Туркмении обвинили в изнасиловании жительницы Саратова

«Валенсия» — «Реал Мадрид». Прямой эфир, смотреть онлайн матч Ла Лиги