Добавить новость

Акция «Музейная неделя» для участников СВО пройдет в Музее Победы

Матвиенко призвал тратить деньги с концертов на восстановление памятников Курска

Горожан приглашают на день московского спорта

У пирсов на пляжах Анапы на дне обнаружили мазут





Новости сегодня

Новости от TheMoneytizer

В Китае разработали одну из самых мощных ИИ-моделей с открытым кодом

Как и ее предшественник DeepSeek-V2, новая сверхбольшая модель использует архитектуру, основанную на применении специализированных «экспертов» — отдельных, более компактных нейронных сетей, входящих в состав общей модели. Для обработки каждого токена активируется 37 млрд параметров из 671 млрд. Это уже обеспечивает высокую производительность, но компания представила еще два улучшения. Первое — стратегия балансировки нагрузки между «экспертами», которая динамически регулирует их использование, не снижая общей производительности. Второе — функция MTP, позволяющая модели одновременно прогнозировать несколько будущих токенов. Это нововведение не только повышает эффективность обучения, но и позволяет модели работать в три раза быстрее, генерируя 60 токенов в секунду.

Предварительное обучение DeepSeek-V3 проводилось на 14,8 трлн токенов. Затем контекстное окно было расширено в два этапа: сначала до 32 тысяч, затем до 128 тысяч токенов. После этого базовая модель прошла постобучение, включая контролируемую тонкую настройку (SFT) и обучение с подкреплением (RL) для соответствия человеческим предпочтениям и оптимизации баланса между точностью и длиной генерируемого текста. При этом использовались наработки из серии моделей DeepSeekR1 в части рассуждений.

Полное обучение DeepSeek-V3 заняло 2,7 млн часов GPU H800, что при стоимости $2 за час аренды GPU составляет примерно $5,57 млн. Это гораздо меньше, чем сотни миллионов долларов, обычно требуемые для предварительного обучения больших языковых моделей. Например, тренировка Llama-3.1, по оценкам, обошлось более чем в $500 млн.

Несмотря на то, что обучение DeepSeek-V3 стоило относительно недорого, она стала одной из самых мощных открытых моделей на рынке. Сравнительные тесты показали, что она превосходит такие известные открытые модели, как Llama-3.1-405B и Qwen 2.5-72B. DeepSeek-V3 даже опередила закрытую модель GPT-4o по большинству показателей, уступив лишь в тестах SimpleQA (38,2 у GPT-4o против 24,9 у DeepSeek-V3) и FRAMES (80,5 против 73,3), ориентированных на английский язык. Особенно впечатляют результаты DeepSeek-V3 в тестах на знание китайского языка и математики, где она обошла всех конкурентов. В тесте Math-500 она набрала 90,2 балла, в то время как Qwen показала результат 80.

Единственной моделью, которой удалось составить конкуренцию DeepSeek-V3, стала Claude 3.5 Sonnet от Anthropic, показавшая более высокие результаты в тестах MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified и Aider-Edit.

Код DeepSeek-V3 доступен на GitHub под лицензией MIT, а сама модель — по лицензии DeepSeek. Протестировать ее можно через DeepSeek Chat (аналог ChatGPT), а для коммерческого использования доступен API. Эта работа показывает, что модели с открытым исходным кодом приближаются по своим возможностям к закрытым моделям, обещая практически эквивалентную производительность в задачах. Развитие таких систем важно для отрасли, так как предотвращает монополию одного крупного игрока и предоставляет бизнесу широкий выбор при построении IT-инфраструктуры.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

В Москве в 230 учебных заведений обновили оборудование

Миру явилась Пресвятая Троица: православные готовятся встретить праздник Крещение Господне

Петербургская прокуратура проверит светофоры после смертельного ДТП

Появилось видео смертельного ДТП со взорвавшейся около шоссе Энтузиастов машиной

Музыкальные новости

Собянин: В Москве обновлено более 2300 электроподстанций в 2024 году

Сергей Собянин: Создаем современные городские вокзалы

В Новосибирске пройдет региональный отборочный тур фестиваля детского творчества «Добрая волна»

Структуры "Интерроса" продолжают покорять социальный сектор экономики благотворительными и арт-токенами

Новости России

Петербургская прокуратура проверит светофоры после смертельного ДТП

Миру явилась Пресвятая Троица: православные готовятся встретить праздник Крещение Господне

В Москве в 230 учебных заведений обновили оборудование

Машина влетела в столб и загорелась в районе Андроньевского шоссе, двое погибли

Экология в России и мире

Кто придумал огуречный лосьон в СССР и зачем он был нужен

Константин Эрнст, Владимир Потанин и Евгений Цыганов рассказали о новом сериале "Минута тишины"

Земной шар в заштопанном кармане: путешественник рассказал москвичам о странствиях по миру

Орган в Планетарии. Музыка для влюблённых

Спорт в России и мире

«Сучка». Уроженка Москвы отреагировала на поражение от Касаткиной на Australian Open

Медведев отреагировал на слова Циципаса о том, что его вымотала интенсивность ATP-тура

Рыбакина вышла в четвертый раунд Australian Open, Швентек разгромила Радукану

«Фонсека в матче с Рублёвым в Австралии сыграл просто великолепно и не дал Андрею вернуться» — Петрова

Moscow.media

Утверждены новые тарифы ОСАГО: в одних регионах дороже, в других — дешевле

"Оренбургский вулкан"

В Новосибирске пройдет региональный отборочный тур фестиваля детского творчества «Добрая волна»

Христианский храм Датуна, республика Дагестан.











Топ новостей на этот час

Rss.plus






Почти 30 аптек при поликлиниках заработали в Воронежской области

Вывоз строительного мусора без проблем

Памятник Пригожину и Уткину установили на кладбище в Иркутске

Обманутый мошенниками пенсионер выкинул с балкона $100 тыс в Москве