Добавить новость

Около 360 тонн картофеля собрали в Подмосковье в ходе уборочной кампании 2024 г

Песков в новогодних открытках журналистам заверил, что победа близка

«Этого прощать нельзя». Медведев ответил на отказ Норвегии спасать российских моряков с Ursa Major

Память в слове





Новости сегодня

Новости от TheMoneytizer

Китайская ИИ-модель для программирования с открытым кодом обошла GPT-4 Turbo

Основанная в прошлом году DeepSeek стала заметным китайским игроком в гонке ИИ, присоединившись к таким компаниям, как Qwen, 01.AI и Baidu. В декабре 2023 года она выпустила DeepSeek Chat — конкурента ChatGPT, обученного на 2 трлн английских и китайских токенов. В течение года после запуска компания открыла исходный код ряда моделей, включая семейство DeepSeek Coder.

Первая версия DeepSeek Coder, обладающая до 33 млрд параметров, показала неплохие результаты в тестах, демонстрируя возможности вроде автодополнения кода на уровне проекта и заполнения пробелов. Однако она поддерживала всего 86 языков программирования и имела окно контекста 16 000 токенов. В новой версии V2 поддерживается до 338 языков программирования, а контекстное окно увеличено до 128 000 токенов. Это позволяет ей справляться с более сложными и масштабными задачами программирования.

Модель проверили на тестах MBPP+, HumanEval и Aider, разработанных для оценки возможностей больших языковых моделей по генерации, редактированию кода и решению задач. DeepSeek Coder V2 набрала 76,2, 90,2 и 73,7 баллов соответственно. Это ставит ее выше большинства закрытых и открытых моделей, включая GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro, Codestral и Llama-3 70B. Аналогичная производительность наблюдалась в тестах, предназначенных для оценки математических возможностей модели (MATH и GSM8K).

Единственной моделью, которой удалось превзойти DeepSeek по нескольким тестам, была GPT-4o, которая получила немного более высокие оценки в HumanEval, LiveCode Bench, MATH и GSM8K.

DeepSeek объясняет достигнутый технический прогресс и улучшение производительности использованием языковой модели DeepSeek V2, основанной на их собственной архитектуре Mixture of Experts (смесь экспертов). По сути, компания предварительно обучила базовую модель V2 на дополнительном наборе данных объемом 6 трлн токенов, который в основном состоит из информации, связанной с кодом и математикой, полученной из GitHub и CommonCrawl. Модель поставляется с опциями параметров 16 млрд и 236 млрд. Но архитектура Mixture of Experts позволяет ей активировать только «экспертные» параметры (2,4 млрд и 21 млрд) для решения поставленных задач, а также оптимизировать ее для различных потребностей вычислений и приложений.

Помимо превосходных результатов в задачах, связанных с кодом и математикой, DeepSeek Coder V2 также демонстрирует достойную производительность в общих рассуждениях и понимании языка.

Например, в тесте MMLU, предназначенном для оценки понимания языка, она набрала 79,2 балла. Это значительно выше показателей других моделей, специализирующихся на коде, и почти соответствует результату Llama-3 — 70B. Лидерами категории MMLU по-прежнему остаются GPT-4o и Claude 3 Opus с результатами 88,7 и 88,6 баллов соответственно. DeepSeek Coder V2 также оставила позади GPT-4 Turbo.

DeepSeek Coder V2 предлагается под лицензией MIT, которая допускает как исследовательское, так и коммерческое использование. Пользователи могут загрузить обе версии модели (16 млрд и 236 млрд параметров) через платформу Hugging Face. В качестве альтернативы компания предоставляет доступ к моделям через API за оплату по мере использования. Те, кто хочет сначала опробовать возможности моделей, могут пообщаться с DeepSeek Coder V2 через чат-бот.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Парк Горького и сад «Аквариум», или Какие объекты благоустроили в 2024 году в ЦАО

Лера Кудрявцева не платит за капитальный ремонт

Ефимов: более 135 га земли выделили для реализации МаИП осенью 2024 года

Андрей Воробьев поздравил с Новым годом воспитанниц детского приюта милосердия

Музыкальные новости

Перенос рейса: 200 пассажиров застряли в аэропорту Внуково на 12 часов

Национальный РДКМ провел серию мероприятий в Норильске и Дудинке в партнерстве с «Норникелем»

В Москве завершился проекта Центра «Культура для жизни» «Наследие Марии Тенишевой молодому поколению»

Кабинет Артиста. Яндекс кабинет артиста. Яндекс музыка кабинет артиста.

Новости России

Астроном Богачев: На Солнце произошла мощнейшая вспышка

Какой двигатель стоит на Jaecoo J8

Алиев потребовал от Москвы признания вины в крушении самолета Баку-Грозный

Андрей Воробьев поздравил с Новым годом воспитанниц детского приюта милосердия

Экология в России и мире

Что работодатели должны знать о поколении Z?

Пэрис Хилтон обнажилась у елки в католическое Рождество, прикрываясь бантом на видео: поклонники в ярости

Продать стихи. Как продать стихи. Продать стихи собственного сочинения.

Новые технологии в создании контактных линз

Спорт в России и мире

Определилась соперница Арины Соболенко во втором круге турнира WTA-500 в Брисбене

Путинцева откровенно высказалась о России

Арина Соболенко изменила отношение к Иге Швёнтек

Джессика Пегула снялась с турнира WTA-500 в Брисбене из-за травмы

Moscow.media

На месте дач УрО РАН на Шарташе создадут туристическую зону

Филиал № 4 ОСФР по Москве и Московской области информирует: Свыше 110 уроков пенсионной грамотности провели сотрудники Отделения СФР по Москве и Московской области

Новогодняя...

Портативный ТСД корпоративного класса Saotron RT-T70











Топ новостей на этот час

Rss.plus






Аль-Джулани: Новые власти Сирии не хотят, чтобы Россия ушла из страны в ущерб отношениям двух стран

Какой двигатель стоит на Jaecoo J8

В мире 30 декабря 2024 года отмечают 3 праздника

Алиев: Баку требует от Москвы признания вины в ситуации с катастрофой борта AZAL