DeepSeek-R1 применяет уникальный подход к обработке запросов: вместо мгновенного ответа модель делит задачу на этапы и шаг за шагом анализирует её. На решение сложных вопросов у алгоритма может уйти несколько десятков секунд. Такой метод помогает минимизировать ошибки, характерные для других моделей искусственного интеллекта. Однако пользователи отметили, что система испытывает трудности с базовыми логическими играми, такими как крестики-нолики.
Модель DeepSeek-R1 уже вызвала споры среди экспертов из-за своей уязвимости к обходу защитных механизмов. В интернете появились примеры, где пользователи получали от ИИ инструкции для создания запрещённых веществ. Кроме того, алгоритм отказывается обсуждать темы, которые регулируются китайскими властями, например, события на площади Тяньаньмэнь или возможный конфликт с Тайванем. Подобные ограничения связаны с требованием соответствовать "основным социалистическим ценностям", установленным государственным регулятором.
Интерес к системам "машинного рассуждения" возрос на фоне замедления прогресса в разработке моделей, основанных на простом увеличении объёмов данных и вычислительных мощностей. Разработчики DeepSeek-R1 применяют подход под названием "test-time compute", который позволяет модели задействовать дополнительные ресурсы для анализа задач. Эту технологию отметил генеральный директор Microsoft Сатья Наделла, заявив о появлении новой "закономерности масштабирования" для искусственного интеллекта.
DeepSeek планирует сделать DeepSeek-R1 открытым проектом, предоставив код и API для разработчиков. Лаборатория уже известна благодаря своей модели DeepSeek-V2, которая повлияла на рынок: компании ByteDance, Baidu и Alibaba были вынуждены снизить цены на свои услуги или даже сделать их бесплатными.
High-Flyer Capital Management активно поддерживает проект и использует 10 000 графических процессоров Nvidia A100 для обучения моделей. Стоимость серверного кластера компании составила около $138 миллионов. Руководитель компании Лян Вэньфэн https://techcrunch.com/2024/11/20/a-chinese-lab-has-released..., что ее конечная цель — создать "сверхразум", который превзойдёт человеческий интеллект.
Разработка ИИ с функцией рассуждения отражает общий тренд, связанный с поиском новых подходов к его развитию. Традиционные методы улучшения моделей, основанные на увеличении вычислительных мощностей и объёмов данных, в последние годы сталкиваются с ограничениями. Это вынуждает исследователей искать инновационные пути, такие как использование дополнительных ресурсов для выполнения задач в реальном времени (test-time compute).
Особое место в развитии ИИ занимает Китай, который активно инвестирует в новые технологии. Согласно недавно вышедшему https://hightech.plus/2024/11/25/reiting-ii-ekosistem-ssha--... мировых экосистем ИИ, Поднебесная занимает второе место и готовится вырваться в лидеры. Секрет успеха КНР — патенты, беспрецедентный объём инвестиций и чёткая национальная стратегия.