Модель о3 от OpenAI набрала рекордные 87% в сложнейшем тесте

25.12.2024 20:57

Бенчмарк ARC-AGI проверяет способность системы ИИ адаптироваться к новым задачам и демонстрировать подвижный интеллект. ARC состоит из визуальных головоломок, для решения которых необходимо понимание таких базовых концепций, как объекты, границы и пространственные отношения. В отличие от людей, которые интуитивно справляются с задачами ARC после нескольких демонстраций, современные ИИ-модели сталкиваются с серьезными трудностями. ARC признан одной из наиболее сложных метрик для измерения уровня развития искусственного интеллекта. Его невозможно обмануть, обучая модели на миллионах примеров в надежде охватить все возможные комбинации головоломок.

Тест включает общедоступные обучающий (400 простых примеров) и оценочный (400 более сложных головоломок) наборы для проверки обобщающей способности ИИ. В ARC-AGI используются закрытые и полузакрытые тестовые наборы по 100 головоломок каждый, недоступные публично, для предотвращения утечки данных и «подгонки» решений. Во избежание решения задач полным перебором действуют ограничения на вычислительные ресурсы.

o1-preview и o1 набрали максимум 32% на ARC-AGI. Другой метод, разработанный исследователем Джереми Берманом, использовал гибридный подход, сочетая Claude 3.5 Sonnet с генетическими алгоритмами и интерпретатором кода, достигнув 53%. Это был наивысший результат до o3. Создатель ARC Франсуа Шолле в своем блоге описал производительность o3 как «поразительный и важный качественный сдвиг в возможностях ИИ, демонстрирующий беспрецедентную для моделей семейства GPT способность к адаптации к новым задачам».

Простое увеличение вычислительной мощности предыдущих поколений моделей не привело бы к достижению таких показателей. Для сравнения: прогресс от 0% у GPT-3 в 2020 году до 5% у GPT-4o в начале 2024 года занял четыре года.

Производительность o3 на ARC-AGI достигается высокой ценой. В конфигурации с низкими вычислительными затратами решение каждой головоломки обходится модели в $17-20 и 33 млн токенов. В режиме с максимальной вычислительной мощностью потребление ресурсов возрастает в 172 раза и исчисляется миллиардами токенов на задачу. Однако по мере снижения стоимости вычислений можно ожидать, что эти цифры станут более приемлемыми.

Ключом к решению новых задач ученые считают «синтез программ»: способность системы разрабатывать и комбинировать небольшие программы для решения как узких, так и сложных задач.

К сожалению, мало известно о том, как o3 работает «под капотом», и здесь мнения ученых расходятся. Шолле предполагает, что o3 использует разновидность синтеза программ, который применяет рассуждения по цепочке (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и совершенствует решения по мере генерации. Другие исследователи, например Натан Ламберт из Института искусственного интеллекта Аллена, предполагают, что «o1 и o3 могут быть всего лишь результатами прямого применения одной и той же языковой модели». В день анонса o3 сотрудник OpenAI Нат МакЭлис написал в X, что o1 — это «просто большая языковая модель, обученная с использованием обучения с подкреплением. o3 же основана на дальнейшем масштабировании этого метода по сравнению с o1».

Из-за названия некоторые приравнивают ARC-AGI к достижению общего искусственного интеллекта (AGI). Однако Шолле подчеркивает, что ARC-AGI нельзя считать лакмусовой бумажкой для AGI. Более того, o3 по-прежнему не справляется с некоторыми очень простыми задачами, что указывает на фундаментальные различия с человеческим интеллектом. o3 не может самостоятельно изучать эти навыки и полагается на внешние верификаторы во время вывода и на цепочки рассуждений, маркированные человеком, во время обучения. Шолле и его команда разрабатывают новый сложный тест, который, вероятно, снизит результаты o3 до менее 30% (даже при больших вычислительных затратах), в то время как люди решают 95% таких задач без подготовки.

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Волонтёры Победы поздравили участников СВО с Новым годом

Президент Ирана 17 января подпишет в Москве стратегическое соглашение с Россией

Стало известно о тайном разводе и младших детях Сергея Боярского

Путин назвал себя уравновешенным человеком

Музыкальные новости

Bigpot.news

Квоты, вузы и безопасность. О чем говорили на встрече Путин и Рахмон

Дина Санданова стала лауреатом первой степени Международного конкурса вокалистов в Монголии

ЦБ будет следить за денежными переводами россиян

Заседание оперативного штаба состоялось в Управлении Росгвардии по Тюменской области

Новости России

29ru.net

Оркестр Росгвардии представил оперу «Алеша» в Москве

12 самолетов вылетели из Нижнего Новгорода в Москву

В Москве водитель автомобиля Lexus погиб в ДТП в Лефортовском тоннеле

Путин назвал себя уравновешенным человеком

Экология в России и мире

Life24.pro

Драгоценный рейтинг городов: «585*ЗОЛОТОЙ» присудила городам драгоценные статусы по итогам 2024 года

Суперзвезды НБА: как баскетболисты превращают спорт в миллиарды

Отечественные грузовые шины прошли испытания в рамках проекта Баха «Холмы России»

Создании ИИ клипа. Создание клипа с помощью нейросети.

Спорт в России и мире

News.tennis

ATP опубликовала окончательный рейтинг теннисистов по призовым, заработанным в 2024 году

Драму Елены Рыбакиной назвали главным шоком года

Соболенко и Бордиловская разделили звание лучшей спортсменки по версии НОК

Двукратного чемпиона «Больших шлемов» в паре Перселла временно отстранили за употребление допинга

Moscow.media

News24.pro

Посол Джалали: президент Ирана Пезешкиан планирует посетить Москву 17 января

Специалист Дехтярь рекомендовала бронировать отели заранее

В Москве водитель автомобиля Lexus погиб в ДТП в Лефортовском тоннеле

Оркестр Росгвардии представил оперу «Алеша» в Москве

Читайте на 123ru.net

Интернет

Фоторепортажи

Происшествия

Вопросы - ответы

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Волонтёры Победы поздравили участников СВО с Новым годом

Президент Ирана 17 января подпишет в Москве стратегическое соглашение с Россией

Стало известно о тайном разводе и младших детях Сергея Боярского

Путин назвал себя уравновешенным человеком

Квоты, вузы и безопасность. О чем говорили на встрече Путин и Рахмон

Дина Санданова стала лауреатом первой степени Международного конкурса вокалистов в Монголии

ЦБ будет следить за денежными переводами россиян

Заседание оперативного штаба состоялось в Управлении Росгвардии по Тюменской области

Оркестр Росгвардии представил оперу «Алеша» в Москве

12 самолетов вылетели из Нижнего Новгорода в Москву

В Москве водитель автомобиля Lexus погиб в ДТП в Лефортовском тоннеле

Путин назвал себя уравновешенным человеком

Драгоценный рейтинг городов: «585*ЗОЛОТОЙ» присудила городам драгоценные статусы по итогам 2024 года

Суперзвезды НБА: как баскетболисты превращают спорт в миллиарды

Отечественные грузовые шины прошли испытания в рамках проекта Баха «Холмы России»

Создании ИИ клипа. Создание клипа с помощью нейросети.

ATP опубликовала окончательный рейтинг теннисистов по призовым, заработанным в 2024 году

Драму Елены Рыбакиной назвали главным шоком года

Соболенко и Бордиловская разделили звание лучшей спортсменки по версии НОК

Двукратного чемпиона «Больших шлемов» в паре Перселла временно отстранили за употребление допинга

Хулиганская выходка жителя Орловской области обернулась реальным сроком

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ

• Dusil Photography • https://dusil.org

Более 230 работодателей Москвы и Московской области получили субсидии за трудоустройство новых сотрудников по программе субсидирования найма

Топ новостей на этот час

Около 360 тонн картофеля собрали в Подмосковье в ходе уборочной кампании 2024 г

Стало известно о тайном разводе и младших детях Сергея Боярского

988 детей-сирот Подмосковья получили жилье в этом году

Посол Джалали: президент Ирана Пезешкиан планирует посетить Москву 17 января