Бенчмарк ARC-AGI проверяет способность системы ИИ адаптироваться к новым задачам и демонстрировать подвижный интеллект. ARC состоит из визуальных головоломок, для решения которых необходимо понимание таких базовых концепций, как объекты, границы и пространственные отношения. В отличие от людей, которые интуитивно справляются с задачами ARC после нескольких демонстраций, современные ИИ-модели сталкиваются с серьезными трудностями. ARC признан одной из наиболее сложных метрик для измерения уровня развития искусственного интеллекта. Его невозможно обмануть, обучая модели на миллионах примеров в надежде охватить все возможные комбинации головоломок.
Тест включает общедоступные обучающий (400 простых примеров) и оценочный (400 более сложных головоломок) наборы для проверки обобщающей способности ИИ. В ARC-AGI используются закрытые и полузакрытые тестовые наборы по 100 головоломок каждый, недоступные публично, для предотвращения утечки данных и «подгонки» решений. Во избежание решения задач полным перебором действуют ограничения на вычислительные ресурсы.
o1-preview и o1 набрали максимум 32% на ARC-AGI. Другой метод, разработанный исследователем Джереми Берманом, использовал гибридный подход, сочетая Claude 3.5 Sonnet с генетическими алгоритмами и интерпретатором кода, достигнув 53%. Это был наивысший результат до o3. Создатель ARC Франсуа Шолле в своем блоге описал производительность o3 как «поразительный и важный качественный сдвиг в возможностях ИИ, демонстрирующий беспрецедентную для моделей семейства GPT способность к адаптации к новым задачам».
Простое увеличение вычислительной мощности предыдущих поколений моделей не привело бы к достижению таких показателей. Для сравнения: прогресс от 0% у GPT-3 в 2020 году до 5% у GPT-4o в начале 2024 года занял четыре года.
Производительность o3 на ARC-AGI достигается высокой ценой. В конфигурации с низкими вычислительными затратами решение каждой головоломки обходится модели в $17-20 и 33 млн токенов. В режиме с максимальной вычислительной мощностью потребление ресурсов возрастает в 172 раза и исчисляется миллиардами токенов на задачу. Однако по мере снижения стоимости вычислений можно ожидать, что эти цифры станут более приемлемыми.
Ключом к решению новых задач ученые считают «синтез программ»: способность системы разрабатывать и комбинировать небольшие программы для решения как узких, так и сложных задач.
К сожалению, мало известно о том, как o3 работает «под капотом», и здесь мнения ученых расходятся. Шолле предполагает, что o3 использует разновидность синтеза программ, который применяет рассуждения по цепочке (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и совершенствует решения по мере генерации. Другие исследователи, например Натан Ламберт из Института искусственного интеллекта Аллена, предполагают, что «o1 и o3 могут быть всего лишь результатами прямого применения одной и той же языковой модели». В день анонса o3 сотрудник OpenAI Нат МакЭлис написал в X, что o1 — это «просто большая языковая модель, обученная с использованием обучения с подкреплением. o3 же основана на дальнейшем масштабировании этого метода по сравнению с o1».
Из-за названия некоторые приравнивают ARC-AGI к достижению общего искусственного интеллекта (AGI). Однако Шолле подчеркивает, что ARC-AGI нельзя считать лакмусовой бумажкой для AGI. Более того, o3 по-прежнему не справляется с некоторыми очень простыми задачами, что указывает на фундаментальные различия с человеческим интеллектом. o3 не может самостоятельно изучать эти навыки и полагается на внешние верификаторы во время вывода и на цепочки рассуждений, маркированные человеком, во время обучения. Шолле и его команда разрабатывают новый сложный тест, который, вероятно, снизит результаты o3 до менее 30% (даже при больших вычислительных затратах), в то время как люди решают 95% таких задач без подготовки.