Модель OpenAI o3 продемонстрировала способности к адаптации и рассуждению

26.12.2024 11:46

«iXBT.com»

Новая модель OpenAI, o3, достигла беспрецедентного успеха, набрав 75,7% в сложном тесте ARC-AGI в стандартных вычислительных условиях, а в высокопроизводительной версии — 87,5%. Этот результат удивил исследовательское сообщество ИИ, поскольку тест ARC-AGI основан на корпусе абстрактного мышления (Abstract Reasoning Corpus), который проверяет способность системы ИИ адаптироваться к новым задачам и демонстрировать «гибкий интеллект». Тест ARC состоит из набора визуальных головоломок, требующих понимания базовых концепций, таких как объекты, границы и пространственные отношения. Хотя люди могут легко решить эти головоломки, нынешние системы ИИ испытывают трудности. ARC долгое время считался одной из самых сложных мер оценки ИИ.

Тест ARC-AGI включает публичные тренировочные и оценочные наборы данных, а также частные и получастные тестовые наборы, которые не разглашаются публично. Это гарантирует, что системы ИИ не могут быть «обмануты» путём обучения на миллионах примеров в надежде охватить все возможные комбинации головоломок. Кроме того, соревнование устанавливает ограничения на объём вычислений, которые участники могут использовать, чтобы гарантировать, что головоломки не решаются методом «грубой силы».

Источник: DALL-E

Ранее модели o1-preview и o1 достигли максимального результата в 32% в тесте ARC-AGI. Другой метод, разработанный исследователем Джереми Берманом, использовал гибридный подход, сочетающий Claude 3.5 Sonnet с генетическими алгоритмами и интерпретатором кода, чтобы достичь 53%, что было самым высоким результатом до o3.

Франсуа Шолле, создатель ARC, описал результаты o3 как «удивительный и важный скачок в возможностях ИИ, демонстрирующий способность адаптации к новым задачам, никогда ранее не наблюдаемую в моделях семейства GPT». Он также отметил, что использование большего объёма вычислений на предыдущих поколениях моделей не могло привести к таким результатам.

Однако успех o3 в тесте ARC-AGI достигается за счёт значительных затрат. В низкопроизводительной конфигурации модель тратит от $17 до $20 и 33 миллиона токенов на решение каждой головоломки, в то время как в высокопроизводительной конфигурации модель использует примерно в 172 раза больше вычислительных ресурсов и миллиарды токенов на каждую задачу.

Ключом к решению новых задач, по мнению Шолле и других учёных, является «синтез программ». «Мыслящая» система должна быть способна разрабатывать небольшие программы для решения очень специфических проблем, а затем объединять эти программы для решения более сложных задач. Классические языковые модели поглотили много знаний и содержат богатый набор внутренних программ, но им не хватает композиционности, что мешает решать головоломки, выходящие за рамки обучающей выборки.

Пример головоломки ARC. Источник: arcprize.org

При этом, информации о том, как работает o3, очень мало, и здесь мнения учёных расходятся. Шолле предполагает, что o3 использует тип синтеза программ, который использует рассуждения с цепочкой мыслей (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и уточняет решения по мере генерации токенов моделью. Это похоже на то, что модели рассуждений с открытым исходным кодом изучали в последние несколько месяцев.

Другие учёные, такие как Натан Ламберт из Института искусственного интеллекта Аллена, предполагают, что «o1 и o3 могут фактически быть просто прямыми проходами из одной языковой модели». В день объявления o3 Нат МакАлис, исследователь из OpenAI, написал в X, что o1 был «просто LLM, обученным с помощью RL. o3 работает на основе дальнейшего масштабирования RL за пределами o1».

В тот же день Денни Чжоу из команды рассуждений Google DeepMind назвал комбинацию поиска и текущих подходов к обучению с подкреплением «тупиком». «Самое прекрасное в рассуждениях LLM заключается в том, что процесс мышления генерируется авторегрессивным способом, а не зависит от поиска (например, mcts) в пространстве генерации, будь то хорошо настроенная модель или тщательно разработанная подсказка», — написал он в X.

Хотя детали того, как o3 рассуждает, могут показаться незначительными по сравнению с прорывом в ARC-AGI, они могут очень хорошо определить следующий сдвиг парадигмы в обучении LLM-моделей. В настоящее время ведутся споры о том, достигли ли законы масштабирования LLM путём обучения данным и вычислений предела. То, зависит ли масштабирование во время тестирования от лучших обучающих данных или других архитектур вывода, может определить следующий шаг в развитии.

Производительность различных моделей на ARC-AGI. Источник: arcprize.org

Название ARC-AGI может вводить в заблуждение, — некоторые приравняли его к решению AGI. Однако Шолле подчёркивает, что «ARC-AGI — это не лакмусовая бумажка для AGI. Пройти ARC-AGI не означает достижения AGI, и, фактически, я не думаю, что o3 уже является AGI. o3 по-прежнему не справляется с некоторыми очень простыми задачами, что указывает на фундаментальные различия с человеческим интеллектом».

Более того, он отмечает, что o3 не может автономно изучать эти навыки и полагается на внешние верификаторы во время вывода и рассуждения, помеченные человеком, во время обучения.

Другие учёные указали на недостатки результатов. Например, модель была тонко настроена на тренировочном наборе ARC для достижения результатов. «Модели не нужно много специфической обученности, будь то в самом домене или в каждой конкретной задаче», — пишет учёный Мелани Митчелл.

Чтобы проверить, обладают ли эти модели тем видом абстракции и рассуждений, для измерения которых был создан тест ARC, Митчелл предлагает «посмотреть, могут ли эти системы адаптироваться к вариантам конкретных задач или к задачам рассуждений, использующим те же концепции, но в других доменах, чем ARC.

Шолле и его команда в настоящее время работают над новым тестом, который является сложным для o3, потенциально снижая его оценку до менее 30% даже при высоком вычислительном бюджете. Между тем, люди смогут решить 95% головоломок без какого-либо обучения.

Глава Балашихи поздравил жителей с наступающим Новым годом

Глава Крыма Аксенов: цены на бензин Аи-95 снизятся в регионе с 15 января

Почти 2 тыс птиц спасли от мазута в Краснодарском крае

В Москве открыли три пешеходных перехода

Модель OpenAI o3 продемонстрировала способности к адаптации и рассуждению

Читайте на 123ru.net

Религия

Авто Новости

Путешествия

Здоровье

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Юрий Подоляка в свежей сводке от 01.01.2025 сообщил о том, ВС РФ закончили освобождение Курахово

Главные победы России: чего достигла страна за минувший 2024 год

Почему иностранцы празднуют Новый год в России? Потому, что боятся замёрзнуть в Рождество!

Путин наградил многодетных матерей и семьи из 19 регионов России

«Благодаря Вам об этой песне узнали все»: Филипп Киркоров поздравил KAYA в шоу «Звездные танцы»

Более 350 детей работников Приморского филиала ФГУП "УВО Минтранса России" получили сладкие новогодние подарки

Росгвардия приглашает на службу

В Новый год умерла актриса из «Служебного романа» Инна Выходцева

Почему иностранцы празднуют Новый год в России? Потому, что боятся замёрзнуть в Рождество!

Что изменится с 1 января 2025 года в России

Что такое паводок, причины возникновения и чем он опасен

Алкоголь и баня – коктейль смерти? Врач Кутушов объясняет, почему это опасно

Рэпер Моргенштерн возьмет перерыв в карьере ради лечения

Почва стала настолько плотной, что сложно даже воткнуть лопату? Есть 2 интересных варианта решения проблемы

Новак Джокович вышел во второй круг на турнире ATP-250 в Брисбене

Кудерметова проиграла Стирнс на старте турнира WTA в Брисбене

Брисбен (ATP). 2-й круг. Димитров поборется с Вукичем, Лехечка – с Нишиокой

Юлия Путинцева обыграла американку и ждет Арину Соболенко

Яркий финал года- турнир ФОНКОД 2024 стал самым знаковым событием в спортивном программировании

Арестован действующий глава отдела управления Росприроднадзора по Москве

Америка назвала своего главного врага! Кого сегодня боятся штаты?

Когда АвтоВАЗ повысит цены на автомобили? Объявлена точная дата

Топ новостей на этот час

Человек погиб при пожаре в квартире на юге Москвы

«Достатка и счастья»: SHAMAN поздравил россиян с Новым 2025 годом

Потребители с «экстремистcкой направленностью»: «Самолет» возмущен тем, что люди возмущаются

Президент РФ Путин поздравил граждан с Новым годом из Кремля