Добавить новость

Глава Балашихи поздравил жителей с наступающим Новым годом

Глава Крыма Аксенов: цены на бензин Аи-95 снизятся в регионе с 15 января

Почти 2 тыс птиц спасли от мазута в Краснодарском крае

В Москве открыли три пешеходных перехода





Новости сегодня

Новости от TheMoneytizer

Модель OpenAI o3 продемонстрировала способности к адаптации и рассуждению

Новая модель OpenAI, o3, достигла беспрецедентного успеха, набрав 75,7% в сложном тесте ARC-AGI в стандартных вычислительных условиях, а в высокопроизводительной версии — 87,5%. Этот результат удивил исследовательское сообщество ИИ, поскольку тест ARC-AGI основан на корпусе абстрактного мышления (Abstract Reasoning Corpus), который проверяет способность системы ИИ адаптироваться к новым задачам и демонстрировать «гибкий интеллект». Тест ARC состоит из набора визуальных головоломок, требующих понимания базовых концепций, таких как объекты, границы и пространственные отношения. Хотя люди могут легко решить эти головоломки, нынешние системы ИИ испытывают трудности. ARC долгое время считался одной из самых сложных мер оценки ИИ.

Тест ARC-AGI включает публичные тренировочные и оценочные наборы данных, а также частные и получастные тестовые наборы, которые не разглашаются публично. Это гарантирует, что системы ИИ не могут быть «обмануты» путём обучения на миллионах примеров в надежде охватить все возможные комбинации головоломок. Кроме того, соревнование устанавливает ограничения на объём вычислений, которые участники могут использовать, чтобы гарантировать, что головоломки не решаются методом «грубой силы».

Источник: DALL-E

Ранее модели o1-preview и o1 достигли максимального результата в 32% в тесте ARC-AGI. Другой метод, разработанный исследователем Джереми Берманом, использовал гибридный подход, сочетающий Claude 3.5 Sonnet с генетическими алгоритмами и интерпретатором кода, чтобы достичь 53%, что было самым высоким результатом до o3.

Франсуа Шолле, создатель ARC, описал результаты o3 как «удивительный и важный скачок в возможностях ИИ, демонстрирующий способность адаптации к новым задачам, никогда ранее не наблюдаемую в моделях семейства GPT». Он также отметил, что использование большего объёма вычислений на предыдущих поколениях моделей не могло привести к таким результатам.

Однако успех o3 в тесте ARC-AGI достигается за счёт значительных затрат. В низкопроизводительной конфигурации модель тратит от $17 до $20 и 33 миллиона токенов на решение каждой головоломки, в то время как в высокопроизводительной конфигурации модель использует примерно в 172 раза больше вычислительных ресурсов и миллиарды токенов на каждую задачу.

Ключом к решению новых задач, по мнению Шолле и других учёных, является «синтез программ». «Мыслящая» система должна быть способна разрабатывать небольшие программы для решения очень специфических проблем, а затем объединять эти программы для решения более сложных задач. Классические языковые модели поглотили много знаний и содержат богатый набор внутренних программ, но им не хватает композиционности, что мешает решать головоломки, выходящие за рамки обучающей выборки.

Пример головоломки ARC. Источник: arcprize.org

При этом, информации о том, как работает o3, очень мало, и здесь мнения учёных расходятся. Шолле предполагает, что o3 использует тип синтеза программ, который использует рассуждения с цепочкой мыслей (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и уточняет решения по мере генерации токенов моделью. Это похоже на то, что модели рассуждений с открытым исходным кодом изучали в последние несколько месяцев.

Другие учёные, такие как Натан Ламберт из Института искусственного интеллекта Аллена, предполагают, что «o1 и o3 могут фактически быть просто прямыми проходами из одной языковой модели». В день объявления o3 Нат МакАлис, исследователь из OpenAI, написал в X, что o1 был «просто LLM, обученным с помощью RL. o3 работает на основе дальнейшего масштабирования RL за пределами o1».

В тот же день Денни Чжоу из команды рассуждений Google DeepMind назвал комбинацию поиска и текущих подходов к обучению с подкреплением «тупиком». «Самое прекрасное в рассуждениях LLM заключается в том, что процесс мышления генерируется авторегрессивным способом, а не зависит от поиска (например, mcts) в пространстве генерации, будь то хорошо настроенная модель или тщательно разработанная подсказка», — написал он в X.

Хотя детали того, как o3 рассуждает, могут показаться незначительными по сравнению с прорывом в ARC-AGI, они могут очень хорошо определить следующий сдвиг парадигмы в обучении LLM-моделей. В настоящее время ведутся споры о том, достигли ли законы масштабирования LLM путём обучения данным и вычислений предела. То, зависит ли масштабирование во время тестирования от лучших обучающих данных или других архитектур вывода, может определить следующий шаг в развитии.

Производительность различных моделей на ARC-AGI. Источник: arcprize.org

Название ARC-AGI может вводить в заблуждение, — некоторые приравняли его к решению AGI. Однако Шолле подчёркивает, что «ARC-AGI — это не лакмусовая бумажка для AGI. Пройти ARC-AGI не означает достижения AGI, и, фактически, я не думаю, что o3 уже является AGI. o3 по-прежнему не справляется с некоторыми очень простыми задачами, что указывает на фундаментальные различия с человеческим интеллектом».

Более того, он отмечает, что o3 не может автономно изучать эти навыки и полагается на внешние верификаторы во время вывода и рассуждения, помеченные человеком, во время обучения.

Другие учёные указали на недостатки результатов. Например, модель была тонко настроена на тренировочном наборе ARC для достижения результатов. «Модели не нужно много специфической обученности, будь то в самом домене или в каждой конкретной задаче», — пишет учёный Мелани Митчелл.

Чтобы проверить, обладают ли эти модели тем видом абстракции и рассуждений, для измерения которых был создан тест ARC, Митчелл предлагает «посмотреть, могут ли эти системы адаптироваться к вариантам конкретных задач или к задачам рассуждений, использующим те же концепции, но в других доменах, чем ARC.

Шолле и его команда в настоящее время работают над новым тестом, который является сложным для o3, потенциально снижая его оценку до менее 30% даже при высоком вычислительном бюджете. Между тем, люди смогут решить 95% головоломок без какого-либо обучения.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Юрий Подоляка в свежей сводке от 01.01.2025 сообщил о том, ВС РФ закончили освобождение Курахово

Главные победы России: чего достигла страна за минувший 2024 год

Почему иностранцы празднуют Новый год в России? Потому, что боятся замёрзнуть в Рождество!

"ИИСУС ИЗ УСБ": КТО ПРОСЛУШИВАЕТ ЦРУ, МИ 6, МОССАД, ФБР, ВСЕХ? УЛУЧШИТЬ ПРОСЛУШКУ В ЦЕЛЯХ ВСЕОБЩЕЙ БЕЗОПАСНОСТИ. Новости. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Музыкальные новости

Путин наградил многодетных матерей и семьи из 19 регионов России

«Благодаря Вам об этой песне узнали все»: Филипп Киркоров поздравил KAYA в шоу «Звездные танцы»

Более 350 детей работников Приморского филиала ФГУП "УВО Минтранса России" получили сладкие новогодние подарки

Росгвардия приглашает на службу

Новости России

В Новый год умерла актриса из «Служебного романа» Инна Выходцева

"ИИСУС ИЗ УСБ": КТО ПРОСЛУШИВАЕТ ЦРУ, МИ 6, МОССАД, ФБР, ВСЕХ? УЛУЧШИТЬ ПРОСЛУШКУ В ЦЕЛЯХ ВСЕОБЩЕЙ БЕЗОПАСНОСТИ. Новости. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Почему иностранцы празднуют Новый год в России? Потому, что боятся замёрзнуть в Рождество!

Что изменится с 1 января 2025 года в России

Экология в России и мире

Что такое паводок, причины возникновения и чем он опасен

Алкоголь и баня – коктейль смерти? Врач Кутушов объясняет, почему это опасно

Рэпер Моргенштерн возьмет перерыв в карьере ради лечения

Почва стала настолько плотной, что сложно даже воткнуть лопату? Есть 2 интересных варианта решения проблемы

Спорт в России и мире

Новак Джокович вышел во второй круг на турнире ATP-250 в Брисбене

Кудерметова проиграла Стирнс на старте турнира WTA в Брисбене

Брисбен (ATP). 2-й круг. Димитров поборется с Вукичем, Лехечка – с Нишиокой

Юлия Путинцева обыграла американку и ждет Арину Соболенко

Moscow.media

Яркий финал года- турнир ФОНКОД 2024 стал самым знаковым событием в спортивном программировании

Арестован действующий глава отдела управления Росприроднадзора по Москве

Америка назвала своего главного врага! Кого сегодня боятся штаты?

Когда АвтоВАЗ повысит цены на автомобили? Объявлена точная дата











Топ новостей на этот час

Rss.plus






Человек погиб при пожаре в квартире на юге Москвы

«Достатка и счастья»: SHAMAN поздравил россиян с Новым 2025 годом

Потребители с «экстремистcкой направленностью»: «Самолет» возмущен тем, что люди возмущаются

Президент РФ Путин поздравил граждан с Новым годом из Кремля