Добавить новость

Эксперт Лебединская: в Москве цены на упаковку подарков начинаются от 300 руб

В столице Коми закрыли аэропорт

SKRIKSI: Трейлер уникального кибер-фэнтези о сознании и технологиях будущего

Более 80 незаконных построек демонтировали в районе Ростокино

Блог сайта «Хайтек+»


Новости сегодня

Новости от TheMoneytizer

Модель о3 от OpenAI набрала рекордные 87% в сложнейшем тесте

Бенчмарк ARC-AGI проверяет способность системы ИИ адаптироваться к новым задачам и демонстрировать подвижный интеллект. ARC состоит из визуальных головоломок, для решения которых необходимо понимание таких базовых концепций, как объекты, границы и пространственные отношения. В отличие от людей, которые интуитивно справляются с задачами ARC после нескольких демонстраций, современные ИИ-модели сталкиваются с серьезными трудностями. ARC признан одной из наиболее сложных метрик для измерения уровня развития искусственного интеллекта. Его невозможно обмануть, обучая модели на миллионах примеров в надежде охватить все возможные комбинации головоломок.

Тест включает общедоступные обучающий (400 простых примеров) и оценочный (400 более сложных головоломок) наборы для проверки обобщающей способности ИИ. В ARC-AGI используются закрытые и полузакрытые тестовые наборы по 100 головоломок каждый, недоступные публично, для предотвращения утечки данных и «подгонки» решений. Во избежание решения задач полным перебором действуют ограничения на вычислительные ресурсы.

o1-preview и o1 набрали максимум 32% на ARC-AGI. Другой метод, разработанный исследователем Джереми Берманом, использовал гибридный подход, сочетая Claude 3.5 Sonnet с генетическими алгоритмами и интерпретатором кода, достигнув 53%. Это был наивысший результат до o3. Создатель ARC Франсуа Шолле в своем блоге описал производительность o3 как «поразительный и важный качественный сдвиг в возможностях ИИ, демонстрирующий беспрецедентную для моделей семейства GPT способность к адаптации к новым задачам».

Простое увеличение вычислительной мощности предыдущих поколений моделей не привело бы к достижению таких показателей. Для сравнения: прогресс от 0% у GPT-3 в 2020 году до 5% у GPT-4o в начале 2024 года занял четыре года.

Производительность o3 на ARC-AGI достигается высокой ценой. В конфигурации с низкими вычислительными затратами решение каждой головоломки обходится модели в $17-20 и 33 млн токенов. В режиме с максимальной вычислительной мощностью потребление ресурсов возрастает в 172 раза и исчисляется миллиардами токенов на задачу. Однако по мере снижения стоимости вычислений можно ожидать, что эти цифры станут более приемлемыми.

Ключом к решению новых задач ученые считают «синтез программ»: способность системы разрабатывать и комбинировать небольшие программы для решения как узких, так и сложных задач.

К сожалению, мало известно о том, как o3 работает «под капотом», и здесь мнения ученых расходятся. Шолле предполагает, что o3 использует разновидность синтеза программ, который применяет рассуждения по цепочке (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и совершенствует решения по мере генерации. Другие исследователи, например Натан Ламберт из Института искусственного интеллекта Аллена, предполагают, что «o1 и o3 могут быть всего лишь результатами прямого применения одной и той же языковой модели». В день анонса o3 сотрудник OpenAI Нат МакЭлис написал в X, что o1 — это «просто большая языковая модель, обученная с использованием обучения с подкреплением. o3 же основана на дальнейшем масштабировании этого метода по сравнению с o1».

Из-за названия некоторые приравнивают ARC-AGI к достижению общего искусственного интеллекта (AGI). Однако Шолле подчеркивает, что ARC-AGI нельзя считать лакмусовой бумажкой для AGI. Более того, o3 по-прежнему не справляется с некоторыми очень простыми задачами, что указывает на фундаментальные различия с человеческим интеллектом. o3 не может самостоятельно изучать эти навыки и полагается на внешние верификаторы во время вывода и на цепочки рассуждений, маркированные человеком, во время обучения. Шолле и его команда разрабатывают новый сложный тест, который, вероятно, снизит результаты o3 до менее 30% (даже при больших вычислительных затратах), в то время как люди решают 95% таких задач без подготовки.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

ФСБ: Американец Спектор осужден за передачу Пентагону данных для генетического скрининга в России

Finam.ru. Эксперты рассказали, что ждет экономику России в 2025 году

SKRIKSI: Трейлер уникального кибер-фэнтези о сознании и технологиях будущего

Спортивный директор «Локо»: «Монтес отверг суперпредложение из Мексики, где ему вывалили в три раза больше нас»

Музыкальные новости

Митрофанов: «Официальные лица УЕФА прекрасно видят качественный уровень организации на турнирах в России»

В Московской области при силовой поддержке ОМОН 'Пересвет" Росгвардии задержаны подозреваемые в разбойном нападении на пенсионерку

Путин подвел итоги саммита СНГ и заседания ВЕЭС

«Россети Новосибирск» напомнили о правилах электробезопасности на праздниках

Новости России

В столице Коми закрыли аэропорт

ФСБ: Американец Спектор осужден за передачу Пентагону данных для генетического скрининга в России

Более 80 незаконных построек демонтировали в районе Ростокино

Эксперт Лебединская: в Москве цены на упаковку подарков начинаются от 300 руб

Экология в России и мире

Предприятия филиала «Северный» ООО «ЛокоТех-Сервис» подвели предварительные итоги работы в 2024 году.

Отечественные грузовые шины прошли испытания в рамках проекта Баха «Холмы России»

Актриса Фатеева рассказала о повлиявших на ее жизнь врачебных ошибках

«Закружимся в танце»: Анастасия Барашкова & SAMOEL выпустили совместную новинку

Спорт в России и мире

Юлия Путинцева раскрыла правду про отношения с Еленой Рыбакиной

Карлос Алькарас сыграет на турнире ATP-500 в Дохе, куда заявлены ещё шесть игроков топ-10

Матс Виландер: «В 2025-м Синнер выиграет больше «Шлемов», чем Алькарас. Мой очень, очень, очень смелый прогноз – один из них оформит календарный Большой шлем»

Симона Халеп снялась с Australian Open — 2025 из-за проблем со здоровьем

Moscow.media

Утро перед ненастьем....

Поздняя осень...

Предприятия филиала «Северный» ООО «ЛокоТех-Сервис» подвели предварительные итоги работы в 2024 году.

Пришла зима...











Топ новостей на этот час

Rss.plus






Врач назвала наименее опасный вид алкоголя

Эксперт Лебединская: в Москве цены на упаковку подарков начинаются от 300 руб

И вот она, нарядная: воронежские старожилы рассказали, как после войны город встречал Новый год

В столице Коми закрыли аэропорт