Добавить новость

Земельный надзор Росреестра ответил на вопросы ...

Дирижер: к классической музыке детей необходимо приобщать как можно раньше

Мужчина изнасиловал 13-летнюю дочь сожительницы в подмосковном Серпухове

В предновогодние выходные в кинопарке «Москино» снова покажут «Соборную площадь»



Новости сегодня

Новости от TheMoneytizer

Модель о3 от OpenAI набрала рекордные 87% в сложнейшем тесте

Бенчмарк ARC-AGI проверяет способность системы ИИ адаптироваться к новым задачам и демонстрировать подвижный интеллект. ARC состоит из визуальных головоломок, для решения которых необходимо понимание таких базовых концепций, как объекты, границы и пространственные отношения. В отличие от людей, которые интуитивно справляются с задачами ARC после нескольких демонстраций, современные ИИ-модели сталкиваются с серьезными трудностями. ARC признан одной из наиболее сложных метрик для измерения уровня развития искусственного интеллекта. Его невозможно обмануть, обучая модели на миллионах примеров в надежде охватить все возможные комбинации головоломок.

Тест включает общедоступные обучающий (400 простых примеров) и оценочный (400 более сложных головоломок) наборы для проверки обобщающей способности ИИ. В ARC-AGI используются закрытые и полузакрытые тестовые наборы по 100 головоломок каждый, недоступные публично, для предотвращения утечки данных и «подгонки» решений. Во избежание решения задач полным перебором действуют ограничения на вычислительные ресурсы.

o1-preview и o1 набрали максимум 32% на ARC-AGI. Другой метод, разработанный исследователем Джереми Берманом, использовал гибридный подход, сочетая Claude 3.5 Sonnet с генетическими алгоритмами и интерпретатором кода, достигнув 53%. Это был наивысший результат до o3. Создатель ARC Франсуа Шолле в своем блоге описал производительность o3 как «поразительный и важный качественный сдвиг в возможностях ИИ, демонстрирующий беспрецедентную для моделей семейства GPT способность к адаптации к новым задачам».

Простое увеличение вычислительной мощности предыдущих поколений моделей не привело бы к достижению таких показателей. Для сравнения: прогресс от 0% у GPT-3 в 2020 году до 5% у GPT-4o в начале 2024 года занял четыре года.

Производительность o3 на ARC-AGI достигается высокой ценой. В конфигурации с низкими вычислительными затратами решение каждой головоломки обходится модели в $17-20 и 33 млн токенов. В режиме с максимальной вычислительной мощностью потребление ресурсов возрастает в 172 раза и исчисляется миллиардами токенов на задачу. Однако по мере снижения стоимости вычислений можно ожидать, что эти цифры станут более приемлемыми.

Ключом к решению новых задач ученые считают «синтез программ»: способность системы разрабатывать и комбинировать небольшие программы для решения как узких, так и сложных задач.

К сожалению, мало известно о том, как o3 работает «под капотом», и здесь мнения ученых расходятся. Шолле предполагает, что o3 использует разновидность синтеза программ, который применяет рассуждения по цепочке (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и совершенствует решения по мере генерации. Другие исследователи, например Натан Ламберт из Института искусственного интеллекта Аллена, предполагают, что «o1 и o3 могут быть всего лишь результатами прямого применения одной и той же языковой модели». В день анонса o3 сотрудник OpenAI Нат МакЭлис написал в X, что o1 — это «просто большая языковая модель, обученная с использованием обучения с подкреплением. o3 же основана на дальнейшем масштабировании этого метода по сравнению с o1».

Из-за названия некоторые приравнивают ARC-AGI к достижению общего искусственного интеллекта (AGI). Однако Шолле подчеркивает, что ARC-AGI нельзя считать лакмусовой бумажкой для AGI. Более того, o3 по-прежнему не справляется с некоторыми очень простыми задачами, что указывает на фундаментальные различия с человеческим интеллектом. o3 не может самостоятельно изучать эти навыки и полагается на внешние верификаторы во время вывода и на цепочки рассуждений, маркированные человеком, во время обучения. Шолле и его команда разрабатывают новый сложный тест, который, вероятно, снизит результаты o3 до менее 30% (даже при больших вычислительных затратах), в то время как люди решают 95% таких задач без подготовки.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Мужчина изнасиловал 13-летнюю дочь сожительницы в подмосковном Серпухове

Дирижер: к классической музыке детей необходимо приобщать как можно раньше

В Госдуме рассмотрят вопрос чрезмерной нагрузки на школьников

В предновогодние выходные в кинопарке «Москино» снова покажут «Соборную площадь»

Музыкальные новости

Прогноз погоды в Крыму на четверг

На Ямале детей росгвардейцев – участников СВО поздравили представители Сбербанка России

Шопен при свечах 17 января в Яани Кирик

СЛД «Сольвычегодск» прошло ресертификацию системы менеджмента качества (СМК)

Новости России

Земельный надзор Росреестра ответил на вопросы ...

Минтранс прорабатывает меры по ликвидации последствий аварии в Керченском проливе

В Госдуме рассмотрят вопрос чрезмерной нагрузки на школьников

Мужчина изнасиловал 13-летнюю дочь сожительницы в подмосковном Серпухове

Экология в России и мире

Подкаст "Женское дело. Лаборатория успеха". В гостях Евгения Толстикова

Сотрудники Marins Park Hotel Ростов провели интерактивную экскурсию для подопечных АНО «Белый Ангел»

СЛД «Сольвычегодск» прошло ресертификацию системы менеджмента качества (СМК)

Суперзвезды НБА: как баскетболисты превращают спорт в миллиарды

Спорт в России и мире

Путинцева откровенно высказалась о России

Елена Рыбакина за час с лишним разобралась с соперницей

Юлия Путинцева раскрыла правду про отношения с Еленой Рыбакиной

По стопам Синнера и Алькараса: молодёжный Итоговый турнир ATP выиграл 18-летний бразилец

Moscow.media

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Более 230 работодателей Москвы и Московской области получили субсидии за трудоустройство новых сотрудников по программе субсидирования найма

Утро перед ненастьем....

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса











Топ новостей на этот час

Rss.plus






Минтранс прорабатывает меры по ликвидации последствий аварии в Керченском проливе

Дирижер: к классической музыке детей необходимо приобщать как можно раньше

Стартовала модернизация крупного газорегуляторного пункта на юго-западе Москвы

В предновогодние выходные в кинопарке «Москино» снова покажут «Соборную площадь»