Добавить новость

Посол Джалали: президент Ирана Пезешкиан планирует посетить Москву 17 января

Специалист Дехтярь рекомендовала бронировать отели заранее

В Москве водитель автомобиля Lexus погиб в ДТП в Лефортовском тоннеле

Оркестр Росгвардии представил оперу «Алеша» в Москве

Блог сайта «Хайтек+»


Новости сегодня

Новости от TheMoneytizer

Модель о3 от OpenAI набрала рекордные 87% в сложнейшем тесте

Бенчмарк ARC-AGI проверяет способность системы ИИ адаптироваться к новым задачам и демонстрировать подвижный интеллект. ARC состоит из визуальных головоломок, для решения которых необходимо понимание таких базовых концепций, как объекты, границы и пространственные отношения. В отличие от людей, которые интуитивно справляются с задачами ARC после нескольких демонстраций, современные ИИ-модели сталкиваются с серьезными трудностями. ARC признан одной из наиболее сложных метрик для измерения уровня развития искусственного интеллекта. Его невозможно обмануть, обучая модели на миллионах примеров в надежде охватить все возможные комбинации головоломок.

Тест включает общедоступные обучающий (400 простых примеров) и оценочный (400 более сложных головоломок) наборы для проверки обобщающей способности ИИ. В ARC-AGI используются закрытые и полузакрытые тестовые наборы по 100 головоломок каждый, недоступные публично, для предотвращения утечки данных и «подгонки» решений. Во избежание решения задач полным перебором действуют ограничения на вычислительные ресурсы.

o1-preview и o1 набрали максимум 32% на ARC-AGI. Другой метод, разработанный исследователем Джереми Берманом, использовал гибридный подход, сочетая Claude 3.5 Sonnet с генетическими алгоритмами и интерпретатором кода, достигнув 53%. Это был наивысший результат до o3. Создатель ARC Франсуа Шолле в своем блоге описал производительность o3 как «поразительный и важный качественный сдвиг в возможностях ИИ, демонстрирующий беспрецедентную для моделей семейства GPT способность к адаптации к новым задачам».

Простое увеличение вычислительной мощности предыдущих поколений моделей не привело бы к достижению таких показателей. Для сравнения: прогресс от 0% у GPT-3 в 2020 году до 5% у GPT-4o в начале 2024 года занял четыре года.

Производительность o3 на ARC-AGI достигается высокой ценой. В конфигурации с низкими вычислительными затратами решение каждой головоломки обходится модели в $17-20 и 33 млн токенов. В режиме с максимальной вычислительной мощностью потребление ресурсов возрастает в 172 раза и исчисляется миллиардами токенов на задачу. Однако по мере снижения стоимости вычислений можно ожидать, что эти цифры станут более приемлемыми.

Ключом к решению новых задач ученые считают «синтез программ»: способность системы разрабатывать и комбинировать небольшие программы для решения как узких, так и сложных задач.

К сожалению, мало известно о том, как o3 работает «под капотом», и здесь мнения ученых расходятся. Шолле предполагает, что o3 использует разновидность синтеза программ, который применяет рассуждения по цепочке (CoT) и механизм поиска в сочетании с моделью вознаграждения, которая оценивает и совершенствует решения по мере генерации. Другие исследователи, например Натан Ламберт из Института искусственного интеллекта Аллена, предполагают, что «o1 и o3 могут быть всего лишь результатами прямого применения одной и той же языковой модели». В день анонса o3 сотрудник OpenAI Нат МакЭлис написал в X, что o1 — это «просто большая языковая модель, обученная с использованием обучения с подкреплением. o3 же основана на дальнейшем масштабировании этого метода по сравнению с o1».

Из-за названия некоторые приравнивают ARC-AGI к достижению общего искусственного интеллекта (AGI). Однако Шолле подчеркивает, что ARC-AGI нельзя считать лакмусовой бумажкой для AGI. Более того, o3 по-прежнему не справляется с некоторыми очень простыми задачами, что указывает на фундаментальные различия с человеческим интеллектом. o3 не может самостоятельно изучать эти навыки и полагается на внешние верификаторы во время вывода и на цепочки рассуждений, маркированные человеком, во время обучения. Шолле и его команда разрабатывают новый сложный тест, который, вероятно, снизит результаты o3 до менее 30% (даже при больших вычислительных затратах), в то время как люди решают 95% таких задач без подготовки.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Волонтёры Победы поздравили участников СВО с Новым годом

Президент Ирана 17 января подпишет в Москве стратегическое соглашение с Россией

Стало известно о тайном разводе и младших детях Сергея Боярского

Путин назвал себя уравновешенным человеком

Музыкальные новости

Квоты, вузы и безопасность. О чем говорили на встрече Путин и Рахмон

Дина Санданова стала лауреатом первой степени Международного конкурса вокалистов в Монголии

ЦБ будет следить за денежными переводами россиян

Заседание оперативного штаба состоялось в Управлении Росгвардии по Тюменской области

Новости России

Оркестр Росгвардии представил оперу «Алеша» в Москве

12 самолетов вылетели из Нижнего Новгорода в Москву

В Москве водитель автомобиля Lexus погиб в ДТП в Лефортовском тоннеле

Путин назвал себя уравновешенным человеком

Экология в России и мире

Драгоценный рейтинг городов: «585*ЗОЛОТОЙ» присудила городам драгоценные статусы по итогам 2024 года

Суперзвезды НБА: как баскетболисты превращают спорт в миллиарды

Отечественные грузовые шины прошли испытания в рамках проекта Баха «Холмы России»

Создании ИИ клипа. Создание клипа с помощью нейросети.

Спорт в России и мире

ATP опубликовала окончательный рейтинг теннисистов по призовым, заработанным в 2024 году

Драму Елены Рыбакиной назвали главным шоком года

Соболенко и Бордиловская разделили звание лучшей спортсменки по версии НОК

Двукратного чемпиона «Больших шлемов» в паре Перселла временно отстранили за употребление допинга

Moscow.media

Хулиганская выходка жителя Орловской области обернулась реальным сроком

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ

• Dusil Photography • https://dusil.org

Более 230 работодателей Москвы и Московской области получили субсидии за трудоустройство новых сотрудников по программе субсидирования найма











Топ новостей на этот час

Rss.plus






Около 360 тонн картофеля собрали в Подмосковье в ходе уборочной кампании 2024 г

Стало известно о тайном разводе и младших детях Сергея Боярского

988 детей-сирот Подмосковья получили жилье в этом году

Посол Джалали: президент Ирана Пезешкиан планирует посетить Москву 17 января