Добавить новость

Багреева: объем закупок столицы у региональных поставщиков превысил 285 млрд руб

ЦБ РФ выпустил монету к 125-летию МХТ им. Чехова

Перенос крупных госкомпаний из Москвы поспособствует росту региональных бюджетов

Конкурс фотографий «Зима в Подмосковье» стартовал в Ленинском округе



News in English


Новости сегодня

Новости от TheMoneytizer

FrontierMath Benchmark Exposes AI Struggles in Advanced Math

eWeek 

Artificial intelligence is proving its value for generating text, recognizing images, and automating processes, but AI systems are hitting walls when trying to solve advanced math reasoning challenges. A trailblazing new benchmark from research firm Epoch AI called FrontierMath found that even today’s most advanced AI systems, including GPT-4o and Gemini 1.5 Pro, solved less than 2 percent of the math reasoning challenges they faced—even after long hours of work.

Benchmarks are needed to understand and measure AI’s progress. According to Epoch AI’s product marketing, FrontierMath “can assess how well AI systems engage in complex scientific reasoning” because “mathematical problems can be rigorously and automatically verified,” unlike areas in which subjective judgment and expensive tests are used for evaluation.

How the Models Performed

Epoch AI provides sample problems that expert mathematicians spend hours solving—for example, testing Artin’s primitive root conjecture or finding the degree 19 polynomial. Current AI models were provided with “extensive support to maximize their performance” before undertaking advanced mathematical problems, including access to Python environments for testing and verification. However, that support wasn’t enough to prepare them.

“FrontierMath has proven exceptionally challenging for today’s AI systems,” Epoch AI reported.

The AI systems scored high on easier math benchmarks like GSM8K and MATH—above 90 percent—but scored around 2 percent on the advanced problems. All FrontierMath problems are previously unpublished to eliminate the data contamination concerns of existing benchmarks.

In a blog post on the new benchmark, mathematician Evan Chen said he believes FrontierMath differs from traditional math competitions like the International Mathematical Olympiad (IMO) or Putnam in a few ways. IMO problems avoid specialized knowledge and complex calculations, while FrontierMath welcomes them. While they all test for creative insight, he said, FrontierMath “outright invert(s)” two other properties for setting a problem: it should not take a lot of implementation, and it should be elementary.

“Because an AI system has vastly greater computational power,” Chen wrote, “it’s actually possible to design problems with easily verifiable solutions using the same idea that IOI or Project Euler does—basically, ‘write a proof’ is replaced by ‘implement an algorithm in code.”

Evaluating AI Systems: What’s Next

To see if AI systems possess research-level mathematical reasoning capabilities during evaluation, Epoch AI said it will take the following steps to make the benchmark more valuable as AI systems advance:

  •  Regular evaluations of leading AI models
  • Expanding the benchmark
  • Releasing additional problems to the public
  • Strengthening quality control

Epoch AI said the FrontierMath benchmark was developed in collaboration with over 60 mathematicians from leading institutions. It spans the full spectrum of modern mathematics from computational number theory to abstract algebraic geometry.

The post FrontierMath Benchmark Exposes AI Struggles in Advanced Math appeared first on eWEEK.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Глава ФТАР заявил, что российских штангистов ждут на международных турнирах

Рекультивация трех мусорных полигонов Подмосковья завершится к концу года

Ажиотаж с ноября. Россияне раскупили почти все туры в Великий Устюг

Глава Дмитрова провел встречу с руководителями медицинских учреждений

Музыкальные новости

Путин в центре ортопедии пообщался с бойцами СВО, которые проходят реабилитацию

Интрига ожила: вратарь забил в чужие ворота и спас «Динамо» от поражения

Сергей Собянин: Путепровод соединил два округа

Собянин: Открытие ВСМ Москва — Петербург увеличит пассажиропоток между городами

Новости России

Мальта аннулировала визу Захаровой перед вылетом делегации РФ на СМИД ОБСЕ

Глава ФТАР заявил, что российских штангистов ждут на международных турнирах

Лучшие в области юриспруденции. Опубликован второй рейтинг специалистов

Объявлены итоги IX Национальной оперной премии «Онегин»

Экология в России и мире

Ядовитая красота: врач Кутушов рассказал о скрытых рисках искусственных елок

Интересные каналы в Telegram. Лучшие каналы в Telegram.

«Ты теперь не один — нас двое»: MARKO представил новый вдохновляющий трек

Как светятся звезды и почему их не видно днем

Спорт в России и мире

Рыбакина вошла в рейтинг самых высокооплачиваемых спортсменок мира в 2024 году. Известна сумма ее заработка

Жену второй ракетки Белоруссии Герасимова обокрали в отеле в Петербурге

Шнайдер: договорились с Андреевой играть весь сезон вместе на ТБШ и WTA 1000

Супругу теннисиста Герасимова Анну обокрали в отеле Санкт-Петербурга

Moscow.media

Путешествия на НГ по России — куда поедем и сколько потратим

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

«Деловые Линии» открыли терминал в городе Бор в Нижегородской области

В Екатеринбурге запретят остановку более чем на сорока участках улиц











Топ новостей на этот час

Rss.plus






Помощник генерала Гурулёва устроил пьяный дебош в самолёте

Макияж на новый год: расставляем акценты

Глава ФТАР заявил, что российских штангистов ждут на международных турнирах

Ольга Любимова провела совещание по вопросам охраны объектов культурного наследия