Добавить новость

Каким окажется финал «холодной войны 2.0»

В столице создают мобильное приложение для краткосрочной аренды мест на московских парковках

В Москве открылась академии парфюмерии для незрячих и слабовидящих детей

На Ямале Росгвардия совместно с подшефными кадетами памятует безымянных героев

News in English


Новости сегодня

Новости от TheMoneytizer

FrontierMath Benchmark Exposes AI Struggles in Advanced Math

eWeek 

Artificial intelligence is proving its value for generating text, recognizing images, and automating processes, but AI systems are hitting walls when trying to solve advanced math reasoning challenges. A trailblazing new benchmark from research firm Epoch AI called FrontierMath found that even today’s most advanced AI systems, including GPT-4o and Gemini 1.5 Pro, solved less than 2 percent of the math reasoning challenges they faced—even after long hours of work.

Benchmarks are needed to understand and measure AI’s progress. According to Epoch AI’s product marketing, FrontierMath “can assess how well AI systems engage in complex scientific reasoning” because “mathematical problems can be rigorously and automatically verified,” unlike areas in which subjective judgment and expensive tests are used for evaluation.

How the Models Performed

Epoch AI provides sample problems that expert mathematicians spend hours solving—for example, testing Artin’s primitive root conjecture or finding the degree 19 polynomial. Current AI models were provided with “extensive support to maximize their performance” before undertaking advanced mathematical problems, including access to Python environments for testing and verification. However, that support wasn’t enough to prepare them.

“FrontierMath has proven exceptionally challenging for today’s AI systems,” Epoch AI reported.

The AI systems scored high on easier math benchmarks like GSM8K and MATH—above 90 percent—but scored around 2 percent on the advanced problems. All FrontierMath problems are previously unpublished to eliminate the data contamination concerns of existing benchmarks.

In a blog post on the new benchmark, mathematician Evan Chen said he believes FrontierMath differs from traditional math competitions like the International Mathematical Olympiad (IMO) or Putnam in a few ways. IMO problems avoid specialized knowledge and complex calculations, while FrontierMath welcomes them. While they all test for creative insight, he said, FrontierMath “outright invert(s)” two other properties for setting a problem: it should not take a lot of implementation, and it should be elementary.

“Because an AI system has vastly greater computational power,” Chen wrote, “it’s actually possible to design problems with easily verifiable solutions using the same idea that IOI or Project Euler does—basically, ‘write a proof’ is replaced by ‘implement an algorithm in code.”

Evaluating AI Systems: What’s Next

To see if AI systems possess research-level mathematical reasoning capabilities during evaluation, Epoch AI said it will take the following steps to make the benchmark more valuable as AI systems advance:

  •  Regular evaluations of leading AI models
  • Expanding the benchmark
  • Releasing additional problems to the public
  • Strengthening quality control

Epoch AI said the FrontierMath benchmark was developed in collaboration with over 60 mathematicians from leading institutions. It spans the full spectrum of modern mathematics from computational number theory to abstract algebraic geometry.

The post FrontierMath Benchmark Exposes AI Struggles in Advanced Math appeared first on eWEEK.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

«Школа 21» для подготовки ИТ-специалистов открылась в Нижегородской области

Новый сезон Недели моды «М2 X SOKOL FASHION WEEK FW/2024»

«Русские сезоны» Леонида Десятникова прозвучат под управлением Филиппа Чижевского

Большунов пропустит гонку из-за внепланового медобследования

Музыкальные новости

В Подмосковье сотрудники Росгвардии задержали гражданку, находившуюся в федеральном розыске

Прошла любовь: русская девушка Джонни Деппа намекнула на расставание с ним

Продвижение Песни в Мою Волну музыкального стриминга Яндекс Музыка.

Иван Олейников обыгрывает в Санкт-Петербурге «Зенит»

Новости России

«Школа 21» для подготовки ИТ-специалистов открылась в Нижегородской области

Новый сезон Недели моды «М2 X SOKOL FASHION WEEK FW/2024»

В Москве открыли 28 пунктов сбора новогодних подарков для участников СВО и детей из новых регионов

В Мордовии нетрезвый водитель спровоцировал ДТП, в котором пострадал второй автовладелец

Экология в России и мире

Героическое участие армян в СВО. Часть девятая

Волшебный поезд с Дедом Морозом порадует гостей и жителей Нижнего Новгорода

Новогодний хит! от MYAKESH Слушайте «Новогоднюю»!

Боня рассказала, что бывший возлюбленный не вернул ей крупный долг

Спорт в России и мире

Жену второй ракетки Белоруссии Герасимова обокрали в отеле Петербурга

Олимпийская чемпионка Веснина проиграла в своём прощальном матче

Трофеи Северной Пальмиры. Бублик сыграет с Баутиста-Агутом, Мыскина и Давыденко поборются с Весниной и Бахрами

Казахстанская теннисистка из топ-30 WTA одержала победу на турнире в России

Moscow.media

В Свердловской области стартуют облавы на незаконных рубщиков елок

Стало известно, где на дорогах Екатеринбурга появятся десятки новых выделенных полос

Неадеквата в больнице Мценска утихомирили росгвардейцы

Портативный ТСД корпоративного класса Saotron RT-T70











Топ новостей на этот час

Rss.plus






«Русские сезоны» Леонида Десятникова прозвучат под управлением Филиппа Чижевского

«Школа 21» для подготовки ИТ-специалистов открылась в Нижегородской области

Большунов пропустит гонку из-за внепланового медобследования

В Мордовии нетрезвый водитель спровоцировал ДТП, в котором пострадал второй автовладелец