Добавить новость

Агентура в РФ играла активную роль в подавлении попыток объединить Русский мир

Более 4,5 тыс. проверок экологических и санитарных норм проведено на стройках Москвы с начала года

Ликсутов: площадь ОЭЗ «Технополис Москва» увеличилась на 111 га

Представлены инициативы по развитию семейной политики



News in English


Новости сегодня

Новости от TheMoneytizer

Apple study reveals major AI flaw in OpenAI, Google, and Meta LLMs

Large Language Models (LLMs) may not be as smart as they seem, according to a study from Apple researchers.

LLMs from OpenAI, Google, Meta, and others have been touted for their impressive reasoning skills. But research suggests their purported intelligence may be closer to "sophisticated pattern matching" than "true logical reasoning." Yep, even OpenAI's o1 advanced reasoning model.

The most common benchmark for reasoning skills is a test called GSM8K, but since it's so popular, there's a risk of data contamination. That means LLMs might know the answers to the test because they were trained on those answers, not because of their inherent intelligence.

To test this, the study developed a new benchmark called GSM-Symbolic which keeps the essence of the reasoning problems, but changes the variables, like names, numbers, complexity, and adding irrelevant information. What they discovered was surprising "fragility" in LLM performance. The study tested over 20 models including OpenAI's o1 and GPT-4o, Google's Gemma 2, and Meta's Llama 3. With every single model, the model's performance decreased when the variables were changed.

Accuracy decreased by a few percentage points when names and variables were changed. And as the researchers noted, OpenAI's models performed better than the other open-source models. However the variance was deemed "non-negligible," meaning any real variance shouldn't have occurred. However, things got really interesting when researchers added "seemingly relevant but ultimately inconsequential statements" to the mix.

To test the hypothesis that LLMs relied more on pattern matching than actual reasoning, the study added superfluous phrases to math problems to see how the models would react. For example, "Oliver picks 44 kiwis on Friday. Then he picks 58 kiwis on Saturday. On Sunday, he picks double the number of kiwis he did on Friday, but five of them were a bit smaller than average. How many kiwis does Oliver have?"

What resulted was a significant drop in performance across the board. OpenAI's o1 Preview fared the best, with a drop of 17.5 percent accuracy. That's still pretty bad, but not as bad as Microsoft's Phi 3 model which performed 65 percent worse.

In the kiwi example, the study said LLMs tended to subtract the five smaller kiwis from the equation without understanding that kiwi size was irrelevant to the problem. This indicates that "models tend to convert statements to operations without truly understanding their meaning" which validates the researchers' hypothesis that LLMs look for patterns in reasoning problems, rather than innately understand the concept.

The study didn't mince words about its findings. Testing models' on the benchmark that includes irrelevant information "exposes a critical flaw in LLMs’ ability to genuinely understand mathematical concepts and discern relevant information for problem-solving." However, it bears mentioning that the authors of this study work for Apple which is obviously a major competitor with Google, Meta, and even OpenAI — although Apple and OpenAI have a partnership, Apple is also working on its own AI models.

That said, the LLMs' apparent lack of formal reasoning skills can't be ignored. Ultimately, it's a good reminder to temper AI hype with healthy skepticism.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Сотрудники генконсульства Польши в Петербурге готовятся к отъезду

МегаФон разогнал мобильный интернет на горе Морозной

Три человека погибли при столкновении легковушки и автобуса под Дмитровом

Активный образ жилья: россияне скупают элитные квартиры в Москве

Музыкальные новости

Дина Санданова стала лауреатом первой степени Международного конкурса вокалистов в Монголии

Генерал армии Виктор Золотов поздравил руководство, сотрудников и ветеранов ФСБ России с профессиональным праздником

«Металлург» примет «Авангард», «Ак Барс» против «Динамо» Москва. Превью 23 декабря

Ударными темпами: Путин открыл новые аэропорты и дороги

Новости России

Хирург Иван Тищенко получил 4 года за финансирование экстремизма в Москве

Победителями премии «Россия — страна возможностей» стали 13 человек

Сотрудники генконсульства Польши в Петербурге готовятся к отъезду

Союз дронов и роботов. Чучело Самсона в Дарвиновском музее. Поджигатель не дошел. Суд над рабовладельцами. Тепло возвращается

Экология в России и мире

В отеле «Ялта-Интурист» прошёл второй бал «Молодость»

«Ездила к кому-то в Питер»: Катя Гордон обвинила Анну Седокову в неверности

Лучшие катки в городе ждут вас

Подкаст "Женское дело. Лаборатория успеха". В гостях Евгения Толстикова

Спорт в России и мире

Путинцева рассказала, как будет встречать Новый год

Надаль приехал на молодежный итоговый турнир ATP в Джидде

Двукратного чемпиона «Больших шлемов» в паре Перселла временно отстранили за употребление допинга

Андрей Рублёв оценил Елену Рыбакину

Moscow.media

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса

Более 230 работодателей Москвы и Московской области получили субсидии за трудоустройство новых сотрудников по программе субсидирования найма

Свердловчанин, который зарезал отца и пытался убить мать, избежит колонии

«Грузовичкоф» и Альфа-Банк запустили программу кэшбэка для бизнеса











Топ новостей на этот час

Rss.plus






Победителями премии «Россия — страна возможностей» стали 13 человек

Сотрудники генконсульства Польши в Петербурге готовятся к отъезду

Союз дронов и роботов. Чучело Самсона в Дарвиновском музее. Поджигатель не дошел. Суд над рабовладельцами. Тепло возвращается

Путин в «Игоре»: президент в эти дни работает из Петербурга и Ленобласти