Навыки понимания и рассуждения ИИ невозможно оценить современными тестами

14.07.2024 15:00

Популярные тесты для оценки больших языковых моделей, такие как Massive Multitask Language Understanding (MMLU), имеют ряд ограничений. MMLU включает 16 000 вопросов с вариантами ответов, охватывающих 57 тем. Однако исследования показывают, что простое изменение порядка вариантов ответов влияет на производительность моделей в таких тестах, ставя под сомнение надежность оценок. Кроме того, лидеры отрасли склонны ошибочно интерпретировать впечатляющие результаты моделей в узких задачах, на которых они обучались (диалог или резюмирование текста), как проявление высоких когнитивных способностей — понимания, знания и рассуждения, которые на самом деле сложно измерить. Языковые модели могут генерировать контент, не понимая его значения. Еще одна проблема — модели могут обучаться на тех же данных, которые используются для их оценки, что объясняет их высокие результаты в тестах. Тестовые наборы данных доступны онлайн, а обучающие наборы больших языковых моделей как раз собираются из интернета.

Большие языковые модели используют статистические закономерности в тестовых данных, чтобы обманывать и получать правильные ответы, не демонстрируя при этом истинного понимания. Например, тест Winograd Schema Challenge (WSC) призван оценивать здравый смысл модели. WSC использует пары предложений, в которых упоминаются две сущности и местоимение, относящееся к одной из них. Например, первый вариант: «Во время шторма дерево упало и проломило крышу моего дома. Теперь мне нужно его убрать». Второй: «Во время шторма дерево упало и проломило крышу моего дома. Теперь мне нужно его починить».

Задача модели — правильно сопоставить местоимение с соответствующей сущностью, в данном случае с деревом или крышей. Теоретически только ИИ со здравым смыслом может дать правильные ответы. Однако исследования показали, что БЯМ могут «жульничать», используя статистические ассоциации в данных. Например, модели, обученные на огромных объемах текста, чаще встречаются с фразами о ремонте крыши, чем о ремонте дерева.

Это позволяет им выбрать статистически более вероятное слово, не полагаясь на здравый смысл. То есть результаты этого теста не отражают реальное «понимание» ИИ.

Изучение механизмов работы ИИ может дать больше информации, чем контрольные тесты. Так, проверять базовое понимание концепций можно с использованием контрфактуальных задач. Модели предлагается необычная версия стандартного правила, с которым она вряд ли столкнулась во время обучения, например, алфавит с перепутанными буквами. Затем ИИ просят решить задачи, используя новое правило.

Чтобы оценить понимание языка большими языковыми моделями, ученые предлагают сравнивать ответы БЯМ на исходное предложение и его перефразированный вариант. Например, им дают разные предложения с одинаковых смыслом: «На его лбу были капли пота» и «Пот выступил на его лице». БЯМ с истинным пониманием языка будет давать одинаковые ответы в обоих случаях.

Но эксперимент показал, что языковые модели часто меняют свои ответы при перефразировании предложений, особенно когда используются фразы, не встречавшиеся в обучающих данных. Это говорит о том, что БЯМ не понимают их смысл и могут полагаться на подсказки, такие как распределение слов.

Отслеживание пошагового процесса — еще один способ оценить, использует ли ИИ рассуждение и понимание для получения ответа. Так, исследователи проверили способность GPT-4, GPT-3.5 и GPT-3 выполнять многозначное умножение. Они разбивали задачи на подшаги и проверяли ответы модели на каждом этапе. Модели показывали высокую точность при умножении однозначных и двузначных чисел, но начинали путаться по мере усложнения. При умножении четырех- и пятизначных чисел модели едва давали правильные ответы. Это говорит о том, что БЯМ не смогли обобщить базовые шаги умножения на более сложные случаи. Даже когда ответы моделей были правильными, их вычисления и рассуждения на подшагах могли быть неверными. То есть модели полагались на запоминание, а не на понимание.

Создание строгих, детальных тестов для оценки возможностей БЯМ затруднено из-за огромных объемов данных и закрытости моделей. Высокая стоимость вычислений — тоже серьезное ограничение. Например, расширение тестов на пятизначные числа может обойтись в миллионы долларов. В конце концов, идеальной, всеобъемлющей оценки ИИ может вообще не существовать, поскольку модели постоянно совершенствуются, и тесты должны становиться все более сложными.

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Необычные проекты реализовали в рамках фестиваля «Лето в Москве. Сады и цветы»

Самостоящие железобетонные заборы от компании "Строй Проект": надежность и простота установки

Волочкова возмущена ценами на билеты в Большой театр

Маломобильным гостям форума-фестиваля «Москва 2030» помогут на «Станции Манеж»

Музыкальные новости

Bigpot.news

Харрис вышла к избирателям в колье от Tiffany стоимостью более 60 тысяч долларов

Более трети продаваемых частных домов в России требуют ремонта

Mash: в Ставрополье пациентка получила некроз кожи после электронного массажа

«Динамо» попало под горячую ногу // «Зенит» одержал четвертую победу и единолично возглавил Российскую премьер-лигу

Новости России

29ru.net

Необычная стена из растений появилась у входа в Московский зоопарк

Эксперты рассказали об эффекте от строительства трасс для развития районов Москвы

Москвичей предупредили о ливне, грозе и порывистом ветре в воскресенье

В аэропорту Благовещенска 300 пассажиров более суток не могут улететь в Москву

Экология в России и мире

Life24.pro

Сколько чашек цикория можно пить в день без вреда для здоровья?

Российская туристка поняла, кому действительно стоит приехать в Америку на ПМЖ, назвав 5 категорий людей и кому туда лучше не соваться

Обложка песни. Обложки альбомов песен.

Жители столицы популярнейшей страны начинают массовое бегство из города, который оккупировали туристы и мигранты, и это вовсе не Париж

Спорт в России и мире

News.tennis

Шнайдер впервые вышла в полуфинал WTA 1000 и дебютирует в топ-20

Определился соперник Андрея Рублёва в полуфинале «Мастерса» в Монреале

Арина Соболенко сделала заявление после сенсационного поражения

В США опубликовали видео тренировки Рыбакиной: она готовится к турниру за миллионы долларов

Moscow.media

News24.pro

Истребители Су-30см и Су-35с ночью ударили по позициям ВСУ в Курской области

Состояние военкора Поддубного остается тяжелым, но стабильным

Пьяные и агрессивные: на Кузбассе таксист подрался с пассажиркой и ее братом

«Мой район» в рамках «Территории будущего. Москва 2030» пригласил на мастер-классы в Музеоне

Читайте на 123ru.net

Ru24.pro

Документальные новости

Происшествия

Настроение

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Необычные проекты реализовали в рамках фестиваля «Лето в Москве. Сады и цветы»

Самостоящие железобетонные заборы от компании "Строй Проект": надежность и простота установки

Волочкова возмущена ценами на билеты в Большой театр

Маломобильным гостям форума-фестиваля «Москва 2030» помогут на «Станции Манеж»

Харрис вышла к избирателям в колье от Tiffany стоимостью более 60 тысяч долларов

Более трети продаваемых частных домов в России требуют ремонта

Mash: в Ставрополье пациентка получила некроз кожи после электронного массажа

«Динамо» попало под горячую ногу // «Зенит» одержал четвертую победу и единолично возглавил Российскую премьер-лигу

Необычная стена из растений появилась у входа в Московский зоопарк

Эксперты рассказали об эффекте от строительства трасс для развития районов Москвы

Москвичей предупредили о ливне, грозе и порывистом ветре в воскресенье

В аэропорту Благовещенска 300 пассажиров более суток не могут улететь в Москву

Сколько чашек цикория можно пить в день без вреда для здоровья?

Российская туристка поняла, кому действительно стоит приехать в Америку на ПМЖ, назвав 5 категорий людей и кому туда лучше не соваться

Обложка песни. Обложки альбомов песен.

Жители столицы популярнейшей страны начинают массовое бегство из города, который оккупировали туристы и мигранты, и это вовсе не Париж

Шнайдер впервые вышла в полуфинал WTA 1000 и дебютирует в топ-20

Определился соперник Андрея Рублёва в полуфинале «Мастерса» в Монреале

Арина Соболенко сделала заявление после сенсационного поражения

В США опубликовали видео тренировки Рыбакиной: она готовится к турниру за миллионы долларов

Турбодвигатель, АКП и салон на 5 человек: в России появился новый кроссовер

Врач рассказала, как может испортить здоровье сыр

Мари Краймбрери, Звонкий, DAASHA выступят на марафоне «Авторадио»

Квартальная выручка Freedom Holding Corp. выросла до $450,7 млн

Топ новостей на этот час

Необычные проекты реализовали в рамках фестиваля «Лето в Москве. Сады и цветы»

Путин может встретиться с президентом Палестины Аббасом 13 августа

Ефимов: школу и детский сад построят в Тропарево-Никулине по программе КРТ

Борьбу с «серыми перевозчиками» строительных отходов усилят в Подмосковье