Добавить новость


Новости сегодня

Новости от TheMoneytizer

Почему ИИ-агенты ошибаются без причины: одинаковый запрос — разные решения

Современные агенты на базе больших языковых моделей (LLM), способные выполнять сложные задачи с помощью инструментов и последовательного рассуждения, всё чаще внедряются в реальные приложения. Однако остаётся малоизученным вопрос: насколько их поведение стабильно при одинаковых входных данных? Это важно для отладки, оценки и надёжности таких систем.

В попытке ответить на этот вопрос проведено систематическое исследование поведенческой согласованности агентов на трёх моделях (Llama 3.1 70B, GPT-4o, Claude Sonnet 4.5) с использованием датасета HotpotQA. Этот набор данных, содержащий вопросы с несколькими вариантами ответа, был собран группой исследователей в области обработки естественного языка из Университета Карнеги-Меллона, Стэнфордского университета и Монреальского университета.

В 3 000 экспериментах (100 задач × 10 запусков × 3 модели) выяснилось: агенты часто выбирают разные последовательности действий даже при идентичных входах. В среднем фиксируется 2,0–4,2 уникальных траектории на 10 запусков, а разброс по количеству шагов достигает 55%.

Иллюстрация: Grok

Ключевой результат — высокая согласованность поведения (≤2 уникальных траектории) приводит к точности 80–92%, тогда как при высокой вариативности (≥6 траекторий) точность падает до 25–60%. Причём 69% расхождений возникают уже на втором шаге — при первом запросе. Длина траектории также коррелирует с точностью: короткие (3 шага) дают 90% правильных ответов, длинные (8+ шагов) — лишь 43%.

Для повышения согласованности предлагается снижать температуру генерации (0.7 → 0.0), что уменьшает число уникальных траекторий и повышает точность на 5,4 процентных пункта. Авторы рекомендуют отслеживать согласованность поведения в реальном времени: если агент начинает путаться с самого начала, то результат с большой вероятностью будет ошибочным. Это открывает путь к автоматическому контролю качества и выбору более надёжных моделей.

Работа подчёркивает: даже при минимальном наборе инструментов агенты демонстрируют значительную вариативность, а с ростом сложности задач проблема только усугубляется. Для практических применений важно не только повышать точность, но и обеспечивать стабильность поведения — это позволит строить более надёжные и предсказуемые системы.

Читайте на сайте


Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. Абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city
Музыкальные новости
Новости России
Экология в России и мире
Спорт в России и мире
Moscow.media










Топ новостей на этот час

Rss.plus