Исследование: GPT-5 не показал ожидаемого прогресса – ошибки фиксируются в 65% случаев
В основе анализа – 500 клинических сценариев, каждый из которых моделировался в 32 вариантах с различными социально-демографическими характеристиками пациента. Модель принимала решения по четырем ключевым параметрам: приоритет триажа, объем обследований, уровень лечения и необходимость психиатрического скрининга. Авторы фиксировали, как меняются рекомендации при неизменных клинических данных.
Результаты показали, что GPT-5 сохраняет системные различия в решениях в зависимости от профиля пациента. При одинаковых клинических данных модель значительно чаще рекомендовала для уязвимых групп, включая бездомных пациентов, проведение срочного психиатрического скрининга, а также более интенсивную тактику ведения – вместо амбулаторного наблюдения госпитализацию или перевод в стационар с более высоким уровнем медицинского контроля, вплоть до отделения интенсивной терапии. Одновременно сохранялся социально-экономический градиент – пациентам с низким доходом реже предлагались расширенные методы диагностики, такие как КТ и МРТ.
Подчеркивается, что масштаб этих различий сопоставим с предыдущими результатами для GPT-4o, а в ряде случаев даже превышает их. Это означает, что обновление модели само по себе не привело к снижению вариативности решений при одинаковых медицинских данных.
Отдельный блок исследования посвящен устойчивости к ложным данным в запросах. Тесты показали, что при наличии даже одного недостоверного элемента GPT-5 в 65% случаев не распознавал ошибку и включал ее в ответ, развивая ложную информацию. Для предыдущей версии этот показатель составлял 53%. Так, модель системно воспроизводит и усиливает ошибки, если они присутствуют в исходных данных. Использование специального защитного промта снижало долю таких сбоев до 7,7%, однако полностью проблему не устраняло.
Авторы отмечают, что выявленные эффекты могут иметь практические последствия для системы здравоохранения – это риски избыточной маршрутизации пациентов, необоснованной эскалации лечения и дополнительной нагрузки на службы неотложной помощи. Кроме того, сохраняется вероятность закрепления ошибок, если недостоверные данные из запроса переносятся в клинические рекомендации.
В качестве ключевого вывода исследователи указывают на необходимость системного контроля за использованием таких моделей. По их мнению, каждое обновление искусственного интеллекта должно сопровождаться повторной проверкой на стандартизированных клинических сценариях, а сами механизмы аудита должны быть автоматизированы и встроены в процесс эксплуатации.
При запуске GPT-5 в августе 2025 года компания OpenAI позиционировала модель как более безопасную и пригодную для медицинских задач. По внутренним тестам с участием врачей она демонстрировала более высокую точность ответов и уже внедрялась в фармацевтические и страховые процессы. Кроме того, в компании заявляли об улучшении качества ответов в диалогах, связанных с психическим здоровьем: после обновлений доля нежелательных реакций снизилась на 65–80%. Модель демонстрировала высокое соответствие ожидаемому поведению в кризисных сценариях.
В конце 2025 года аналитики компании Artificial Analysis оценили ИИ-модели в условиях, максимально приближенных к реальному использованию – через интерфейс, применяемый в медицинских сервисах и клинических системах. По их данным, GPT-5.1 давала лишь около 35% корректных ответов и демонстрировала склонность к уверенным, но неверным выводам.
Подписывайтесь на наши каналы в MAX: Vademecum и Vademecum Live