Группа ученых из Корнеллского университета, Университета Вашингтона и Института искусственного интеллекта Аллена разработала новый инструмент для оценки фактической точности больших языковых моделей (LLM), названный WILDHALLUCINATIONS. Описание инструмента опубликовано на сервере arXiv.
LLM, такие как ChatGPT, популярны для создания текстов, однако их недостатки становятся очевидными: модели часто делают неточные утверждения, которые называют «галлюцинациями». Причиной таких ошибок является качество данных, используемых для обучения моделей, обычно это текст из интернета.
Ученые разработали инструмент, который позволяет оценить точность популярных LLM, проверяя их ответы на факты. В ходе тестирования WILDHALLUCINATIONS обнаружил, что многие обновленные модели не продемонстрировали значительного улучшения точности. Модели лучше справлялись с запросами на основе информации из информационных энциклопедических источников, но испытывали трудности с данными о знаменитостях и финансовых вопросах.