Ученые создали систему защиты для искусственного интеллекта, который создает изображения из текста. Разработка помогает распознать опасные или неэтичные запросы пользователей.
Инструмент под названием Latent Guard научился анализировать текстовые запросы и выявлять в них вредные понятия, даже если они перефразированы. Система работает как дополнительный фильтр, который не позволит искусственному интеллекту сгенерировать нежелательные картинки.
Latent Guard вдохновлен традиционными черными списками, но идет дальше. Разработчики научили систему понимать не только отдельные слова, но и общий смысл запроса. Это делает защиту более гибкой и эффективной.
Исследователи протестировали свое изобретение на большом количестве запросов, включая специально созданные опасные фразы. Результаты показали, что Latent Guard успешно распознает вредные намерения и блокирует их воплощение в картинках.
В скором времени разработчики планируют поделиться своим изобретением с другими специалистами. Публикация кода и обучающих материалов позволит другим группам усовершенствовать систему защиты и сделать искусственный интеллект еще более безопасным.