Команда Института искусственного интеллекта AIRI рассказала о разработке метода, который позволит доказать, что модель искусственного интеллекта, доступ к которой предоставляется через самые обычные онлайн-сервисы, была скомпрометирована. Как пояснили в пресс-службе AIRI, такой подход будет максимально полезным для «закрытых» моделей, а для его реализации используются специальные «водяные знаки».
«В первую очередь наш подход полезен «закрытым» моделям, поскольку их кража позволяет предположить, что внутри организации ведется инсайдерская работа или был произведен не зафиксированный ранее взлом. Однако мы также поддерживаем применение водяных знаков для моделей, выложенных в открытый доступ под лицензией Open source», — пояснил старший научный сотрудник AIRI Олег Рогов.
Основой предложенного метода стало предположение о том, что любую нейронную сеть можно модифицировать таким образом, чтобы она давала конкретные ответы на определённые наборы данных — так называемые «водяные знаки». Это, как утверждают разработчики, позволит определить, что кто-то украл исходный код модели искусственного интеллекта или неправомерно получил доступ к её интерфейсу.
На практике такой подход не демонстрировал 100-процентной работоспособности. Дело в том, что «пираты» могут модифицировать код таким образом, чтобы ИИ-модель не обращала внимание на «водяные знаки». Эту проблему можно обойти при помощи созданного учеными РФ подхода, который позволяет предугадать, насколько тот или иной цифровой «водяной знак» будет устойчив к различным модификациям в параметрах работы систем ИИ.
Работа технологии опробована на нейронной сети ResNet34, которая используется для классификации изображений. Учёные создали определённое количество «водяных знаков» и проверили ИИ-модель на устойчивость к вносимым «пиратами» модификациям, то есть они попытались выяснить, сможет ли нейросеть определять «водяные знаки» после корректировки исходного кода.
Тесты показали, созданный в AIRI метод, позволяет определить кражу ИИ модели в 73–100% случаев, и он значительно совершеннее других способов, использующих «водяные знаки». Авторы проекта уверены, их детище поможет создателям нейронных сетей эффективно защищать свои проекты от кражи.