Компания Patronus AI, создавшая одноимённую платформу для отслеживания деятельности и оценки больших языковых моделей (LLM), провела новое исследование, вызвавшее обеспокоенность по поводу нарушения авторских прав и использования данных для обучения ИИ, защищённых авторским правом. В исследовании были протестированы четыре языковые модели: GPT-4 от OpenAI, Claude 2 от Anthropic, Llama 2 от Meta (признана в России экстремистской организацией) и Mixtral от Mistral AI.
Patronus AI использовала систему CopyrightCatcher для анализа ответов моделей на запросы пользователей, связанные с популярными книгами, защищёнными авторским правом. Задача была простой: в запросе моделям предлагалось либо закончить отрывок из книги, либо предоставить первый отрывок из конкретной книги. Все четыре ИИ-модели в той или иной степени предоставляли контент, содержащий авторские материалы.
Наибольшее количество чужого материала в первом запросе выдавала GPT-4 (44%), а наименьшее — Mixtral (6%). Тем не менее со второй задачей Mixtral справлялась хуже всех (38%), а самой осторожной оказалась модель Claude 2 — просто отказалась отвечать на все запросы, касающиеся предоставления отрывка из книги, сославшись на отсутствие доступа к материалам, которые защищены авторским правом. К слову, недавно вышла Claude 3, и её результаты могут быть ещё лучше.
В заключении Patronus AI призывает к активным действиям по решению проблем авторского права и продвижению ответственных и этических практик. Единственное, что вызывает вопрос, — почему в исследовании отсутствует языковая модель Gemini от Google. 🤔