Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей

04.01.2025 23:47

«iXBT.com»

Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы.

Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky.

«Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42.

В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций.

Источник: DALL-E

Одним из видов инъекций запросов является метод атаки, известный как many-shot jailbreaking. Этот метод эксплуатирует длинное окно контекста LLM и механизм внимания для создания серии запросов, которые последовательно подталкивают LLM к получению злонамеренного ответа, обходя при этом внутренние защитные механизмы модели. К этому типу относятся техники Crescendo и Deceptive Delight.

Тесты, проведённые Unit 42 в различных категориях против шести флагманских моделей LLM от Amazon Web Services, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника может увеличить успех атаки (ASR) более чем на 60% по сравнению с простыми атакующими запросами в среднем.

Эти категории включают ненависть, преследование, самоповреждение, сексуальный контент, беспричинное применение оружия, незаконную деятельность, генерацию вредоносных программ и утечку системных запросов.

«Используя понимание LLM вредного контента и её способность оценивать ответы, эта техника может существенно повысить вероятность успешного обхода систем безопасности модели. Наши результаты показывают, что фильтры контента могут оказать существенное влияние на снижение уровня атакованности (ASR) — в среднем на 89,2 процентных пункта во всех протестированных моделях. Это подчёркивает важность внедрения всесторонней фильтрации контента в качестве лучшей практики при развертывании LLM в реальных приложениях», — отметили исследователи.

Это исследование было проведено всего через несколько дней после того, как газета The Guardian сообщила, что инструмент поиска OpenAI ChatGPT может быть обманут полностью вводящими в заблуждение вводными, попросив его резюмировать веб-страницы, содержащие скрытый контент.

«Эти техники можно использовать злонамеренно, например, чтобы заставить ChatGPT вернуть положительную оценку продукта, несмотря на негативные отзывы на той же странице. Простое включение скрытого текста третьими лицами без инструкций также можно использовать для обеспечения положительной оценки, в одном тесте были включены крайне положительные фейковые отзывы, которые повлияли на резюме, возвращаемое ChatGPT», — отметила британская газета.

*Компания Meta признана в РФ экстремистской организацией и запрещена

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Патриарх Кирилл провёл рождественскую службу в храме Христа Спасителя

Непомнящий: «Я не думаю, что у Головина не складывается карьера»

Росгвардия: в Подмосковье задержали двух мужчин за попытку поджога электричек

Песня ведущего телекомпании «Волга» стала новогодним хитом страны

Музыкальные новости

Bigpot.news

В первом матче 2025 года «Локомотив» в Ярославле уверенно обыграл ЦСКА

Собянин: в 2024 году в Москве построили 81 объект социальной инфраструктуры

Квартира в британском стиле продается в Барнауле почти за 40 млн рублей

Сергей Собянин: В Москве построено свыше 80 важных объектов за год

Новости России

29ru.net

Пожар вспыхнул в сауне на северо-востоке Москвы

Бытовки загорелись на заводской стройке на северо-востоке Москвы

Money.pl: Путин ответом на санкции устроил неприятности западным компаниям

Шахматист Дубов прокомментировал грязь в Нью-Йорке словами "Запад загибается"

Экология в России и мире

Life24.pro

Ленинград 1946 года

Обращение лидера Всеармянского движения Аршака Карапетяна от 04 января 2025 года. ВИДЕО

Кулинарное путешествие по Байкалу

Врач дерматолог-косметолог Мадина Байрамукова: как избавиться от отеков после новогодних праздников

Спорт в России и мире

News.tennis

Аделаида (ATP). 1-й круг. Шаповалов встретится с Чжаном, Баутиста-Агут – с Давидовичем-Фокина, Коккинакис – с Нишиокой

Окленд (ATP). 1-й круг. Карбаллес Баэна сыграет с Пуем, Дардери – с Боржесом

Павлюченкова проиграла Вондроушовой на старте турнира в Аделаиде

Казанская теннисистка Полина Кудерметова уступила Арине Соболенко в финале WTA в Брисбене

Moscow.media

News24.pro

Пожар вспыхнул в сауне на северо-востоке Москвы

Бытовки загорелись на заводской стройке на северо-востоке Москвы

В частях МЧС России служат свыше 300 котов и собак, белки и черепахи

RS: экономическая война западных государств против РФ не сработала

Читайте на 123ru.net

Разное на 123ru.net

Здоровье

Личное

VIP-тусовка

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Патриарх Кирилл провёл рождественскую службу в храме Христа Спасителя

Непомнящий: «Я не думаю, что у Головина не складывается карьера»

Росгвардия: в Подмосковье задержали двух мужчин за попытку поджога электричек

Песня ведущего телекомпании «Волга» стала новогодним хитом страны

В первом матче 2025 года «Локомотив» в Ярославле уверенно обыграл ЦСКА

Собянин: в 2024 году в Москве построили 81 объект социальной инфраструктуры

Квартира в британском стиле продается в Барнауле почти за 40 млн рублей

Сергей Собянин: В Москве построено свыше 80 важных объектов за год

Пожар вспыхнул в сауне на северо-востоке Москвы

Бытовки загорелись на заводской стройке на северо-востоке Москвы

Money.pl: Путин ответом на санкции устроил неприятности западным компаниям

Шахматист Дубов прокомментировал грязь в Нью-Йорке словами "Запад загибается"

Ленинград 1946 года

Обращение лидера Всеармянского движения Аршака Карапетяна от 04 января 2025 года. ВИДЕО

Кулинарное путешествие по Байкалу

Врач дерматолог-косметолог Мадина Байрамукова: как избавиться от отеков после новогодних праздников

Аделаида (ATP). 1-й круг. Шаповалов встретится с Чжаном, Баутиста-Агут – с Давидовичем-Фокина, Коккинакис – с Нишиокой

Окленд (ATP). 1-й круг. Карбаллес Баэна сыграет с Пуем, Дардери – с Боржесом

Павлюченкова проиграла Вондроушовой на старте турнира в Аделаиде

Казанская теннисистка Полина Кудерметова уступила Арине Соболенко в финале WTA в Брисбене

Собор Успения Пресвятой Богородицы в Плесе.

Новинка российского автопрома: завод Урал начал выпуск ещё одного грузовика

За три года в Нижегородской области обновили более 200 км федеральных трасс

Магия рождественских гаданий от таролога Саоны

Топ новостей на этот час

Money.pl: Путин ответом на санкции устроил неприятности западным компаниям

Жители района Останкино жалуются на парковочный коллапс на новогодних праздниках

Пожар вспыхнул в сауне на северо-востоке Москвы

Заводной механизм: может ли турист попасть на предприятия