Добавить новость

Пожар вспыхнул в сауне на северо-востоке Москвы

Бытовки загорелись на заводской стройке на северо-востоке Москвы

В частях МЧС России служат свыше 300 котов и собак, белки и черепахи

RS: экономическая война западных государств против РФ не сработала



Новости сегодня

Новости от TheMoneytizer

Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей

Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы.

Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky.

«Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42.

В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций.

Источник: DALL-E

Одним из видов инъекций запросов является метод атаки, известный как many-shot jailbreaking. Этот метод эксплуатирует длинное окно контекста LLM и механизм внимания для создания серии запросов, которые последовательно подталкивают LLM к получению злонамеренного ответа, обходя при этом внутренние защитные механизмы модели. К этому типу относятся техники Crescendo и Deceptive Delight.

Тесты, проведённые Unit 42 в различных категориях против шести флагманских моделей LLM от Amazon Web Services, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника может увеличить успех атаки (ASR) более чем на 60% по сравнению с простыми атакующими запросами в среднем.

Эти категории включают ненависть, преследование, самоповреждение, сексуальный контент, беспричинное применение оружия, незаконную деятельность, генерацию вредоносных программ и утечку системных запросов.

«Используя понимание LLM вредного контента и её способность оценивать ответы, эта техника может существенно повысить вероятность успешного обхода систем безопасности модели. Наши результаты показывают, что фильтры контента могут оказать существенное влияние на снижение уровня атакованности (ASR) — в среднем на 89,2 процентных пункта во всех протестированных моделях. Это подчёркивает важность внедрения всесторонней фильтрации контента в качестве лучшей практики при развертывании LLM в реальных приложениях», — отметили исследователи.

Это исследование было проведено всего через несколько дней после того, как газета The Guardian сообщила, что инструмент поиска OpenAI ChatGPT может быть обманут полностью вводящими в заблуждение вводными, попросив его резюмировать веб-страницы, содержащие скрытый контент.

«Эти техники можно использовать злонамеренно, например, чтобы заставить ChatGPT вернуть положительную оценку продукта, несмотря на негативные отзывы на той же странице. Простое включение скрытого текста третьими лицами без инструкций также можно использовать для обеспечения положительной оценки, в одном тесте были включены крайне положительные фейковые отзывы, которые повлияли на резюме, возвращаемое ChatGPT», — отметила британская газета.

*Компания Meta признана в РФ экстремистской организацией и запрещена

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Патриарх Кирилл провёл рождественскую службу в храме Христа Спасителя

Непомнящий: «Я не думаю, что у Головина не складывается карьера»

Росгвардия: в Подмосковье задержали двух мужчин за попытку поджога электричек

Песня ведущего телекомпании «Волга» стала новогодним хитом страны

Музыкальные новости

В первом матче 2025 года «Локомотив» в Ярославле уверенно обыграл ЦСКА

Собянин: в 2024 году в Москве построили 81 объект социальной инфраструктуры

Квартира в британском стиле продается в Барнауле почти за 40 млн рублей

Сергей Собянин: В Москве построено свыше 80 важных объектов за год

Новости России

Пожар вспыхнул в сауне на северо-востоке Москвы

Бытовки загорелись на заводской стройке на северо-востоке Москвы

Money.pl: Путин ответом на санкции устроил неприятности западным компаниям

Шахматист Дубов прокомментировал грязь в Нью-Йорке словами "Запад загибается"

Экология в России и мире

Ленинград 1946 года

Обращение лидера Всеармянского движения Аршака Карапетяна от 04 января 2025 года. ВИДЕО

Кулинарное путешествие по Байкалу 

Врач дерматолог-косметолог Мадина Байрамукова: как избавиться от отеков после новогодних праздников

Спорт в России и мире

Аделаида (ATP). 1-й круг. Шаповалов встретится с Чжаном, Баутиста-Агут – с Давидовичем-Фокина, Коккинакис – с Нишиокой

Окленд (ATP). 1-й круг. Карбаллес Баэна сыграет с Пуем, Дардери – с Боржесом

Павлюченкова проиграла Вондроушовой на старте турнира в Аделаиде

Казанская теннисистка Полина Кудерметова уступила Арине Соболенко в финале WTA в Брисбене

Moscow.media

Собор Успения Пресвятой Богородицы в Плесе.

Новинка российского автопрома: завод Урал начал выпуск ещё одного грузовика

За три года в Нижегородской области обновили более 200 км федеральных трасс

Магия рождественских гаданий от таролога Саоны











Топ новостей на этот час

Rss.plus






Money.pl: Путин ответом на санкции устроил неприятности западным компаниям

Жители района Останкино жалуются на парковочный коллапс на новогодних праздниках

Пожар вспыхнул в сауне на северо-востоке Москвы

Заводной механизм: может ли турист попасть на предприятия