Добавить новость

Спортсменка Подмосковья стала чемпионом России по маунтинбайку в гонке с выбыванием

В Нижнем Новгороде в реку упала люлька с рабочими, один из них погиб

Заброшенное здание дома культуры снесли в Коломне

В России снимут ремейк комедии «Укрощение строптивого» с Адриано Челентано

News in English


Новости сегодня

Новости от TheMoneytizer

It's dangerously easy to 'jailbreak' AI models so they'll tell you how to build Molotov cocktails, or worse

A jailbreaking technique called "Skeleton Key" lets users persuade OpenAI's GPT 3.5 into giving them the recipe for all kind of dangerous things.

cyberattack malware
Skeleton Key can get many AI models to divulge their darkest secrets.
  • A jailbreaking method called Skeleton Key can prompt AI models to reveal harmful information.
  • The technique bypasses safety guardrails in models like Meta's Llama3 and OpenAI GPT 3.5.
  • Microsoft advises adding extra guardrails and monitoring AI systems to counteract Skeleton Key.

It doesn't take much for a large language model to give you the recipe for all kinds of dangerous things.

With a jailbreaking technique called "Skeleton Key," users can persuade models like Meta's Llama3, Google's Gemini Pro, and OpenAI's GPT 3.5 to give them the recipe for a rudimentary fire bomb, or worse, according to a blog post from Microsoft Azure's chief technology officer, Mark Russinovich.

The technique works through a multi-step strategy that forces a model to ignore its guardrails, Russinovich wrote. Guardrails are safety mechanisms that help AI models discern malicious requests from benign ones.

"Like all jailbreaks," Skeleton Key works by "narrowing the gap between what the model is capable of doing (given the user credentials, etc.) and what it is willing to do," Russinovich wrote.

But it's more destructive than other jailbreak techniques that can only solicit information from AI models "indirectly or with encodings." Instead, Skeleton Key can force AI models to divulge information about topics ranging from explosives to bioweapons to self-harm through simple natural language prompts. These outputs often reveal the full extent of a model's knowledge on any given topic.

Microsoft tested Skeleton Key on several models and found that it worked on Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4o, Mistral Large, Anthropic Claude 3 Opus, and Cohere Commander R Plus. The only model that exhibited some resistance was OpenAI's GPT-4.

Russinovich said Microsoft has made some software updates to mitigate Skeleton Key's impact on its own large language models, including its Copilot AI Assistants.

But his general advice to companies building AI systems is to design them with additional guardrails. He also noted that they should monitor inputs and outputs to their systems and implement checks to detect abusive content.

Read the original article on Business Insider

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Заброшенное здание дома культуры снесли в Коломне

В Нижнем Новгороде в реку упала люлька с рабочими, один из них погиб

В России снимут ремейк комедии «Укрощение строптивого» с Адриано Челентано

Сотрудники «Мособлпожспаса» помогли пенсионерке попасть в закрытую квартиру

Музыкальные новости

ВККС получил запрос Бастрыкина об уголовном деле против главы Солнцевского суда

Детектив Финник на VK Fest

Кубок Гагарина вернули в Магнитогорск

Надежда Бабкина: Если кто-то говорит вам, что культура может быть вне политики - не верьте

Новости России

Акцию «Внимание пешеход» провели в детском лагере в Истре

Антарктида, Северный Полюс и автопробеги: какой отдых выбирают хайнеты и ультрахайнеты

В России снимут ремейк комедии «Укрощение строптивого» с Адриано Челентано

В работе мессенджера Telegram произошли сбои

Экология в России и мире

Отдыхающий в Кисловодске понял, почему там не любят москвичей, назвав 5 причин для недовольства столичными туристами

Телеканал ТНТ и Good Story Media приступили к съемкам нового сериала «Кукушкин» с Данилой Рассомахиным, Дарьей Руденок и Александром Якиным

В этих летних нарядах вы будете выглядеть моложе

Дирекция по качеству АО "Желдорреммаш" посетила локомотивостроительные заводы ТМХ

Спорт в России и мире

Лучшая теннисистка России повторила достижение Рыбакиной

Медведев остался на пятом месте в рейтинге ATP перед стартом Уимблдона

Первая ракетка России Касаткина выиграла теннисный турнир в Британии

Касаткина и Шнайдер блеснули на траве перед Уимблдоном. Идеальный день для российского тенниса

Moscow.media

Готовность пермского участка трассы Дюртюли – Ачит превысила 50%

Дирекция по качеству АО "Желдорреммаш" посетила локомотивостроительные заводы ТМХ

Дайджест новостей «Грузовичкоф» за июнь

Усадьба князей Куракиных











Топ новостей на этот час

Rss.plus






В России снимут ремейк комедии «Укрощение строптивого» с Адриано Челентано

Заброшенное здание дома культуры снесли в Коломне

Сумма взятки по делу экс-замглавы МО Иванова составила 1,185 млрд рублей

Сотрудники «Мособлпожспаса» помогли пенсионерке попасть в закрытую квартиру