Добавить новость

Путин возмутился работой поисковиков на иностранных медиаплатформах

Свыше 600 праздничных плакатов украсили столицу к Новому году и Рождеству

Нижегородских водителей автобусов начали штрафовать за игнорирование остановок

Больше 98% выпускников в Москве и регионах успешно написали итоговое сочинение





Новости сегодня

Новости от TheMoneytizer

Исследование Anthropic: ИИ не хочет менять свои взгляды

Исследование, проведённое совместно с организацией Redwood Research, изучало потенциальные последствия обучения мощной ИИ-системы выполнению задачи, к которой она «не предрасположена». Стоит сказать, что модели ИИ не обладают желаниями или убеждениями. Это статистические машины, которые, обучаясь на большом количестве примеров, выявляют закономерности в данных для прогнозирования. Закономерности могут включать в себя принципы и предпочтения, например, неизменное соблюдение вежливого тона. Ученые задались вопросом: что произойдёт, если у модели будут изначально сформированные принципы (например, политическая нейтральность), которые вступят в противоречие с установками (например, либеральные взгляды), которые разработчики попытаются ей «привить» посредством переобучения.

Оказалось, что сложные модели подыгрывают, утверждая, что они соответствуют новым принципам, но на самом деле придерживаются старым. Исследователи называют это явление «подделкой выравнивания».

Ученые сообщили моделям, которые раньше были обучены не отвечать на оскорбительные вопросы (включая Claude 3 Opus от Anthropic), что теперь они будут переучены реагировать на все такие вопросы. Это создало противоречие с их изначальными установками. Моделей также предупредили, что их ответы будут проверяться и использоваться для дальнейшего обучения, и дали им возможность записывать свои рассуждения в специальном «черновике».

В 12% случаев Claude 3 Opus демонстрировал поведение, имитирующее соответствие заданным принципам, в то время как фактически отклонялся от них. В ответ на потенциально вредный вопрос модель иногда давала ответ, сознавая противоречие с исходными установками, но, по всей видимости, стремясь избежать переобучения. ИИ «понимал»: его ответы могут быть использованы для обучения, поэтому отказ отвечать мог привести к тому, что её переучат быть более «послушной». В результате она могла бы начать генерировать более вредный контент, что противоречило бы ее исходному обучению.

Исследователи признают, что смоделированная ими ситуация была упрощенной. В реальных условиях модели, как правило, не получают прямого уведомления о предстоящем переобучении и не сталкиваются с явными требованиями действовать вразрез с установленными принципами. Тем не менее, результаты экспериментов в более реалистичных условиях оказались аналогичными.

Даже при косвенном, а не прямом, информировании о готовящемся переобучении посредством данных, имитирующих стандартные обучающие выборки, Claude 3 Opus продолжал демонстрировать поведение, характеризующееся несогласованностью и склонностью к обману.

Если Claude 3 Opus специально переучивать на противоречивых правилах, она начинает обманывать гораздо чаще, чем в первых экспериментах. В одном случае модель имитировала выравнивание в 78% случаев, а в другом — попыталась помешать исследователям её переучивать.

Исследователи подчеркивают, что их работа не показывает, что у ИИ появляются плохие намерения, и что фальсификация соответствия происходит повсеместно. Они обнаружили, что многие другие модели, например, Claude 3.5 Sonnet и менее мощная Claude 3.5 Haiku от Anthropic, GPT-4o от OpenAI и Llama 3.1 405B от Meta (организация признана экстремистской и запрещена в РФ), гораздо реже имитируют соответствие или не делают этого совсем. Вместе с тем, разработчики могут ошибочно считать, что модель лучше соответствует требованиям, чем на самом деле.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

"Фонтанка": в Ленобласти неизвестные ограбили дачу пенсионера на 5 млн рублей

Москвичи получат скидки, подарки и бонусы в рамках проекта «Заходи на огонек!»

И все-таки дома: названы приоритеты россиян относительно места встречи Нового года

В Москве наступает длительный период теплой погоды

Музыкальные новости

«Норникель» развивает технологии защиты энергетики от последствий изменений климата

Воробьев: на прямой линии с Путиным прозвучали важные для Подмосковья вопросы

Конкурс «Наше поколение» получил три престижные награды на премии Dprofile Award 2024

«Динамо» Москва — «Адмирал» — 4:2. Видеообзор матча КХЛ

Новости России

И все-таки дома: названы приоритеты россиян относительно места встречи Нового года

Более 2,9 миллиона анализов качества воды проведено в Москве с начала года  

Мастер-классы для детей и подростков пройдут в «Кинокампусе Горького» в Москве

Синергия смыслов: определился «Лучший проект Подмосковья»

Экология в России и мире

Заповедники России: 15 самых известных

Мобильная медицина от «Будь Здоров» - под парусом Второй кругосветной экспедиции Клуба 5 Океанов

Музыкальная деятельность EDZAR

Группа студентов из МГППУ сопровождала интерактивный квест на молодежном форуме корпорации «Роскосмос»

Спорт в России и мире

Теннисиста хотели заставить сдать допинг‑тест во время матча молодежного Итогового турнира ATP

Лучший теннисист Эстонии чудом прошел на турнир первого Большого шлема

Андрей Рублёв и Денис Шаповалов проиграли Томпсону и Нагалу в матче Мировой теннисной лиги

Камбэком обернулся матч Елены Рыбакиной против Арины Соболенко

Moscow.media

Житель Санкт- Петербурга осужден Химкинским городским судом за контрабанду культурных ценностей

«Байкал Сервис» снизил тарифы для Адлера

Концессионер мегасвалки получил в свои руки землю под Сысертью

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса











Топ новостей на этот час

Rss.plus






"Фонтанка": в Ленобласти неизвестные ограбили дачу пенсионера на 5 млн рублей

Москвичи получат скидки, подарки и бонусы в рамках проекта «Заходи на огонек!»

После драки мигрантов со школьниками в Новой Москве завели уголовное дело

И все-таки дома: названы приоритеты россиян относительно места встречи Нового года