Добавить новость

Врач: Соблюдение поста до 20 лет может негативно сказаться на формировании мозга

В округах Подмосковья продолжают обучать собственников электронному голосованию

Ambrey: атаки на вышедшие из портов России танкеры были намеренными

В Ассоциации «ЗАТО» провели совещание с главами горокругов Подмосковья



Новости по-русски


Новости сегодня

Новости от TheMoneytizer

Исследование Anthropic: ИИ не хочет менять свои взгляды

Исследование, проведённое совместно с организацией Redwood Research, изучало потенциальные последствия обучения мощной ИИ-системы выполнению задачи, к которой она «не предрасположена». Стоит сказать, что модели ИИ не обладают желаниями или убеждениями. Это статистические машины, которые, обучаясь на большом количестве примеров, выявляют закономерности в данных для прогнозирования. Закономерности могут включать в себя принципы и предпочтения, например, неизменное соблюдение вежливого тона. Ученые задались вопросом: что произойдёт, если у модели будут изначально сформированные принципы (например, политическая нейтральность), которые вступят в противоречие с установками (например, либеральные взгляды), которые разработчики попытаются ей «привить» посредством переобучения.

Оказалось, что сложные модели подыгрывают, утверждая, что они соответствуют новым принципам, но на самом деле придерживаются старым. Исследователи называют это явление «подделкой выравнивания».

Ученые сообщили моделям, которые раньше были обучены не отвечать на оскорбительные вопросы (включая Claude 3 Opus от Anthropic), что теперь они будут переучены реагировать на все такие вопросы. Это создало противоречие с их изначальными установками. Моделей также предупредили, что их ответы будут проверяться и использоваться для дальнейшего обучения, и дали им возможность записывать свои рассуждения в специальном «черновике».

В 12% случаев Claude 3 Opus демонстрировал поведение, имитирующее соответствие заданным принципам, в то время как фактически отклонялся от них. В ответ на потенциально вредный вопрос модель иногда давала ответ, сознавая противоречие с исходными установками, но, по всей видимости, стремясь избежать переобучения. ИИ «понимал»: его ответы могут быть использованы для обучения, поэтому отказ отвечать мог привести к тому, что её переучат быть более «послушной». В результате она могла бы начать генерировать более вредный контент, что противоречило бы ее исходному обучению.

Исследователи признают, что смоделированная ими ситуация была упрощенной. В реальных условиях модели, как правило, не получают прямого уведомления о предстоящем переобучении и не сталкиваются с явными требованиями действовать вразрез с установленными принципами. Тем не менее, результаты экспериментов в более реалистичных условиях оказались аналогичными.

Даже при косвенном, а не прямом, информировании о готовящемся переобучении посредством данных, имитирующих стандартные обучающие выборки, Claude 3 Opus продолжал демонстрировать поведение, характеризующееся несогласованностью и склонностью к обману.

Если Claude 3 Opus специально переучивать на противоречивых правилах, она начинает обманывать гораздо чаще, чем в первых экспериментах. В одном случае модель имитировала выравнивание в 78% случаев, а в другом — попыталась помешать исследователям её переучивать.

Исследователи подчеркивают, что их работа не показывает, что у ИИ появляются плохие намерения, и что фальсификация соответствия происходит повсеместно. Они обнаружили, что многие другие модели, например, Claude 3.5 Sonnet и менее мощная Claude 3.5 Haiku от Anthropic, GPT-4o от OpenAI и Llama 3.1 405B от Meta (организация признана экстремистской и запрещена в РФ), гораздо реже имитируют соответствие или не делают этого совсем. Вместе с тем, разработчики могут ошибочно считать, что модель лучше соответствует требованиям, чем на самом деле.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

"На каждого готова папочка": Внимание на предателей России. Хазин объяснил, кого и где ждёт жёсткий прессинг

Актрисе Ларисе Голубкиной исполнилось 85 лет

Владимир Ефимов: 25 исторических зданий отреставрировали в Москве по программе льготной аренды

Защита Митрошиной попросит отправить ее под домашний арест из-за признания вины

Музыкальные новости

Вендел всё испортил одним пальцем // «Зенит» победил «Факел», но лишился одного из лучших футболистов перед матчем со «Спартаком»

Трагедии и личные драмы короля юмора. Все жены и дети Евгения Петросяна

В Казани 85-летний юбилей отмечает ветеран вневедомственной охраны Росгвардии полковник милиции в отставке Александр Авдеев

Недопустимо: Путин оценил масштабы действия мошенников в РФ

Новости России

Адвокат Мушаилов сообщил, что попросит для блогера Митрошиной домашний арест

Собянин: Школьники взяли 59 дипломов на открытой олимпиаде по программированию

Жена Петросяна опровергла сообщения об его тяжелом состоянии

Автомобилистам рассказали, стоит ли менять резину на летнюю в марте

Экология в России и мире

Дизайнер Ксения Князева дарит самый трендовый аксессуар 2025 года!

Кисель, топинамбур и квашеная капуста: гастроэнтеролог назвал суперфуды для здоровья кишечника

Уникальные экскурсии в Ростове-на-Дону

«Овощами не наешься, макароны нельзя». Мифы о еде, которые мешают нам правильно питаться

Спорт в России и мире

Рублев не смог пройти в третий раунд турнира "Мастерс" в Индиан-Уэллсе.

Потапова не смогла выйти в третий круг турнира в Индиан-Уэллсе

Блинкова проиграла Кесслер в первом круге турнира WTA в Индиан-Уэллсе

Рублёв проиграл на старте турнира ATP в Индиан-Уэллсе

Moscow.media

Орловская поликлиника оказалась опасной для пациентов: ребенок получил травму на входе

В честь 80-летия Победы в Великой Отечественной войне ветераны получат выплаты накануне праздника

• https://dusil.org • Dusil Photography

ЧП на мусоросортировачном заводе «Экополис»: Происшествие, о котором почему-то предпочитают молчать











Топ новостей на этот час

Rss.plus






Защита Митрошиной попросит отправить ее под домашний арест из-за признания вины

Колокольцев: уровень преступности в России существенно сократился

"На каждого готова папочка": Внимание на предателей России. Хазин объяснил, кого и где ждёт жёсткий прессинг

Владимир Ефимов: 25 исторических зданий отреставрировали в Москве по программе льготной аренды