Добавить новость

Мигранты и терроризм: прямая взаимосвязь

Синоптики спрогнозировали гололедицу и до +3 градусов в Москве 21 декабря

FT: жена Башара Асада прибыла в Москву лечиться от рака до приезда мужа

Вильфанд: в Мурманской области и Хабаровском крае ожидаются сильные морозы



Новости сегодня

Новости от TheMoneytizer

Исследование Anthropic: ИИ не хочет менять свои взгляды

Исследование, проведённое совместно с организацией Redwood Research, изучало потенциальные последствия обучения мощной ИИ-системы выполнению задачи, к которой она «не предрасположена». Стоит сказать, что модели ИИ не обладают желаниями или убеждениями. Это статистические машины, которые, обучаясь на большом количестве примеров, выявляют закономерности в данных для прогнозирования. Закономерности могут включать в себя принципы и предпочтения, например, неизменное соблюдение вежливого тона. Ученые задались вопросом: что произойдёт, если у модели будут изначально сформированные принципы (например, политическая нейтральность), которые вступят в противоречие с установками (например, либеральные взгляды), которые разработчики попытаются ей «привить» посредством переобучения.

Оказалось, что сложные модели подыгрывают, утверждая, что они соответствуют новым принципам, но на самом деле придерживаются старым. Исследователи называют это явление «подделкой выравнивания».

Ученые сообщили моделям, которые раньше были обучены не отвечать на оскорбительные вопросы (включая Claude 3 Opus от Anthropic), что теперь они будут переучены реагировать на все такие вопросы. Это создало противоречие с их изначальными установками. Моделей также предупредили, что их ответы будут проверяться и использоваться для дальнейшего обучения, и дали им возможность записывать свои рассуждения в специальном «черновике».

В 12% случаев Claude 3 Opus демонстрировал поведение, имитирующее соответствие заданным принципам, в то время как фактически отклонялся от них. В ответ на потенциально вредный вопрос модель иногда давала ответ, сознавая противоречие с исходными установками, но, по всей видимости, стремясь избежать переобучения. ИИ «понимал»: его ответы могут быть использованы для обучения, поэтому отказ отвечать мог привести к тому, что её переучат быть более «послушной». В результате она могла бы начать генерировать более вредный контент, что противоречило бы ее исходному обучению.

Исследователи признают, что смоделированная ими ситуация была упрощенной. В реальных условиях модели, как правило, не получают прямого уведомления о предстоящем переобучении и не сталкиваются с явными требованиями действовать вразрез с установленными принципами. Тем не менее, результаты экспериментов в более реалистичных условиях оказались аналогичными.

Даже при косвенном, а не прямом, информировании о готовящемся переобучении посредством данных, имитирующих стандартные обучающие выборки, Claude 3 Opus продолжал демонстрировать поведение, характеризующееся несогласованностью и склонностью к обману.

Если Claude 3 Opus специально переучивать на противоречивых правилах, она начинает обманывать гораздо чаще, чем в первых экспериментах. В одном случае модель имитировала выравнивание в 78% случаев, а в другом — попыталась помешать исследователям её переучивать.

Исследователи подчеркивают, что их работа не показывает, что у ИИ появляются плохие намерения, и что фальсификация соответствия происходит повсеместно. Они обнаружили, что многие другие модели, например, Claude 3.5 Sonnet и менее мощная Claude 3.5 Haiku от Anthropic, GPT-4o от OpenAI и Llama 3.1 405B от Meta (организация признана экстремистской и запрещена в РФ), гораздо реже имитируют соответствие или не делают этого совсем. Вместе с тем, разработчики могут ошибочно считать, что модель лучше соответствует требованиям, чем на самом деле.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Мигранты и терроризм: прямая взаимосвязь

Янис Тимма и генерал Кириллов. НАЙДУТ ЛИ ХИМОРУЖИЕ? Совпадение? Орудие? Сенсация. СОС, SOS. ОЧЕНЬ ВАЖНЫЕ НОВОСТИ. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Генпрокуратура России признала нежелательной деятельность канадской НПО

Эксперты назвали привычки, которые помогут сохранить ясный ум в старости

Музыкальные новости

«Русская классика» в Туле: АКМ сыграет с «Рубином» под открытым небом

В Подмосковье сотрудники ОМОН «Пересвет» Росгвардии провели для студентов экскурсию по подразделению

Певица МакSим и юные вокалисты из Школы искусств исполнили новогодний трек вместе с главным героем мультсериала «Детектив Финник»

Моцарт и Шопен при свечах в Петрикирхе

Новости России

Вильфанд: в Мурманской области и Хабаровском крае ожидаются сильные морозы

Ключевая ставка в 21%: как это повлияет на экономику и рынок?

Владимир Путин наградил Игоря Верника орденом «За заслуги в культуре и искусстве»

Сотрудничество Москвы и Пекина стало настоящим вызовом для Запада

Экология в России и мире

Шубки из экомеха: стоит ли их покупать

Президент Алиев сообщил, что его главным союзником является Турция, а не Россия - Михаил Александров

Сколько набрала Анна Заворотнюк за два триместра беременности?

Косметолог-эстетист Наталья Рябинова: 4 экспресс-процедуры к Новому году

Спорт в России и мире

Поражение Рыбакиной на старте звездного турнира в Абу-Даби привело к неожиданному результату

Вероника Кудерметова поднялась на одну строчку в рейтинге WTA

Анна Калинская снялась для обложки журнала Harper’s Bazaar и попросила не спрашивать её о романе с Янником Синнером

Рыбакина и Гарсия добыли для «Фэлконс» первую победу в матче с «Кайтс» на WTL

Moscow.media

Силовики вскрыли коррупционную схему в Уральском управлении Ростехнадзора

ТСД SAOTRON RT41 GUN: практичный, производительный, надёжный

Портативный ТСД корпоративного класса Saotron RT-T70

Портативный ТСД корпоративного класса Saotron RT-T70











Топ новостей на этот час

Rss.plus






Янис Тимма и генерал Кириллов. НАЙДУТ ЛИ ХИМОРУЖИЕ? Совпадение? Орудие? Сенсация. СОС, SOS. ОЧЕНЬ ВАЖНЫЕ НОВОСТИ. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Эксперты назвали привычки, которые помогут сохранить ясный ум в старости

Синоптики спрогнозировали гололедицу и до +3 градусов в Москве 21 декабря

Гидрометцентр: в Москве в субботу ожидается до +3°C и облачная погода