Исследователи впервые "вскрыли мозг" ИИ и поняли, как на него можно влиять

20.06.2024 11:18

Исследователи сопоставили паттерны «активации нейронов» с концепциями и идеями, понятными людям, используя метод «обучения по словарю». Работая с миниатюрными «игрушечными» версиями языковых моделей, они обнаружили «паттерны мышления», которые активировались, когда модели обрабатывали такие концепции, как последовательности ДНК, существительные в математике и текст в верхнем регистре. Команда сомневалась, что данный метод сможет масштабироваться до размеров современных больших языковых моделей (БЯМ), не говоря уже о машинах будущего. Поэтому Anthropic создала модель обучения по словарю, способную работать с их собственной БЯМ среднего размера Claude 3 Sonnet, и приступила к масштабным испытаниям этого подхода.

В результате команда Anthropic извлекла миллионы концепций из Claude 3.0 Sonnet. Это позволило создать «концептуальную карту» внутренних состояний модели во время работы. Концепции не были ограничены языком или типом данных: идея моста Золотые Ворота активировалась при обработке изображений моста и текстов о нем на разных языках. Также модели ИИ могли обрабатывать абстрактные идеи. Ученые обнаружили функции, активирующиеся при выявлении ошибок кодирования, гендерной предвзятости, различных аспектов конфиденциальности. В «концептуальной паутине» ИИ были и «темные» области, связанные с вредоносными идеями. Оказалось, что ИИ способен хранить понятия биологического оружия, расизма, сексизма, стремления к власти, обмана и манипуляции.

Более того, ученые проанализировали взаимосвязи между различными концепциями, хранящимися в «мозге» модели. Они оценили «расстояние» между ними и построили своего рода «ментальные карты», демонстрирующие насколько тесно связаны различные идеи. Например, рядом с концепцией «мост Золотые Ворота» команда обнаружила понятия, связанные с островом Алькатрас (в заливе Сан-Франциско), баскетбольной командой «Голден Стэйт Уорриорз», губернатором Калифорнии Гэвином Ньюсомом и землетрясением в Сан-Франциско 1906 года. Аналогичная картина наблюдалась и с более абстрактными вещами.

Это показывает, что внутренняя организация концепций в модели ИИ, по крайней мере, частично соответствует человеческим представлениям о сходстве.

Этими концепциями можно манипулировать, усиливая или подавляя их. Это напрямую влияет на ответы ИИ. Исследователи начали применять метод «зажимания» (clamping) к определенным концепциям. Результаты оказались поразительными: поведение модели кардинально менялось.

Anthropic показала, что может не только создавать карту мыслительных концепций искусственного интеллекта, но и редактировать отношения внутри этой карты и играть с пониманием мира модели и, следовательно, с ее поведением.

Потенциальная польза для безопасности ИИ очевидна. Если знать, где хранятся «плохие мысли» и когда ИИ их «обдумывает», можно лучше его контролировать. Путем усиления или ослабления связи между определенными концепциями, можно исключить некоторые варианты поведения ИИ или даже «стереть» определенные идеи из его понимания мира, подобно тому как герои Джима Керри и Кейт Уинслет удаляли друг друга из воспоминаний в «Вечном сиянии чистого разума». Команда Anthropic продемонстрировала и негативный аспект этого подхода, подавив концепцию мошеннических писем. Это позволило модели обойти защитные механизмы, не позволяющие ей создавать такой контент.

Однако обнаруженные функции представляют собой небольшое подмножество всех концепций, изученных моделью во время обучения. Поиск полного набора функций с использованием текущих методов был бы непомерно затратным. Кроме того, ученые все еще на знают, как именно ИИ их использует. Иными словами, пока что полностью понять мыслительные процессы искусственного интеллекта коммерческого масштаба невозможно.

OpenAI использует похожий подход. В исследовании, опубликованном в начале июня, команда OpenAI Interpretability обнаружила 16 млн «мысленных» шаблонов в GPT-4, многие из которых можно расшифровать и сопоставить с концепциями, значимыми для человека. OpenAI, похоже, пока не углублялась в построение карт понятий или редактирование мышления ИИ, но также отмечает трудности, связанные с пониманием работы больших языковых моделей. Чтобы полностью отобразить концепции в передовых БЯМ, придется масштабироваться до миллиардов или триллионов функций.

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

ЦСКА — «Автомобилист». Видеообзор матча КХЛ с серией буллитов

Повороты судьбы Сергея Юшкевича

«Оскорбляют, дорого, обсчитывают». Как российские туристы разлюбили Грузию

Астроном Короткий: По всей территории России наблюдают северное сияние

Музыкальные новости

Bigpot.news

Лео Канделаки станет новым ведущим шоу «УТРО.ТНТ»

Посольство РФ в США выразило возмущение из-за оскорблений Харрис в адрес Путина

Павел Дуров раскрыл подробности создания "ВКонтакте"

Выставка «Павка Корчагин — герой Поднебесной»

Новости России

29ru.net

В Москве в Северо-Западном тоннеле столкнулись три машины

«Сегодня все страны БРИКС — это оппоненты западных стран»

ЦСКА — «Автомобилист». Видеообзор матча КХЛ с серией буллитов

Полузащитник "Динамо" Лаксальт: Тюкавин должен забивать голы

Экология в России и мире

Life24.pro

Как понять, какое у тебя давление, без тонометра

Турецкий актер Бурак Озчивит побывал на выставке Никаса Сафронова в Петербурге

К ноябрю в Катунском заповеднике начнет работу музей меда

Коллекция Tshegofatso by design

Спорт в России и мире

News.tennis

Александрова победила Кенин и вышла в третий круг турнира WTA 1000 в Ухани

«Стали хуже после коронавируса»: Медведев неприличным образом привлёк внимание к проблеме с мячами

Елену Рыбакину официально обошли в топ-5 рейтинга WTA

Медведев обыграл Циципаса и вышел в ¼ финала турнира в Шанхае

Moscow.media

News24.pro

МЧС: Трех котов, собаку, черепаху и мать с детьми спасли из горящей квартиры

Игрок "Зенита" Горшков объяснил завистью кричалку про позор российского футбола

Столичный дептранс: в Северо-Западном тоннеле затруднено движение из-за аварии

В Россию идет еще один внедорожник Nissan под китайским флагом

Читайте на 123ru.net

Разное на 123ru.net

Документальные новости

Авто Новости

Работа

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

ЦСКА — «Автомобилист». Видеообзор матча КХЛ с серией буллитов

Повороты судьбы Сергея Юшкевича

«Оскорбляют, дорого, обсчитывают». Как российские туристы разлюбили Грузию

Астроном Короткий: По всей территории России наблюдают северное сияние

Лео Канделаки станет новым ведущим шоу «УТРО.ТНТ»

Посольство РФ в США выразило возмущение из-за оскорблений Харрис в адрес Путина

Павел Дуров раскрыл подробности создания "ВКонтакте"

Выставка «Павка Корчагин — герой Поднебесной»

В Москве в Северо-Западном тоннеле столкнулись три машины

«Сегодня все страны БРИКС — это оппоненты западных стран»

ЦСКА — «Автомобилист». Видеообзор матча КХЛ с серией буллитов

Полузащитник "Динамо" Лаксальт: Тюкавин должен забивать голы

Как понять, какое у тебя давление, без тонометра

Турецкий актер Бурак Озчивит побывал на выставке Никаса Сафронова в Петербурге

К ноябрю в Катунском заповеднике начнет работу музей меда

Коллекция Tshegofatso by design

Александрова победила Кенин и вышла в третий круг турнира WTA 1000 в Ухани

«Стали хуже после коронавируса»: Медведев неприличным образом привлёк внимание к проблеме с мячами

Елену Рыбакину официально обошли в топ-5 рейтинга WTA

Медведев обыграл Циципаса и вышел в ¼ финала турнира в Шанхае

Набор абитуриентов для обучения на прокурорско-следственном факультете Военного университета Минобороны России

Беляевскую премию вручили за развитие ИТ и искусственного интеллекта

На время капремонта моста через Вою в Кировской области построили временную переправу

Мэр Москвы открыл эстакаду-связку МСД с Волгоградским проспектом

Топ новостей на этот час

Движение на «салатовой» ветке метро вводят в график после сбоя

На железной дороге Подмосковья начали проводить вечерние рейды

Кавер-группа Azaliya Band выступит на сцене ТРЦ «Нора»

Россияне по всей стране смогли увидеть полярное сияние