Исследователи впервые "вскрыли мозг" ИИ и поняли, как на него можно влиять

20.06.2024 11:18

Исследователи сопоставили паттерны «активации нейронов» с концепциями и идеями, понятными людям, используя метод «обучения по словарю». Работая с миниатюрными «игрушечными» версиями языковых моделей, они обнаружили «паттерны мышления», которые активировались, когда модели обрабатывали такие концепции, как последовательности ДНК, существительные в математике и текст в верхнем регистре. Команда сомневалась, что данный метод сможет масштабироваться до размеров современных больших языковых моделей (БЯМ), не говоря уже о машинах будущего. Поэтому Anthropic создала модель обучения по словарю, способную работать с их собственной БЯМ среднего размера Claude 3 Sonnet, и приступила к масштабным испытаниям этого подхода.

В результате команда Anthropic извлекла миллионы концепций из Claude 3.0 Sonnet. Это позволило создать «концептуальную карту» внутренних состояний модели во время работы. Концепции не были ограничены языком или типом данных: идея моста Золотые Ворота активировалась при обработке изображений моста и текстов о нем на разных языках. Также модели ИИ могли обрабатывать абстрактные идеи. Ученые обнаружили функции, активирующиеся при выявлении ошибок кодирования, гендерной предвзятости, различных аспектов конфиденциальности. В «концептуальной паутине» ИИ были и «темные» области, связанные с вредоносными идеями. Оказалось, что ИИ способен хранить понятия биологического оружия, расизма, сексизма, стремления к власти, обмана и манипуляции.

Более того, ученые проанализировали взаимосвязи между различными концепциями, хранящимися в «мозге» модели. Они оценили «расстояние» между ними и построили своего рода «ментальные карты», демонстрирующие насколько тесно связаны различные идеи. Например, рядом с концепцией «мост Золотые Ворота» команда обнаружила понятия, связанные с островом Алькатрас (в заливе Сан-Франциско), баскетбольной командой «Голден Стэйт Уорриорз», губернатором Калифорнии Гэвином Ньюсомом и землетрясением в Сан-Франциско 1906 года. Аналогичная картина наблюдалась и с более абстрактными вещами.

Это показывает, что внутренняя организация концепций в модели ИИ, по крайней мере, частично соответствует человеческим представлениям о сходстве.

Этими концепциями можно манипулировать, усиливая или подавляя их. Это напрямую влияет на ответы ИИ. Исследователи начали применять метод «зажимания» (clamping) к определенным концепциям. Результаты оказались поразительными: поведение модели кардинально менялось.

Anthropic показала, что может не только создавать карту мыслительных концепций искусственного интеллекта, но и редактировать отношения внутри этой карты и играть с пониманием мира модели и, следовательно, с ее поведением.

Потенциальная польза для безопасности ИИ очевидна. Если знать, где хранятся «плохие мысли» и когда ИИ их «обдумывает», можно лучше его контролировать. Путем усиления или ослабления связи между определенными концепциями, можно исключить некоторые варианты поведения ИИ или даже «стереть» определенные идеи из его понимания мира, подобно тому как герои Джима Керри и Кейт Уинслет удаляли друг друга из воспоминаний в «Вечном сиянии чистого разума». Команда Anthropic продемонстрировала и негативный аспект этого подхода, подавив концепцию мошеннических писем. Это позволило модели обойти защитные механизмы, не позволяющие ей создавать такой контент.

Однако обнаруженные функции представляют собой небольшое подмножество всех концепций, изученных моделью во время обучения. Поиск полного набора функций с использованием текущих методов был бы непомерно затратным. Кроме того, ученые все еще на знают, как именно ИИ их использует. Иными словами, пока что полностью понять мыслительные процессы искусственного интеллекта коммерческого масштаба невозможно.

OpenAI использует похожий подход. В исследовании, опубликованном в начале июня, команда OpenAI Interpretability обнаружила 16 млн «мысленных» шаблонов в GPT-4, многие из которых можно расшифровать и сопоставить с концепциями, значимыми для человека. OpenAI, похоже, пока не углублялась в построение карт понятий или редактирование мышления ИИ, но также отмечает трудности, связанные с пониманием работы больших языковых моделей. Чтобы полностью отобразить концепции в передовых БЯМ, придется масштабироваться до миллиардов или триллионов функций.

Минобороны признали потерпевшей стороной по делу о некачественных сухпайках

Военкор Марат Хайруллин потребовал извинений от соратника главы Чечни

Музей Победы открыл экспозицию на Сахалине

Трамп заявил, что обиделся на Путина за слова в поддержку Харрис

Исследователи впервые "вскрыли мозг" ИИ и поняли, как на него можно влиять

Читайте на 123ru.net

Новини України

Личное

Документальные новости

Вопросы - ответы

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Город-герой: какой Москва встретила свой день рождения

СЕНСАЦИОННЫЕ ДАННЫЕ ДЛЯ БЕЗОПАСНОСТИ ГРАЖДАН В ОБЛАСТИ РЕЛИГИЙ. Очень важные данные для России и всего мира.

«Вопрос времени»: в США заявили о неизбежности ядерной войны

Названы самые высокооплачиваемые вакансии в финансовой сфере

В отчетной конференции Объединенного Совета ветеранов АО ЖДРМ принял участие представитель ветеранской организации Уссурийского ЛРЗ

Представитель Дзюбы — о скандале с Артемом: «Игроки «Амкала» повели себя не по-пацански»

Глушаков: Промес не пойдет в "Химки", в России он будет только в "Спартаке"

Выборы губернаторов и депутатов стартовали в России

Житель Рубцовска проехал 6500 км на велосипеде до Москвы и Краснодара

«Нужно паяльник вернуть в одно место и еще что-то сделать»: Грамматиков передумал завершать кинокарьеру

СЕНСАЦИОННЫЕ ДАННЫЕ ДЛЯ БЕЗОПАСНОСТИ ГРАЖДАН В ОБЛАСТИ РЕЛИГИЙ. Очень важные данные для России и всего мира.

Тулячка стала призером Всероссийских соревнований по конькобежному спорту

Торжественная церемония открытия выставки «Интерткань-2024. Осень»

Питчинг Релиза. Питчинг релиза Яндекс музыка. Питчинг релиза ВК.

Сотрудники «Маринс Гранд Отель Астрахань» оказали помощь фонду «Елизаветинский»

Travel-гид по России от «Авторадио»

Соболенко выиграла второй «Большой шлем» в сезоне и третий в карьере

Арина Соболенко выиграла Открытый чемпионат США — 2024

Теннисистка Петрова назвала Синнера фаворитом US Open

Теннисистка Калинская посетила матч первой ракетки мира Синнера на US Open

В Тамбове женщины за счёт несуществующих детей получали выплаты

Терминал сбора данных (ТСД) промышленного класса SAOTRON RT42G

Портативный ТСД корпоративного класса Saotron RT-T70

Топ новостей на этот час

Экс-премьер Степашин назвал Зеленского "клоуном, который обречен"

Остановившие ход времени

Прогрессивные решения для современного интерьера

По семейным обстоятельствам: новый законопроект призван сократить в России число фиктивных браков с иностранцами