Добавить новость

Минобороны признали потерпевшей стороной по делу о некачественных сухпайках

Военкор Марат Хайруллин потребовал извинений от соратника главы Чечни

Музей Победы открыл экспозицию на Сахалине

Трамп заявил, что обиделся на Путина за слова в поддержку Харрис



Новости по-русски


Новости сегодня

Новости от TheMoneytizer

Исследователи впервые "вскрыли мозг" ИИ и поняли, как на него можно влиять

Исследователи сопоставили паттерны «активации нейронов» с концепциями и идеями, понятными людям, используя метод «обучения по словарю». Работая с миниатюрными «игрушечными» версиями языковых моделей, они обнаружили «паттерны мышления», которые активировались, когда модели обрабатывали такие концепции, как последовательности ДНК, существительные в математике и текст в верхнем регистре. Команда сомневалась, что данный метод сможет масштабироваться до размеров современных больших языковых моделей (БЯМ), не говоря уже о машинах будущего. Поэтому Anthropic создала модель обучения по словарю, способную работать с их собственной БЯМ среднего размера Claude 3 Sonnet, и приступила к масштабным испытаниям этого подхода.

В результате команда Anthropic извлекла миллионы концепций из Claude 3.0 Sonnet. Это позволило создать «концептуальную карту» внутренних состояний модели во время работы. Концепции не были ограничены языком или типом данных: идея моста Золотые Ворота активировалась при обработке изображений моста и текстов о нем на разных языках. Также модели ИИ могли обрабатывать абстрактные идеи. Ученые обнаружили функции, активирующиеся при выявлении ошибок кодирования, гендерной предвзятости, различных аспектов конфиденциальности. В «концептуальной паутине» ИИ были и «темные» области, связанные с вредоносными идеями. Оказалось, что ИИ способен хранить понятия биологического оружия, расизма, сексизма, стремления к власти, обмана и манипуляции.

Более того, ученые проанализировали взаимосвязи между различными концепциями, хранящимися в «мозге» модели. Они оценили «расстояние» между ними и построили своего рода «ментальные карты», демонстрирующие насколько тесно связаны различные идеи. Например, рядом с концепцией «мост Золотые Ворота» команда обнаружила понятия, связанные с островом Алькатрас (в заливе Сан-Франциско), баскетбольной командой «Голден Стэйт Уорриорз», губернатором Калифорнии Гэвином Ньюсомом и землетрясением в Сан-Франциско 1906 года. Аналогичная картина наблюдалась и с более абстрактными вещами.

Это показывает, что внутренняя организация концепций в модели ИИ, по крайней мере, частично соответствует человеческим представлениям о сходстве.

Этими концепциями можно манипулировать, усиливая или подавляя их. Это напрямую влияет на ответы ИИ. Исследователи начали применять метод «зажимания» (clamping) к определенным концепциям. Результаты оказались поразительными: поведение модели кардинально менялось.

Anthropic показала, что может не только создавать карту мыслительных концепций искусственного интеллекта, но и редактировать отношения внутри этой карты и играть с пониманием мира модели и, следовательно, с ее поведением.

Потенциальная польза для безопасности ИИ очевидна. Если знать, где хранятся «плохие мысли» и когда ИИ их «обдумывает», можно лучше его контролировать. Путем усиления или ослабления связи между определенными концепциями, можно исключить некоторые варианты поведения ИИ или даже «стереть» определенные идеи из его понимания мира, подобно тому как герои Джима Керри и Кейт Уинслет удаляли друг друга из воспоминаний в «Вечном сиянии чистого разума». Команда Anthropic продемонстрировала и негативный аспект этого подхода, подавив концепцию мошеннических писем. Это позволило модели обойти защитные механизмы, не позволяющие ей создавать такой контент.

Однако обнаруженные функции представляют собой небольшое подмножество всех концепций, изученных моделью во время обучения. Поиск полного набора функций с использованием текущих методов был бы непомерно затратным. Кроме того, ученые все еще на знают, как именно ИИ их использует. Иными словами, пока что полностью понять мыслительные процессы искусственного интеллекта коммерческого масштаба невозможно.

OpenAI использует похожий подход. В исследовании, опубликованном в начале июня, команда OpenAI Interpretability обнаружила 16 млн «мысленных» шаблонов в GPT-4, многие из которых можно расшифровать и сопоставить с концепциями, значимыми для человека. OpenAI, похоже, пока не углублялась в построение карт понятий или редактирование мышления ИИ, но также отмечает трудности, связанные с пониманием работы больших языковых моделей. Чтобы полностью отобразить концепции в передовых БЯМ, придется масштабироваться до миллиардов или триллионов функций.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Город-герой: какой Москва встретила свой день рождения

СЕНСАЦИОННЫЕ ДАННЫЕ ДЛЯ БЕЗОПАСНОСТИ ГРАЖДАН В ОБЛАСТИ РЕЛИГИЙ. Очень важные данные для России и всего мира.

«Вопрос времени»: в США заявили о неизбежности ядерной войны

Названы самые высокооплачиваемые вакансии в финансовой сфере

Музыкальные новости

В отчетной конференции Объединенного Совета ветеранов АО ЖДРМ принял участие представитель ветеранской организации Уссурийского ЛРЗ

Представитель Дзюбы — о скандале с Артемом: «Игроки «Амкала» повели себя не по-пацански»

Глушаков: Промес не пойдет в "Химки", в России он будет только в "Спартаке"

Выборы губернаторов и депутатов стартовали в России

Новости России

Житель Рубцовска проехал 6500 км на велосипеде до Москвы и Краснодара

«Нужно паяльник вернуть в одно место и еще что-то сделать»: Грамматиков передумал завершать кинокарьеру

СЕНСАЦИОННЫЕ ДАННЫЕ ДЛЯ БЕЗОПАСНОСТИ ГРАЖДАН В ОБЛАСТИ РЕЛИГИЙ. Очень важные данные для России и всего мира.

Тулячка стала призером Всероссийских соревнований по конькобежному спорту

Экология в России и мире

Торжественная церемония открытия выставки «Интерткань-2024. Осень»

Питчинг Релиза. Питчинг релиза Яндекс музыка. Питчинг релиза ВК.

Сотрудники «Маринс Гранд Отель Астрахань» оказали помощь фонду «Елизаветинский»

Travel-гид по России от «Авторадио»

Спорт в России и мире

Соболенко выиграла второй «Большой шлем» в сезоне и третий в карьере

Арина Соболенко выиграла Открытый чемпионат США — 2024

Теннисистка Петрова назвала Синнера фаворитом US Open

Теннисистка Калинская посетила матч первой ракетки мира Синнера на US Open

Moscow.media

В Тамбове женщины за счёт несуществующих детей получали выплаты

Терминал сбора данных (ТСД) промышленного класса SAOTRON RT42G

Портативный ТСД корпоративного класса Saotron RT-T70

Филиал № 4 ОСФР по Москве и Московской области информирует: Гражданам Москвы и Московской области, получившим тяжелые производственные травмы, выданы автомобили марки «Лада Гранта»











Топ новостей на этот час

Rss.plus






Экс-премьер Степашин назвал Зеленского "клоуном, который обречен"

Остановившие ход времени

Прогрессивные решения для современного интерьера

По семейным обстоятельствам: новый законопроект призван сократить в России число фиктивных браков с иностранцами