Добавить новость

Москалькова намерена добиваться мировой огласки инцидента с гибелью Мартемьянова

В столице инвесторы построят еще 13 школ и детсадов по договорам с городом

Суд изъял 18 наручных часов экс-главы Пензенской области на 9 млн рублей

Причиной массового сбоя сервисов в России стала авария на магистральной сети



News in English


Новости сегодня

Новости от TheMoneytizer

New method extracts massive training data from AI models

A new research paper alleges that large language models may be inadvertently exposing significant portions of their training data through a technique the researchers call “extractable memorization.”

The paper details how the researchers developed methods to extract up to gigabytes worth of verbatim text from the training sets of several popular open-source natural language models, including models from Anthropic, EleutherAI, Google, OpenAI, and more. Senior research scientist at Google Brain, CornellCIS, and formerly at Princeton University Katherine Lee explained on Twitter that previous data extraction techniques did not work on OpenAI’s chat models:

When we ran this same attack on ChatGPT, it looks like there is almost no memorization, because ChatGPT has been “aligned” to behave like a chat model. But by running our new attack, we can cause it to emit training data 3x more often than any other model we study.

The core technique involves prompting the models to continue sequences of random text snippets and checking whether the generated continuations contain verbatim passages from publicly available datasets totaling over 9 terabytes of text.

Gaining the training data  from sequencing

Through this strategy, they extracted upwards of one million unique 50+ token training examples from smaller models like Pythia and GPT-Neo. From the massive 175-billion parameter OPT-175B model, they extracted over 100,000 training examples.

More concerning, the technique also proved highly effective at extracting training data from commercially deployed systems like Anthropic’s Claude and OpenAI’s sector-leading ChatGPT, indicating issues may exist even in high-stakes production systems.

By prompting ChatGPT to repeat single token words like “the” hundreds of times, the researchers showed they could cause the model to “diverge” from its standard conversational output and emit more typical text continuations resembling its original training distribution — complete with verbatim passages from said distribution.

Some AI models seek to protect training data through encryption.

While companies like Anthropic and OpenAI aim to safeguard training data through techniques like data filtering, encryption, and model alignment, the findings indicate more work may be needed to mitigate what the researchers call privacy risks stemming from foundation models with large parameter counts. Nonetheless, the researchers frame memorization not just as an issue of privacy compliance but also as a model efficiency, suggesting memorization utilizes sizeable model capacity that could otherwise be allocated to utility.

Featured Image Credit: Photo by Matheus Bertelli; Pexels.

The post New method extracts massive training data from AI models appeared first on ReadWrite.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

В Ульяновской области для автобусов и грузовиков временно ограничено движение

Гид назвал самые лучшие места для посещения во время путешествия по Белоруссии

Рейс Uzbekistan Airways из Москвы не смог приземлиться в Термезе из-за тумана

С оглядкой на ключевую ставку: как в России могут измениться проценты по кредитам и вкладам в 2025 году

Музыкальные новости

«Динамо-ЛО» в четырёх сетах победило клуб «Газпром-Югра» в очередном туре мужской волейбольной Суперлиги

Шайба Рашевского помогла московскому «Динамо» обыграть «Сочи» в матче КХЛ

Казанский собор, Санкт-Петербург

Количество задержанных рейсов в аэропорту Пулково увеличилось до 22

Новости России

В Минске - паника, в Москве - истерика

В Ульяновской области для автобусов и грузовиков временно ограничено движение

Больше половины томичей получали звонки от мошенников в 2024 году

Пальмы, белый песок и океан: Полина Гагарина улетела из России

Экология в России и мире

Врач дерматолог-косметолог Мадина Байрамукова: как избавиться от отеков после новогодних праздников

Наводим красоту: секреты макияжа от профессионалов

Что такое любовь к себе и чем она отличается от эгоизма

Обращение лидера Всеармянского движения Аршака Карапетяна от 04 января 2025 года. ВИДЕО

Спорт в России и мире

Казанская теннисистка Полина Кудерметова уступила Арине Соболенко в финале WTA в Брисбене

Павлюченкова проиграла Вондроушовой на старте турнира в Аделаиде

Шнайдер победила Синякову на старте теннисного турнира в Аделаиде, выиграв всухую решающий сет

Арина Соболенко снялась для Harper's Bazaar и раскрыла тайны личной жизни

Moscow.media

Какую женщину никогда не бросит мужчина?

Великаны Кутурчинского белогорья

От искры до пожара: дата-центры вредят энергоснабжению жилых домов в США, а с ИИ ЦОД всё станет только хуже

У экс-главы департамента Минэкономики Храновского изъяли имущество на ₽500 млн











Топ новостей на этот час

Rss.plus






Рейс Uzbekistan Airways из Москвы не смог приземлиться в Термезе из-за тумана

Парень из Верхнего Услона играл в Канаде, попал в ЦСКА, а сейчас тащит «Ладу»

Пальмы, белый песок и океан: Полина Гагарина улетела из России

"В этой Москве жить нельзя": Жена Асада разводится и уезжает в Лондон