Башни с террасами из остроконечных зубцов появятся в Южном порту

В будущем хирургическом корпусе Можайской больницы идет реконструкция

Почти 330 детей из разных регионов совершили в праздники новогоднее путешествие по Москве

Паркет воссоздают в усадьбе Покровское-Стрешнево

Why That Chatbot Is So Good at Imitating Bart Simpson

22.11.2024 22:09

TheAtlantic.com

This is Atlantic Intelligence, a newsletter in which our writers help you wrap your mind around artificial intelligence and a new machine age. Did someone forward you this newsletter? Sign up here.

Earlier this week, The Atlantic published a new investigation by Alex Reisner into the data that are being used without permission to train generative-AI programs. In this case, dialogue from tens of thousands of movies and TV shows has been harvested by companies such as Apple, Anthropic, Meta, and Nvidia to develop large language models (or LLMs).

The data have a strange provenance: Rather than being pulled from scripts or books, the dialogue is taken from subtitle files that have been extracted from DVDs, Blu-ray discs, and internet streams. “Though this may seem like a strange source for AI-training data, subtitles are valuable because they’re a raw form of written dialogue,” Reisner writes. “They contain the rhythms and styles of spoken conversation and allow tech companies to expand generative AI’s repertoire beyond academic texts, journalism, and novels, all of which have also been used to train these programs.”

Perhaps it no longer comes as a major shock that creative humans are having their work ripped off to train machines that threaten to replace them. But evidence demonstrating exactly what data have been used, and for what purposes, is hard to come by, thanks to the secretive nature of these tech companies. “Now, at least, we know a bit more about who is caught in the machinery,” Reisner writes. “What will the world decide they are owed?”

Illustration by Matteo Giuseppe Pani / The Atlantic

There’s No Longer Any Doubt That Hollywood Writing Is Powering AI

By Alex Reisner

For as long as generative-AI chatbots have been on the internet, Hollywood writers have wondered if their work has been used to train them. The chatbots are remarkably fluent with movie references, and companies seem to be training them on all available sources. One screenwriter recently told me he’s seen generative AI reproduce close imitations of The Godfather and the 1980s TV show Alf, but he had no way to prove that a program had been trained on such material.

I can now say with absolute confidence that many AI systems have been trained on TV and film writers’ work. Not just on The Godfather and Alf, but on more than 53,000 other movies and 85,000 other TV episodes: Dialogue from all of it is included in an AI-training data set that has been used by Apple, Anthropic, Meta, Nvidia, Salesforce, Bloomberg, and other companies. I recently downloaded this data set, which I saw referenced in papers about the development of various large language models (or LLMs). It includes writing from every film nominated for Best Picture from 1950 to 2016, at least 616 episodes of The Simpsons, 170 episodes of Seinfeld, 45 episodes of Twin Peaks, and every episode of The Wire, The Sopranos, and Breaking Bad. It even includes prewritten “live” dialogue from Golden Globes and Academy Awards broadcasts. If a chatbot can mimic a crime-show mobster or a sitcom alien—or, more pressingly, if it can piece together whole shows that might otherwise require a room of writers—data like this are part of the reason why.

Read the full article.

What to Read Next

“What I found in a database Meta uses to train generative AI”: “Nobel-winning authors, Dungeons and Dragons, Christian literature, and erotica all serve as datapoints for the machine,” Alex Reisner wrote in an earlier investigation for The Atlantic.
AI’s fingerprints were all over the election: “But deepfakes and disinformation weren’t the main issues,” Matteo Wong writes.

Москвичам назвал срок наступления весны

Россия в 10 раз увеличит выпуск судов к 2030 году

Собянин: более 17 млн человек побывали в столичных музеях в 2024 году

Глава Серпухова проверил ход капитального ремонта школы № 9

«Динамо-ЛО» в четырёх сетах победило клуб «Газпром-Югра» в очередном туре мужской волейбольной Суперлиги

Башни с террасами из остроконечных зубцов появятся в Южном порту

В будущем хирургическом корпусе Можайской больницы идет реконструкция

Почти 330 детей из разных регионов совершили в праздники новогоднее путешествие по Москве

Паркет воссоздают в усадьбе Покровское-Стрешнево

Читайте на 123ru.net

Жизнь

Game24.pro

Sport 24/7

Ru24.net

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Москвичам назвал срок наступления весны

Россия в 10 раз увеличит выпуск судов к 2030 году

Собянин: более 17 млн человек побывали в столичных музеях в 2024 году

Глава Серпухова проверил ход капитального ремонта школы № 9

«Динамо-ЛО» в четырёх сетах победило клуб «Газпром-Югра» в очередном туре мужской волейбольной Суперлиги

В Иркутске сотрудники ОМОН «Удар» почтили память сослуживца, погибшего при исполнении служебного долга в Чеченской Республике

CEO LG УИЛЬЯМ ЧО ПРЕДСТАВИЛ СТРАТЕГИЮ СТРУКТУРНОЙ КОНКУРЕНТОСПОСОБНОСТИ И КАЧЕСТВЕННОГО РОСТА 2025 ГОДА

Сергей Собянин сообщил о планах строительства метро до 2030 года

Как нельзя похудеть после новогодних каникул, рассказали в депздраве Москвы

2,7 га обновленного пруда в Москве: реабилитация вернула комфорт отдыхающим

Обрушение откладывается: что ожидает вторичную недвижимость в 2025 году

Где в январе отдохнуть у теплого моря за 90 тыс. руб. на двоих с перелетом

Рекламная Афиша для Артиста.

КАКИМИ БЫ НИ БЫЛИ ДОГОВОРЫ, ДРУГИЕ ЗА НАС ВОЕВАТЬ НЕ БУДУТ

Ей 73, а выглядит максимум на 60. Секреты стиля Надежды Бабкиной, которые её стройнят и молодят

Мои пятки круглый год мягкие и без трещин. Советы для тех, у кого нет денег на дорогой салон. Женщины за 40 точно оценят

Российским теннисистам будет сложно остаться в топ‑10 рейтингов WTA и ATP, считает Чесноков

Аделаида (ATP). 2-й круг. Пол сыграет с Гинаром, Оже-Альяссим – с Казо, Шаповалов встретится с Гироном, Корда – с Давидовичем-Фокина

Директор Australian Open назвал главную конкурентку Арины Соболенко в Мельбурне

Арина Соболенко станцевала вместе с командой после первого титула в сезоне. Видео

ТСД промышленного класса Saotron RT-Т510

Кировск. Мурманская область. Кольский полуостров

Портативный ТСД корпоративного класса Saotron RT-T70

Ветераны СВО будут проходить лечение в центрах реабилитации Социального фонда

Топ новостей на этот час

Развилась двусторонняя пневмония, нарушилась речь: ресторатора Кирилла Гусева подключили к ИВЛ перед смертью

Москвичам назвал срок наступления весны

Сегодня начнется второй этап общих тестов самого крупного обновления для игры “Мир Танков”

Не упустите момент: как сэкономить 100 тысяч рублей на отдыхе после праздников

Глава Серпухова проверил ход капитального ремонта школы № 9