Los modelos de IA están entrenándose con fotos de niños. Y da igual que los padres traten de evitarlo

03.07.2024 17:39

ZoomNews

El organismo Human Rights Watch (HRW) lleva tiempo vigilando cómo la tecnología puede amenazar nuestros derechos y libertades, y ahora ha denunciado un nuevo problema, esta vez relacionado con la IA. Y lo más preocupante es quiénes son las víctimas de esa amenaza: los niños.

Qué hacían esas fotos de niños ahí. Una investigadora de HWR llamado Hye Jung Han descubrió el mes pasado algo inquietante. El conjunto de datos (dataset) LAION-5B, muy popular para el entrenamiento de modelos de IA, contenía una serie de 170 fotos de niños brasileños. Las imágenes procedían de blogs sobre temas parentales y personales, pero incluso había fotogramas de vídeos de YouTube poco vistos, posiblemente subidos para ser compartidos con amigos y familiares, indicaron en Wired. Los términos de servicio de YouTube prohíben capturar información que pueda identificar a una persona salvo en casis excepcionales, pero el daño parece estar hecho ya, como vimos en el pasado.

En Xataka

Las empresas que utilizan ChatGPT están descubriendo algo preocupante: no sabe guardar un secreto

Ahora han descubierto más. La misma investigadora ha encontrado otras 190 fotos de niños, esta vez procedentes de Australia. Las imágenes recorren toda la duración de la etapa infantil: desde bebés nada más nacer hasta niñas en bañador en un carnaval, pasando por niños haciendo pompas. Hay fotos de niños tribus indígenas australianas, pero en todas ellas hay un dato preocupante: los padres trataron de evitar que esas fotos quedaran expuestas al público.

Fotos robadas. En este nuevo descubrimiento se especifica cómo las fotos fueron vistas por poca gente y «tenían ciertas medidas de privacidad». No parecía posible encontrarlas con una búsqueda online, y se publicaron en blogs personales o sitios para compartir vídeos. Otras fueron publicadas por los colegios o por fotógrafos contratados por familias. «Algunas fueron subidas años o incluso una década antes de que LAION-5B fuera creado», destacan en este organismo.

Niños identicables. La investigación destacaba cómo las URLs en el conjunto de datos a veces revelan información sobre los niños, incluyendo nombres o ubicaciones donde fueron tomadas las fotos. De una foto con la descripción «dos niños, de 3 y 4 años, sonriendo de oreja a oreja mientras sostienen pinceles frente a un colorido mural» la investigadora fue capaz de obtener «los nombres completos y edades de ambos niños, y el nombre de la guardería a la que iban en Perth, en Australia Occidental». No había información sobre los niños en otros sitios en internet, lo que parece dejar claro que lso padres tomaron medidas para tratar de evitar que los niños fueran identificados.

Y seguramente esto sea solo la punta del iceberg. Como explican en HRW, sus investigadores solo han podido revisar «menos del 0,0001 % de las 5.850 millones de imágenes y descripciones de ese conjunto de datos». Han explicaba cómo «es alucinante que eso saliera de un conjunto aleatorio de unas 5.000 imágenes, y que de ellas inmediatamente aparecieran esas 190 fotos de niños australianos. Uno esperaría encontrarse con más fotos de gatos que fotos personales de niños» teniend o en cuenta que LAION-5B es teóricamente «un reflejo de toda internet».

La IA no sabe guardar secretos. Para HRW los modelos de IA son un peligro porque ya se ha demostrado que es posible recolectar información sensible y «rescatar» datos sensibles —como registros médicos— que acabaron en esos datasets con los que son entrenados.

Qué dicen los creadores de LAION-5B. Los creadores de este conjunto de datos forman parte de LAION, una ONG que deja claro que tiene una «política de tolerancia cero con el contenido ilegal». Uno de sus portavoces, Nathan Tyler, comentó en Ars Technica que están trabajando para resolver el problema, pero eliminar esas imágenes es un proceso lento y además poco efectivo. Como dice Han, eliminar los enlaces de los conjuntos de datos no cambia los modelos de IA que ya han sido entrenados con este dataset. «No puden olvidar los datos con los que se han entrenado, incluso si esos datos se borraron después del conjunto de datos [de entrenamiento]».

Imagen | Robert Collins

En Xataka | YouTube considera una violación de la privacidad que alguien use una IA para suplantarnos. Y lo podremos denunciar

–
La noticia

Los modelos de IA están entrenándose con fotos de niños. Y da igual que los padres traten de evitarlo

fue publicada originalmente en

Xataka

por
Javier Pastor

.

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Нижний Новгород вошел в топ-10 самых свободных городов

Аэропорт Шереметьево приостановил прием и отправку рейсов — Росавиация

Афанасьево – мои родные корни

День окулиста празднуют 11 ноября 2024 года

Музыкальные новости

Bigpot.news

"Лада" обыграла "Динамо" в Москве: яркая победа в матче КХЛ

Прогноз на матч Динамо Брянск – Краснодар- 9 ноября 2024 года

Дмитрий Несоленый возглавил депо «Унеча» компании «ЛокоТех-Сервис»

Исторический провал нищего «Зенита». Спасти клуб из Петербурга после позора смог только Собчак

Новости России

29ru.net

Самолёты из Санкт-Петербурга в Москву задерживаются из-за атаки БПЛА

Пиар-директор певца SHAMANа неожиданно скончался в Москве. Певец никак не прокомментировал ситуацию

Пресс-секретарь SHAMAN Антон Коробков-Землянский умер в возрасте 40 лет

Сергей Собянин сообщил о 17 сбитых на подлете к Москве БПЛА

Экология в России и мире

Life24.pro

Дистрибьюция Музыки. Дистрибьюция Музыки в России. Дистрибьюция музыки в вк. Яндекс музыка дистрибьюция. Цифровая дистрибьюция музыка. Дистрибьюция музыки под ключ.

Россия возобновила прямые рейсы ещё в одну страну на тёплом море

Займы онлайн на карту: быстро, удобно и надежно

Эти 4 сорта моркови можно посеять перед зимой и не пожалеть

Спорт в России и мире

News.tennis

Касаткина сыграет на Итоговом турнире WTA после снятия Пегулы

Российская теннисистка Анастасия Потапова сообщила о разводе

Русские ракетки развели по углам // Даниил Медведев и Андрей Рублев попали в разные группы на Nitto ATP Finals

Гауфф выиграла Итоговый турнир WTA - 2024

Moscow.media

News24.pro

Аэропорт Шереметьево приостановил прием и отправку рейсов — Росавиация

Нижний Новгород вошел в топ-10 самых свободных городов

Захарова: Байден может предпринять враждебные шаги против России

Рынок съемного жилья в России стремительно растет после отмены льготной ипотеки

Los modelos de IA están entrenándose con fotos de niños. Y da igual que los padres traten de evitarlo

Читайте на 123ru.net

Авто Новости

Досуг

News in English

Жизнь

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Нижний Новгород вошел в топ-10 самых свободных городов

Аэропорт Шереметьево приостановил прием и отправку рейсов — Росавиация

Афанасьево – мои родные корни

День окулиста празднуют 11 ноября 2024 года

"Лада" обыграла "Динамо" в Москве: яркая победа в матче КХЛ

Прогноз на матч Динамо Брянск – Краснодар- 9 ноября 2024 года

Дмитрий Несоленый возглавил депо «Унеча» компании «ЛокоТех-Сервис»

Исторический провал нищего «Зенита». Спасти клуб из Петербурга после позора смог только Собчак

Самолёты из Санкт-Петербурга в Москву задерживаются из-за атаки БПЛА

Пиар-директор певца SHAMANа неожиданно скончался в Москве. Певец никак не прокомментировал ситуацию

Пресс-секретарь SHAMAN Антон Коробков-Землянский умер в возрасте 40 лет

Сергей Собянин сообщил о 17 сбитых на подлете к Москве БПЛА

Россия возобновила прямые рейсы ещё в одну страну на тёплом море

Займы онлайн на карту: быстро, удобно и надежно

Эти 4 сорта моркови можно посеять перед зимой и не пожалеть

Касаткина сыграет на Итоговом турнире WTA после снятия Пегулы

Российская теннисистка Анастасия Потапова сообщила о разводе

Русские ракетки развели по углам // Даниил Медведев и Андрей Рублев попали в разные группы на Nitto ATP Finals

Гауфф выиграла Итоговый турнир WTA - 2024

Где-то на болотах....

История про Кошку и её Человека

"Бешеная табуретка" - в Daewoo Matiz установили мотор V6

В селе Старцево Орловского МО сгорело несколько домов

Топ новостей на этот час

Тренер воронежского «Факела» Дмитрий Пятибратов: «Второй тайм был полностью за нами»

Умер PR-директор артиста SHAMAN и известный медиаменеджер Коробков-Землянский

Аэропорт Шереметьево приостановил прием и отправку рейсов — Росавиация

«Аэрофлот» опроверг информацию о сближении самолета с беспилотником