Las inteligencias artificiales "colapsan" si se quedan sin obras humanas de las que aprender

29.07.2024 23:42

Eldiario.es

Un estudio publicado en Nature avisa de que los sistemas entrenados por contenidos generados por otras inteligencias artificiales "pierden la percepción de la realidad"

La curva de aprendizaje de la inteligencia artificial está en riesgo: su ansia de datos es infinita pero no las obras humanas

La revolución de la inteligencia artificial apenas acaba de comenzar. Sin embargo, ya se ha encontrado con un obstáculo en el camino que amenaza el desarrollo potencial de la tecnología: la disponibilidad limitada de obras humanas de las que aprender. Estos sistemas necesitan analizar grandes cantidades de datos, de los que extraen patrones que les permiten generar su propio contenido, ya sea texto, imagen o vídeo. Cuanta más diversa es esa información, mejor será su capacidad de generalizar o hacer predicciones complejas.

El problema es que se sabe que empresas como OpenAI ya han utilizado todos los datos de alta calidad disponibles de forma pública en la red para entrenar modelos como ChatGPT. Su necesidad de seguir suministrando información a su máquina para que esta sigan mejorando ha provocado que recurra a datos de menos calidad, como lo de las redes sociales (YouTube la ha acusado de transcribir y volcar a sus bases de datos los vídeos de su plataforma, algo que prohíben sus términos de servicio) o a aquellos protegidos con derechos de autor (OpenAI ha reconocido que si hubiera respetado el copyright, habría sido “imposible” entrenar a ChatGPT).

Para evitar este tipo de charcos la industria lleva tiempo trabajando sobre una idea: ¿si los contenidos generados por inteligencia artificial tienen sentido y son técnicamente material nuevo, por qué no utilizarlos en el entrenamiento de nuevas inteligencias artificiales? Información creada por máquinas para que las máquinas puedan seguir aprendiendo. El sector los llama “datos sintéticos” y ahora mismo representan su gran esperanza de poder seguir mejorando exponencialmente los sistemas de IA sin frenar su curva de aprendizaje.

Un buen número de expertos han expresado dudas acerca de la idea por la posibilidad de que estos sistemas se conviertan en gigantescas piscinas de conocimiento endogámico, exagerando cada vez más los errores que separan a los sistemas automáticos de las creaciones humanas. Ahora, un nuevo estudio publicado Nature les da la razón. “Descubrimos que el uso indiscriminado de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes”, alertan los investigadores: “Nos referimos a este efecto como 'colapso del modelo'”.

“Colapso del modelo”

El estudio está firmado por investigadores de las universidades de Oxford, Cambridge, el Imperial College de Londres y del Instituto Vector de Canadá. Han analizado qué ocurriría si los datos sintéticos empiezan a tener un peso importante en el corpus de entrenamiento de cada nueva IA, algo que de momento no ocurre pero podría llegar mucho más pronto de lo esperado. El motivo es que los contenidos generados artificialmente están expandiéndose por Internet muy rápido, llenando ya páginas y páginas de contenido en formato texto así como audiovisual en redes sociales.

Si los nuevos modelos de IA se siguen entrenando con recursos públicos de Internet empezarán a canibalizar sus propias creaciones, “contaminando” con datos sintéticos su corpus de entrenamiento. El resultado será ese “colapso” del que avisan los investigadores: “Al ser entrenados con datos contaminados, entonces perciben erróneamente la realidad”. Pierden diversidad, repiten cada vez más elementos o frase y su capacidad para manejar situaciones nuevas o no anticipadas en su entrenamiento disminuye drásticamente.

Finalmente se llega a un circulo vicioso, “un proceso de aprendizaje degenerativo en el que los modelos comienzan a olvidar eventos improbables con el tiempo, a medida que el modelo se envenena con su propia proyección de la realidad”.

Los datos humanos, cada vez más valiosos

El estudio señala varias consecuencias de sus hallazgos. La primera es que “la ventaja del primero que llega” es aún más notoria, ya para las empresas que comenzaron a entrenar sus modelos de IA antes que la red empezara a llenarse de contenidos generados artificialmente será más sencillo impedir el envenenamiento de sus modelos.

La segunda es la importancia de los datos generados por humanos. “El valor de los datos recopilados sobre interacciones humanas genuinas con los sistemas será cada vez más valioso en presencia de contenido generado por inteligencias artificiales en datos extraídos de Internet”, destacan los investigadores.

En las últimas semanas ha habido sendas muestras del valor creciente de esos datos. Meta ha sido amonestada por las autoridades de protección de datos de la UE por tratar de utilizar los comentarios y fotografías publicadas por los usuarios de Facebook e Instagram sin avisarlos adecuadamente. Su objetivo era entrenar una nueva inteligencia artificial multipropósito. La empresa ha terminado renunciando a usar los datos de los europeos, pero en contrapartida no permitirá que su IA se utilice en territorio europeo.

Elon Musk ha realizado un movimiento similar. El dueño de Twitter (ahora renombrada a X) ha introducido sin avisar una nueva opción en la que el usuario acepta entrar a su IA, Grok, con los datos que genera en la red social. “Para mejorar continuamente tu experiencia, podemos utilizar tus posts en X, así como tus interacciones, entradas y resultados como usuario con Grok para fines de entrenamiento y perfeccionamiento. Esto también significa que tus interacciones, entradas y resultados pueden compartirse con nuestro proveedor de servicio xAI con dichos fines”, avisa en una casilla que viene marcada por defecto. Puede desactivarse en este enlace.

La jugada de Musk ha salido a la luz en los últimos días y varios abogados especialistas en protección de datos han avisado que puede contravenir la legislación europea. La autoridad de privacidad irlandesa, de la que depende la red social comprada por el multimillonario, ya ha anunciado que está investigando el asunto.

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

В Москве поймали мужчин, проникших в цирк ради острых ощущений

Штрафы на 7 млн рублей за незаконный сброс стройотходов выписали в Подмосковье летом

В Карелии арестовали бизнесмена, виновного в отравлении 80 человек

Новый сезон откроет постановка китайского режиссера

Музыкальные новости

Bigpot.news

Сотрудники Росгвардии задержали нетрезвого водителя в подмосковных Люберцах

Токсиколог Кутушов назвал привычку ставить много будильников опасной для здоровья

Сергей Собянин рассказал о задачах по повышению качества городской среды

Сергей Иванов предложил расширить программу субсидированных перелётов

Новости России

29ru.net

Новый сезон откроет постановка китайского режиссера

РЕН ТВ: прокурор Москвы Денис Попов покинул свой пост

В Тульской области в складском помещении на заводе «Пластик» произошел пожар (видео)

Суд вынес приговор аферистам, занимавшимся перекупкой билетов в знаменитые театры

Экология в России и мире

Life24.pro

Российские туристы массово устремились в эти города в сентябре: спрос на некоторые подскочил в 7 раз

От высокого холестерина спасут яблоки? Врач объяснила, можно ли заменять статины на продукты и пищевые добавки

В Marins Grand Hotel Астрахань теперь можно зарядить электроавтомобиль

Грибная охота: токсиколог Кутушов рассказал, как избежать отравления и собирать только безопасные грибы

Спорт в России и мире

News.tennis

Матч Медведева и Боргеша на US Open прервали из-за пожарной тревоги

Теннисистка Петрова: допинг-скандал не сказался на игре Синнера с Медведевым

Зверев вышел в четвертьфинал Открытого чемпионата США, где сыграет с Фритцем

«Он открыто кричал на нее». Появились подробности расставания Рыбакиной с тренером

Moscow.media

News24.pro

Кондуки

Запущено движение по дороге от Большой Филевской улицы до ТТК в Москве – Сергей Собянин

МОШЕННИЧЕСТВО «ПОД ПРИКРЫТИЕМ»?

Филиал № 4 ОСФР по Москве и Московской области информирует: 2,5 млн жителей Москвы и Московской области получили пособия по временной нетрудоспособности с начала 2024 года

«Спартак» останется без новичка по нелепой причине? Всему виной скандальное видео

Вильфанд: 5 сентября установлен рекорд атмосферного давления в Москве

Штрафы на 7 млн рублей за незаконный сброс стройотходов выписали в Подмосковье летом

Как русский герой победил вирус

“Colapso del modelo”

Los datos humanos, cada vez más valiosos

Читайте на 123ru.net

Вопросы - ответы

Авто Новости

VIP-тусовка

Модные новости

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

В Москве поймали мужчин, проникших в цирк ради острых ощущений

Штрафы на 7 млн рублей за незаконный сброс стройотходов выписали в Подмосковье летом

В Карелии арестовали бизнесмена, виновного в отравлении 80 человек

Новый сезон откроет постановка китайского режиссера

Сотрудники Росгвардии задержали нетрезвого водителя в подмосковных Люберцах

Токсиколог Кутушов назвал привычку ставить много будильников опасной для здоровья

Сергей Собянин рассказал о задачах по повышению качества городской среды

Сергей Иванов предложил расширить программу субсидированных перелётов

Новый сезон откроет постановка китайского режиссера

РЕН ТВ: прокурор Москвы Денис Попов покинул свой пост

В Тульской области в складском помещении на заводе «Пластик» произошел пожар (видео)

Суд вынес приговор аферистам, занимавшимся перекупкой билетов в знаменитые театры

Российские туристы массово устремились в эти города в сентябре: спрос на некоторые подскочил в 7 раз

От высокого холестерина спасут яблоки? Врач объяснила, можно ли заменять статины на продукты и пищевые добавки

В Marins Grand Hotel Астрахань теперь можно зарядить электроавтомобиль

Грибная охота: токсиколог Кутушов рассказал, как избежать отравления и собирать только безопасные грибы

Матч Медведева и Боргеша на US Open прервали из-за пожарной тревоги

Теннисистка Петрова: допинг-скандал не сказался на игре Синнера с Медведевым

Зверев вышел в четвертьфинал Открытого чемпионата США, где сыграет с Фритцем

«Он открыто кричал на нее». Появились подробности расставания Рыбакиной с тренером

Кондуки

Запущено движение по дороге от Большой Филевской улицы до ТТК в Москве – Сергей Собянин

МОШЕННИЧЕСТВО «ПОД ПРИКРЫТИЕМ»?

Топ новостей на этот час

Охрана труда под полным контролем

Как русский герой победил вирус

Штрафы на 7 млн рублей за незаконный сброс стройотходов выписали в Подмосковье летом

«Спасибо всем за поддержку и любовь!»: Дуров впервые прокомментировал задержание