Las inteligencias artificiales "colapsan" si se quedan sin obras humanas de las que aprender

29.07.2024 23:42

Eldiario.es

Un estudio publicado en Nature avisa de que los sistemas entrenados por contenidos generados por otras inteligencias artificiales "pierden la percepción de la realidad"

La curva de aprendizaje de la inteligencia artificial está en riesgo: su ansia de datos es infinita pero no las obras humanas

La revolución de la inteligencia artificial apenas acaba de comenzar. Sin embargo, ya se ha encontrado con un obstáculo en el camino que amenaza el desarrollo potencial de la tecnología: la disponibilidad limitada de obras humanas de las que aprender. Estos sistemas necesitan analizar grandes cantidades de datos, de los que extraen patrones que les permiten generar su propio contenido, ya sea texto, imagen o vídeo. Cuanta más diversa es esa información, mejor será su capacidad de generalizar o hacer predicciones complejas.

El problema es que se sabe que empresas como OpenAI ya han utilizado todos los datos de alta calidad disponibles de forma pública en la red para entrenar modelos como ChatGPT. Su necesidad de seguir suministrando información a su máquina para que esta sigan mejorando ha provocado que recurra a datos de menos calidad, como lo de las redes sociales (YouTube la ha acusado de transcribir y volcar a sus bases de datos los vídeos de su plataforma, algo que prohíben sus términos de servicio) o a aquellos protegidos con derechos de autor (OpenAI ha reconocido que si hubiera respetado el copyright, habría sido “imposible” entrenar a ChatGPT).

Para evitar este tipo de charcos la industria lleva tiempo trabajando sobre una idea: ¿si los contenidos generados por inteligencia artificial tienen sentido y son técnicamente material nuevo, por qué no utilizarlos en el entrenamiento de nuevas inteligencias artificiales? Información creada por máquinas para que las máquinas puedan seguir aprendiendo. El sector los llama “datos sintéticos” y ahora mismo representan su gran esperanza de poder seguir mejorando exponencialmente los sistemas de IA sin frenar su curva de aprendizaje.

Un buen número de expertos han expresado dudas acerca de la idea por la posibilidad de que estos sistemas se conviertan en gigantescas piscinas de conocimiento endogámico, exagerando cada vez más los errores que separan a los sistemas automáticos de las creaciones humanas. Ahora, un nuevo estudio publicado Nature les da la razón. “Descubrimos que el uso indiscriminado de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes”, alertan los investigadores: “Nos referimos a este efecto como 'colapso del modelo'”.

“Colapso del modelo”

El estudio está firmado por investigadores de las universidades de Oxford, Cambridge, el Imperial College de Londres y del Instituto Vector de Canadá. Han analizado qué ocurriría si los datos sintéticos empiezan a tener un peso importante en el corpus de entrenamiento de cada nueva IA, algo que de momento no ocurre pero podría llegar mucho más pronto de lo esperado. El motivo es que los contenidos generados artificialmente están expandiéndose por Internet muy rápido, llenando ya páginas y páginas de contenido en formato texto así como audiovisual en redes sociales.

Si los nuevos modelos de IA se siguen entrenando con recursos públicos de Internet empezarán a canibalizar sus propias creaciones, “contaminando” con datos sintéticos su corpus de entrenamiento. El resultado será ese “colapso” del que avisan los investigadores: “Al ser entrenados con datos contaminados, entonces perciben erróneamente la realidad”. Pierden diversidad, repiten cada vez más elementos o frase y su capacidad para manejar situaciones nuevas o no anticipadas en su entrenamiento disminuye drásticamente.

Finalmente se llega a un circulo vicioso, “un proceso de aprendizaje degenerativo en el que los modelos comienzan a olvidar eventos improbables con el tiempo, a medida que el modelo se envenena con su propia proyección de la realidad”.

Los datos humanos, cada vez más valiosos

El estudio señala varias consecuencias de sus hallazgos. La primera es que “la ventaja del primero que llega” es aún más notoria, ya para las empresas que comenzaron a entrenar sus modelos de IA antes que la red empezara a llenarse de contenidos generados artificialmente será más sencillo impedir el envenenamiento de sus modelos.

La segunda es la importancia de los datos generados por humanos. “El valor de los datos recopilados sobre interacciones humanas genuinas con los sistemas será cada vez más valioso en presencia de contenido generado por inteligencias artificiales en datos extraídos de Internet”, destacan los investigadores.

En las últimas semanas ha habido sendas muestras del valor creciente de esos datos. Meta ha sido amonestada por las autoridades de protección de datos de la UE por tratar de utilizar los comentarios y fotografías publicadas por los usuarios de Facebook e Instagram sin avisarlos adecuadamente. Su objetivo era entrenar una nueva inteligencia artificial multipropósito. La empresa ha terminado renunciando a usar los datos de los europeos, pero en contrapartida no permitirá que su IA se utilice en territorio europeo.

Elon Musk ha realizado un movimiento similar. El dueño de Twitter (ahora renombrada a X) ha introducido sin avisar una nueva opción en la que el usuario acepta entrar a su IA, Grok, con los datos que genera en la red social. “Para mejorar continuamente tu experiencia, podemos utilizar tus posts en X, así como tus interacciones, entradas y resultados como usuario con Grok para fines de entrenamiento y perfeccionamiento. Esto también significa que tus interacciones, entradas y resultados pueden compartirse con nuestro proveedor de servicio xAI con dichos fines”, avisa en una casilla que viene marcada por defecto. Puede desactivarse en este enlace.

La jugada de Musk ha salido a la luz en los últimos días y varios abogados especialistas en protección de datos han avisado que puede contravenir la legislación europea. La autoridad de privacidad irlandesa, de la que depende la red social comprada por el multimillonario, ya ha anunciado que está investigando el asunto.

Склад загорелся на площади в 1 000 квадратных метров в Ярославле

У Фолклендских островов продолжают искать членов экипажа Argos Georgia

Двух пострадавших при взрыве на ямальском месторождении доставили в НИИ Склифосовского

Подать в суд и заставить платить хозяина: на Дону активисты предлагают, как убрать с улиц бездомных животных

“Colapso del modelo”

Los datos humanos, cada vez más valiosos

Читайте на 123ru.net

Sport 24/7

Путешествия

News in English

VIP-тусовка

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Новостная лента

Синоптики назвали самый теплый день на этой неделе в Москве

Теперь будет запрещено: пенсионеров, доживших до 70 лет, ждет внезапный сюрприз уже с начала августа

Житель Москвы обвинил жену в шпионаже, купил форму НАТО и уехал с оружием в неизвестном направлении.

Sheba: "Я единственный, кто делает крутую качественную электронную музыку"

Состав тамбовского ФК "Спартак" пополнил новый нападающий

Зачем Мишустин лично приехал к «ссыльному» губернатору

Сбежавшего из Израиля в РФ подростка-вундеркинда нашли в отеле рядом со Внуково

Не имей сто рублей, а имей сто детей. А лучше всё сразу

Новостная лента

Синоптики назвали самый теплый день на этой неделе в Москве

В Благовещенске выступит группа «Репа» — финалисты телешоу на НТВ

Обложка песни. Обложки альбомов песен. Сделать обложку для песни.

Обложка песни. Обложки альбомов песен. Сделать обложку для песни.

Гастроэнтеролог Садыков дал 3 совета, как не отравиться дыней и арбузом

Питание мамы при грудном вскармливании

Олимпийка с титулом // Теннисистка Мирра Андреева перед стартом Игр в Париже впервые выиграла турнир WTA

Теннисистка Грачева, отказавшаяся играть за Россию в пользу Франции, вылетела с Олимпиады с «баранкой» в 1-м круге

Карлос Алькарас и Рафаэль Надаль выиграли первый матч на Олимпиаде в Париже

Медведев и Андреева сыграли микст на Олимпиаде-2024 в Париже

Штат консультантов 1C-практики «Борлас» вырос до 300 человек

На туманных скалах

Ночь на болоте...

Топ новостей на этот час

Самарская область попала в рейтинг регионов России по перспективности трудоустройства

Посольство РФ рекомендовало россиянам в Венесуэле избегать выхода на улицу

Ангарский маньяк не выплатил более десяти миллионов рублей

Олег Мельниченко рассказал об истории создания памятника Давыдову