Добавить новость

Московский товарооборот со странами БРИКС ...

Десятки тысяч жителей столичного региона получили гигабитный интернет

В Москве зафиксировали рекордно высокое атмосферное давление

Дефицит кадров зафиксировали в российской гостиничной отрасли

World News


Новости сегодня

Новости от TheMoneytizer

Las inteligencias artificiales "colapsan" si se quedan sin obras humanas de las que aprender

Un estudio publicado en Nature avisa de que los sistemas entrenados por contenidos generados por otras inteligencias artificiales "pierden la percepción de la realidad"

La curva de aprendizaje de la inteligencia artificial está en riesgo: su ansia de datos es infinita pero no las obras humanas

La revolución de la inteligencia artificial apenas acaba de comenzar. Sin embargo, ya se ha encontrado con un obstáculo en el camino que amenaza el desarrollo potencial de la tecnología: la disponibilidad limitada de obras humanas de las que aprender. Estos sistemas necesitan analizar grandes cantidades de datos, de los que extraen patrones que les permiten generar su propio contenido, ya sea texto, imagen o vídeo. Cuanta más diversa es esa información, mejor será su capacidad de generalizar o hacer predicciones complejas.

El problema es que se sabe que empresas como OpenAI ya han utilizado todos los datos de alta calidad disponibles de forma pública en la red para entrenar modelos como ChatGPT. Su necesidad de seguir suministrando información a su máquina para que esta sigan mejorando ha provocado que recurra a datos de menos calidad, como lo de las redes sociales (YouTube la ha acusado de transcribir y volcar a sus bases de datos los vídeos de su plataforma, algo que prohíben sus términos de servicio) o a aquellos protegidos con derechos de autor (OpenAI ha reconocido que si hubiera respetado el copyright, habría sido “imposible” entrenar a ChatGPT).

Para evitar este tipo de charcos la industria lleva tiempo trabajando sobre una idea: ¿si los contenidos generados por inteligencia artificial tienen sentido y son técnicamente material nuevo, por qué no utilizarlos en el entrenamiento de nuevas inteligencias artificiales? Información creada por máquinas para que las máquinas puedan seguir aprendiendo. El sector los llama “datos sintéticos” y ahora mismo representan su gran esperanza de poder seguir mejorando exponencialmente los sistemas de IA sin frenar su curva de aprendizaje.

Un buen número de expertos han expresado dudas acerca de la idea por la posibilidad de que estos sistemas se conviertan en gigantescas piscinas de conocimiento endogámico, exagerando cada vez más los errores que separan a los sistemas automáticos de las creaciones humanas. Ahora, un nuevo estudio publicado Nature les da la razón. “Descubrimos que el uso indiscriminado de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes”, alertan los investigadores: “Nos referimos a este efecto como 'colapso del modelo'”.

“Colapso del modelo”

El estudio está firmado por investigadores de las universidades de Oxford, Cambridge, el Imperial College de Londres y del Instituto Vector de Canadá. Han analizado qué ocurriría si los datos sintéticos empiezan a tener un peso importante en el corpus de entrenamiento de cada nueva IA, algo que de momento no ocurre pero podría llegar mucho más pronto de lo esperado. El motivo es que los contenidos generados artificialmente están expandiéndose por Internet muy rápido, llenando ya páginas y páginas de contenido en formato texto así como audiovisual en redes sociales.

Si los nuevos modelos de IA se siguen entrenando con recursos públicos de Internet empezarán a canibalizar sus propias creaciones, “contaminando” con datos sintéticos su corpus de entrenamiento. El resultado será ese “colapso” del que avisan los investigadores: “Al ser entrenados con datos contaminados, entonces perciben erróneamente la realidad”. Pierden diversidad, repiten cada vez más elementos o frase y su capacidad para manejar situaciones nuevas o no anticipadas en su entrenamiento disminuye drásticamente.

Finalmente se llega a un circulo vicioso, “un proceso de aprendizaje degenerativo en el que los modelos comienzan a olvidar eventos improbables con el tiempo, a medida que el modelo se envenena con su propia proyección de la realidad”.

Los datos humanos, cada vez más valiosos

El estudio señala varias consecuencias de sus hallazgos. La primera es que “la ventaja del primero que llega” es aún más notoria, ya para las empresas que comenzaron a entrenar sus modelos de IA antes que la red empezara a llenarse de contenidos generados artificialmente será más sencillo impedir el envenenamiento de sus modelos.

La segunda es la importancia de los datos generados por humanos. “El valor de los datos recopilados sobre interacciones humanas genuinas con los sistemas será cada vez más valioso en presencia de contenido generado por inteligencias artificiales en datos extraídos de Internet”, destacan los investigadores.

En las últimas semanas ha habido sendas muestras del valor creciente de esos datos. Meta ha sido amonestada por las autoridades de protección de datos de la UE por tratar de utilizar los comentarios y fotografías publicadas por los usuarios de Facebook e Instagram sin avisarlos adecuadamente. Su objetivo era entrenar una nueva inteligencia artificial multipropósito. La empresa ha terminado renunciando a usar los datos de los europeos, pero en contrapartida no permitirá que su IA se utilice en territorio europeo.

Elon Musk ha realizado un movimiento similar. El dueño de Twitter (ahora renombrada a X) ha introducido sin avisar una nueva opción en la que el usuario acepta entrar a su IA, Grok, con los datos que genera en la red social. “Para mejorar continuamente tu experiencia, podemos utilizar tus posts en X, así como tus interacciones, entradas y resultados como usuario con Grok para fines de entrenamiento y perfeccionamiento. Esto también significa que tus interacciones, entradas y resultados pueden compartirse con nuestro proveedor de servicio xAI con dichos fines”, avisa en una casilla que viene marcada por defecto. Puede desactivarse en este enlace.

La jugada de Musk ha salido a la luz en los últimos días y varios abogados especialistas en protección de datos han avisado que puede contravenir la legislación europea. La autoridad de privacidad irlandesa, de la que depende la red social comprada por el multimillonario, ya ha anunciado que está investigando el asunto.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Водные процедуры провели в Москве ко Дню города

Аномалии с китайским юанем – курс рубля неизбежно изменится

«Ни Билл Гейтс, ни Стив Джобс, ни Илон Маск - подобно Дурову - ничего не придумали сами»

Радимов: «Спартак» становится слишком зависимым от Барко

Музыкальные новости

Встроенный шкаф на заказ от производителя в Санкт-Петербурге

Московское "Динамо" стартовало с поражения в новом сезоне КХЛ

В Улан-Удэ прошли съёмки клипа на песню «Эжымни»

Выставка «Я ты мы другое»

Новости России

Десятки тысяч жителей столичного региона получили гигабитный интернет

Москва выделила земельные участки для строительства двух предприятий по производству медоборудования

Московский товарооборот со странами БРИКС ...

Shaman поблагодарил поклонников: «Я чувствую вашу любовь!»

Экология в России и мире

«AXIOМА» - уникальный цифровой ІТ-проект «Норникеля» в рамках работы ИЦК «Экология»

Терпеть нельзя: Доктор Кутушов рассказал, почему нужно помочиться сразу же

Anex сделал заявление о вылетах в Хургаду и Шарм-эль-Шейх из различных городов России

Дирекция по управлению персоналом и трансформации АО “Желдорреммаш” провела стратегическую сессию для руководителей служб филиалов компании

Спорт в России и мире

Даниил Медведев не смог пробиться в полуфинал Открытого чемпионата США по теннису

«Лучше не решать проблемы, а не иметь их вообще»: Медведев взял партию, но уступил Синнеру в четвертьфинале US Open

Александр Зверев квалифицировался на Итоговый турнир ATP

Теннисист Медведев обыграл Боржеша и вышел в 1/4 финала US Open

Moscow.media

Путешествовать по России можно на любом авто — достаточно пластиковой карточки и телефона

В деревне Здехово

Кондуки

Социальный фонд оказывает помощь эвакуированным жителям Курской области











Топ новостей на этот час

Rss.plus






Shaman поблагодарил поклонников: «Я чувствую вашу любовь!»

Суд приостановил деятельность компании после падения ее автобуса в Мойку

Водные процедуры провели в Москве ко Дню города

Московский товарооборот со странами БРИКС ...