Llama 3.1: Comprendiendo el potencial y las limitaciones

25.07.2024 16:48

El Financiero

Meta* ha lanzado Llama 3.1 405B, un modelo de inteligencia artificial que marca un importante avance en el campo de los modelos de lenguaje grande (LLM). Este modelo no solo demuestra capacidades de última generación, sino que también refuerza la importancia de fomentar una cultura de Open Source en el desarrollo de tecnologías avanzadas.

El Open Source (Open Source) es un modelo de desarrollo de software en el que el código fuente del programa es accesible, disponible y puede ser modificado y distribuido libremente por cualquier persona. Este enfoque fomenta la colaboración y la transparencia, permitiendo a desarrolladores de todo el mundo contribuir, mejorar y adaptar el software a sus necesidades específicas. Los proyectos de Open Source a menudo se desarrollan de manera comunitaria, y los usuarios pueden usar, estudiar, cambiar y compartir el software de forma gratuita.

El nombre “Llama 3.1″ refleja la versión y la evolución del modelo. “Llama” es el nombre dado a esta serie de modelos de lenguaje desarrollados por Meta. El número “3.1″ indica que esta es la tercera generación del modelo con una actualización menor, lo cual sugiere mejoras y refinamientos respecto a versiones anteriores. La cifra “405B” se refiere al tamaño del modelo en términos de parámetros, específicamente 405 mil millones de parámetros. Para darnos una idea de la dimensión, LeNet, uno de los primeros y más influyentes modelos de redes neuronales convolucionales (CNN) desarrollado por Yann LeCun en la década de 1990, tenía aproximadamente 60 mil parámetros.

En el contexto de los modelos de lenguaje, los parámetros son valores que el modelo ajusta durante el entrenamiento para aprender patrones y realizar predicciones. Un mayor número de parámetros generalmente implica un modelo más complejo y capaz de capturar relaciones más sutiles en los datos, lo que resulta en un mejor desempeño en diversas tareas de procesamiento de lenguaje natural.

Llama 3.1 405B está construido sobre una arquitectura de Transformer, una estructura común en muchos modelos de lenguaje exitosos. Aunque mantiene la estructura central, Meta ha realizado adaptaciones menores para mejorar la estabilidad y el rendimiento durante el entrenamiento. Un aspecto clave es la exclusión de la arquitectura Mixture-of-Experts (MoE), lo que prioriza la estabilidad y escalabilidad del modelo.

El proceso de Llama 3.1 comienza con el texto de entrada dividido en tokens, que luego se convierten en representaciones numéricas llamadas token embeddings. Estas representaciones se procesan a través de múltiples capas de self-attention (autoatención) para analizar las relaciones entre tokens y entender su significado y contexto. Los Transformers con self-attention pueden procesar múltiples palabras simultáneamente. Este paralelismo acelera significativamente los tiempos de entrenamiento e inferencia, haciendo que el modelo sea más eficiente. Posteriormente, la información se pasa a través de una red, combinando y refinando los datos para derivar un significado. Este proceso se repite varias veces, permitiendo al modelo generar respuestas coherentes y relevantes de manera iterativa.

El desarrollo de Llama 3.1 405B implicó un entrenamiento multifase. Inicialmente, el modelo se sometió a un preentrenamiento con una vasta colección de datos que abarcan trillones de tokens. Este preentrenamiento permite al modelo aprender gramática, hechos y habilidades de razonamiento a partir de los patrones y estructuras encontrados en los datos.

Tras el preentrenamiento, el modelo pasa por rondas de ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO). SFT implica entrenar el modelo en tareas específicas con retroalimentación humana, mientras que DPO se centra en refinar las respuestas del modelo basándose en las preferencias de evaluadores humanos. Meta ha puesto un fuerte énfasis en la calidad y cantidad de los datos de entrenamiento. El proceso de preparación de datos incluyó filtrado y limpieza extensivos para mejorar la calidad de los conjuntos de datos. Además, el propio modelo 405B se utiliza para generar datos sintéticos, que se incorporan en el proceso de entrenamiento para refinar aún más sus capacidades.

Entrenar un modelo tan complejo como Llama 3.1 405B requiere una enorme cantidad de poder computacional. Meta utilizó más de 16 mil GPUs NVIDIA H100 (o tres mil 491 Jetson AGX Orin de NVIDIA como la computadora que uso diariamente) para entrenar este modelo eficientemente. Además, aplicaron una técnica llamada cuantización, que reduce la precisión de los pesos del modelo de 16 bits a 8 bits, simplificando los cálculos internos y mejorando la eficiencia del modelo en aplicaciones del mundo real.

Llama 3.1 405B ofrece diversas aplicaciones potenciales gracias a su naturaleza de Open Source. Entre estas aplicaciones se incluyen la generación de datos sintéticos, la destilación de modelos para crear versiones más pequeñas y eficientes, y el desarrollo de soluciones específicas para diversas industrias como la salud, las finanzas y la educación. El compromiso de Meta con la accesibilidad y la transparencia en IA permite que la comunidad global participe plenamente en el desarrollo y aplicación de esta tecnología. Al proporcionar modelos descargables y personalizables, Meta fomenta la innovación y asegura una distribución equitativa de los beneficios de la inteligencia artificial.

Llama 3.1 405B representa un hito significativo en los modelos de lenguaje de Open Source. Con su enfoque en la accesibilidad, la innovación y la seguridad, Meta está allanando el camino para una nueva era en el desarrollo de la inteligencia artificial, donde la colaboración y la participación global son fundamentales para aprovechar plenamente el potencial de esta tecnología transformadora.

*Anuncio original de Mark Zuckenberg https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

**Noticia de Meta en español al respecto del comunicado https://about.fb.com/ltam/news/2024/07/presentamos-llama-3-1-nuestro-modelo-de-lenguaje-a-gran-escala-mas-capaz-hasta-la-fecha/

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Следователи просят арестовать главу Военно-строительной компании Белкова

В Бабушкинском районе столицы завершили первый этап программы реновации

Курьер, спасший ребенка: похититель был болен или под воздействием наркотиков

Суд Москвы арестовал экс-гендиректора ВСК Минобороны Белкова за махинации

Музыкальные новости

Bigpot.news

Как играли в 1-м туре РПЛ футболисты из Подмосковья?

Первая выставка межрегионального проекта «Живописная Россия. По законам жанра» пройдет в Ставрополе

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Уссурийский УЛРЗ проводит оздоровительную кампанию 2024

Новости России

29ru.net

Расследование уголовного дела в отношении Елены Блиновской завершено

В Москве мужчина напал на ранее незнакомую женщину на улице и похитил ее ребенка

Следствие добавило блогеру Аязу Шабутдинову новые эпизоды мошенничества

В небе над Москвой заметили красные и белые шары неизвестного происхождения

Экология в России и мире

Life24.pro

Российская туристка впала в кому на отдыхе в Турции и попала в заложники

"Кедровые острова" дали первые всходы

24 июля директор филиала «Северный» ООО «ЛокоТех-Сервис» Андрей Дружков провёл встречу с участниками ключевого кадрового резерва на управленческие должности.

Дисбактериоз, Синдром дырявого кишечника и отеки: Кутушов рассказал, как связаны эти проблемы

Спорт в России и мире

News.tennis

Теннисисты Медведев и Джокович отказались жить в Олимпийской деревне

Рафаэль Надаль проиграл в первом финале тура ATP в преддверии своей последней Олимпиады

Саснович не вышла в четвертьфинал турнира WTA-250 в Румынии

Названа причина поражения Хачанова во втором круге Уимблдона

Moscow.media

News24.pro

«Мы не только служили Бахусу»: Михаил Шемякин — про Высоцкого

Собянин: около 20 бывших кинотеатров реконструированы в Москве

В «Эрьзя-Центре» открылся киноклуб

С Днем пиарщика и поменьше боли в работе! Комикс от агентства ICONICOLIOR про боли пиар-специалистов

Читайте на 123ru.net

Здоровье

Личное

Настроение

Sport 24/7

Частные объявления в Вашем городе, в Вашем регионе и в России