Добавить новость

«Мы не только служили Бахусу»: Михаил Шемякин — про Высоцкого

Собянин: около 20 бывших кинотеатров реконструированы в Москве

В «Эрьзя-Центре» открылся киноклуб

С Днем пиарщика и поменьше боли в работе! Комикс от агентства ICONICOLIOR про боли пиар-специалистов

World News in Spanish


Новости сегодня

Новости от TheMoneytizer

Llama 3.1: Comprendiendo el potencial y las limitaciones

Meta* ha lanzado Llama 3.1 405B, un modelo de inteligencia artificial que marca un importante avance en el campo de los modelos de lenguaje grande (LLM). Este modelo no solo demuestra capacidades de última generación, sino que también refuerza la importancia de fomentar una cultura de Open Source en el desarrollo de tecnologías avanzadas.

El Open Source (Open Source) es un modelo de desarrollo de software en el que el código fuente del programa es accesible, disponible y puede ser modificado y distribuido libremente por cualquier persona. Este enfoque fomenta la colaboración y la transparencia, permitiendo a desarrolladores de todo el mundo contribuir, mejorar y adaptar el software a sus necesidades específicas. Los proyectos de Open Source a menudo se desarrollan de manera comunitaria, y los usuarios pueden usar, estudiar, cambiar y compartir el software de forma gratuita.

El nombre “Llama 3.1″ refleja la versión y la evolución del modelo. “Llama” es el nombre dado a esta serie de modelos de lenguaje desarrollados por Meta. El número “3.1″ indica que esta es la tercera generación del modelo con una actualización menor, lo cual sugiere mejoras y refinamientos respecto a versiones anteriores. La cifra “405B” se refiere al tamaño del modelo en términos de parámetros, específicamente 405 mil millones de parámetros. Para darnos una idea de la dimensión, LeNet, uno de los primeros y más influyentes modelos de redes neuronales convolucionales (CNN) desarrollado por Yann LeCun en la década de 1990, tenía aproximadamente 60 mil parámetros.

En el contexto de los modelos de lenguaje, los parámetros son valores que el modelo ajusta durante el entrenamiento para aprender patrones y realizar predicciones. Un mayor número de parámetros generalmente implica un modelo más complejo y capaz de capturar relaciones más sutiles en los datos, lo que resulta en un mejor desempeño en diversas tareas de procesamiento de lenguaje natural.

Llama 3.1 405B está construido sobre una arquitectura de Transformer, una estructura común en muchos modelos de lenguaje exitosos. Aunque mantiene la estructura central, Meta ha realizado adaptaciones menores para mejorar la estabilidad y el rendimiento durante el entrenamiento. Un aspecto clave es la exclusión de la arquitectura Mixture-of-Experts (MoE), lo que prioriza la estabilidad y escalabilidad del modelo.

El proceso de Llama 3.1 comienza con el texto de entrada dividido en tokens, que luego se convierten en representaciones numéricas llamadas token embeddings. Estas representaciones se procesan a través de múltiples capas de self-attention (autoatención) para analizar las relaciones entre tokens y entender su significado y contexto. Los Transformers con self-attention pueden procesar múltiples palabras simultáneamente. Este paralelismo acelera significativamente los tiempos de entrenamiento e inferencia, haciendo que el modelo sea más eficiente. Posteriormente, la información se pasa a través de una red, combinando y refinando los datos para derivar un significado. Este proceso se repite varias veces, permitiendo al modelo generar respuestas coherentes y relevantes de manera iterativa.

El desarrollo de Llama 3.1 405B implicó un entrenamiento multifase. Inicialmente, el modelo se sometió a un preentrenamiento con una vasta colección de datos que abarcan trillones de tokens. Este preentrenamiento permite al modelo aprender gramática, hechos y habilidades de razonamiento a partir de los patrones y estructuras encontrados en los datos.

Tras el preentrenamiento, el modelo pasa por rondas de ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO). SFT implica entrenar el modelo en tareas específicas con retroalimentación humana, mientras que DPO se centra en refinar las respuestas del modelo basándose en las preferencias de evaluadores humanos. Meta ha puesto un fuerte énfasis en la calidad y cantidad de los datos de entrenamiento. El proceso de preparación de datos incluyó filtrado y limpieza extensivos para mejorar la calidad de los conjuntos de datos. Además, el propio modelo 405B se utiliza para generar datos sintéticos, que se incorporan en el proceso de entrenamiento para refinar aún más sus capacidades.

Entrenar un modelo tan complejo como Llama 3.1 405B requiere una enorme cantidad de poder computacional. Meta utilizó más de 16 mil GPUs NVIDIA H100 (o tres mil 491 Jetson AGX Orin de NVIDIA como la computadora que uso diariamente) para entrenar este modelo eficientemente. Además, aplicaron una técnica llamada cuantización, que reduce la precisión de los pesos del modelo de 16 bits a 8 bits, simplificando los cálculos internos y mejorando la eficiencia del modelo en aplicaciones del mundo real.

Llama 3.1 405B ofrece diversas aplicaciones potenciales gracias a su naturaleza de Open Source. Entre estas aplicaciones se incluyen la generación de datos sintéticos, la destilación de modelos para crear versiones más pequeñas y eficientes, y el desarrollo de soluciones específicas para diversas industrias como la salud, las finanzas y la educación. El compromiso de Meta con la accesibilidad y la transparencia en IA permite que la comunidad global participe plenamente en el desarrollo y aplicación de esta tecnología. Al proporcionar modelos descargables y personalizables, Meta fomenta la innovación y asegura una distribución equitativa de los beneficios de la inteligencia artificial.

Llama 3.1 405B representa un hito significativo en los modelos de lenguaje de Open Source. Con su enfoque en la accesibilidad, la innovación y la seguridad, Meta está allanando el camino para una nueva era en el desarrollo de la inteligencia artificial, donde la colaboración y la participación global son fundamentales para aprovechar plenamente el potencial de esta tecnología transformadora.

*Anuncio original de Mark Zuckenberg https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

**Noticia de Meta en español al respecto del comunicado https://about.fb.com/ltam/news/2024/07/presentamos-llama-3-1-nuestro-modelo-de-lenguaje-a-gran-escala-mas-capaz-hasta-la-fecha/

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Следователи просят арестовать главу Военно-строительной компании Белкова

В Бабушкинском районе столицы завершили первый этап программы реновации

Курьер, спасший ребенка: похититель был болен или под воздействием наркотиков

Суд Москвы арестовал экс-гендиректора ВСК Минобороны Белкова за махинации

Музыкальные новости

Как играли в 1-м туре РПЛ футболисты из Подмосковья?

Первая выставка межрегионального проекта «Живописная Россия. По законам жанра» пройдет в Ставрополе

Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу

Уссурийский УЛРЗ проводит оздоровительную кампанию 2024

Новости России

Расследование уголовного дела в отношении Елены Блиновской завершено

В Москве мужчина напал на ранее незнакомую женщину на улице и похитил ее ребенка

Следствие добавило блогеру Аязу Шабутдинову новые эпизоды мошенничества

В небе над Москвой заметили красные и белые шары неизвестного происхождения

Экология в России и мире

Российская туристка впала в кому на отдыхе в Турции и попала в заложники

"Кедровые острова" дали первые всходы

24 июля директор филиала «Северный» ООО «ЛокоТех-Сервис» Андрей Дружков провёл встречу с участниками ключевого кадрового резерва на управленческие должности.

Дисбактериоз, Синдром дырявого кишечника и отеки: Кутушов рассказал, как связаны эти проблемы

Спорт в России и мире

Теннисисты Медведев и Джокович отказались жить в Олимпийской деревне

Рафаэль Надаль проиграл в первом финале тура ATP в преддверии своей последней Олимпиады

Саснович не вышла в четвертьфинал турнира WTA-250 в Румынии

Названа причина поражения Хачанова во втором круге Уимблдона

Moscow.media

Каршеринг BelkaCar открыл новые зоны в регионах ближнего Подмосковья

Туманы начала июня на Ладоге

Подтверждена совместимость операционной системы AlterOS и офисного пакета AlterOffice с МИС «Ариадна»

В Домодедово сотрудники Росгвардии задержали подозреваемого в краже партии товаров.











Топ новостей на этот час

Rss.plus






В «Эрьзя-Центре» открылся киноклуб

Ефимов: свыше 6 га земли приобретено в Москве для ИЖК с начала года

«Мы не только служили Бахусу»: Михаил Шемякин — про Высоцкого

Сюзанна: «Творческий кризис — это неизбежность и точка роста»