Добавить новость

В Подмосковье провели мастер-класс для детей «Животные»

Сход с рельсов 22 вагонов с углем в республике Башкортостан мог быть вызван диверсией

Сахалинец пал одновременно «жертвой» мошенников и налогового законодательства

Почему следователь и именитые спортсмены Якутии подались в наркокурьеры?

World News


Новости сегодня

Новости от TheMoneytizer

Llama 3.1: Comprendiendo el potencial y las limitaciones

Meta* ha lanzado Llama 3.1 405B, un modelo de inteligencia artificial que marca un importante avance en el campo de los modelos de lenguaje grande (LLM). Este modelo no solo demuestra capacidades de última generación, sino que también refuerza la importancia de fomentar una cultura de Open Source en el desarrollo de tecnologías avanzadas.

El Open Source (Open Source) es un modelo de desarrollo de software en el que el código fuente del programa es accesible, disponible y puede ser modificado y distribuido libremente por cualquier persona. Este enfoque fomenta la colaboración y la transparencia, permitiendo a desarrolladores de todo el mundo contribuir, mejorar y adaptar el software a sus necesidades específicas. Los proyectos de Open Source a menudo se desarrollan de manera comunitaria, y los usuarios pueden usar, estudiar, cambiar y compartir el software de forma gratuita.

El nombre “Llama 3.1″ refleja la versión y la evolución del modelo. “Llama” es el nombre dado a esta serie de modelos de lenguaje desarrollados por Meta. El número “3.1″ indica que esta es la tercera generación del modelo con una actualización menor, lo cual sugiere mejoras y refinamientos respecto a versiones anteriores. La cifra “405B” se refiere al tamaño del modelo en términos de parámetros, específicamente 405 mil millones de parámetros. Para darnos una idea de la dimensión, LeNet, uno de los primeros y más influyentes modelos de redes neuronales convolucionales (CNN) desarrollado por Yann LeCun en la década de 1990, tenía aproximadamente 60 mil parámetros.

En el contexto de los modelos de lenguaje, los parámetros son valores que el modelo ajusta durante el entrenamiento para aprender patrones y realizar predicciones. Un mayor número de parámetros generalmente implica un modelo más complejo y capaz de capturar relaciones más sutiles en los datos, lo que resulta en un mejor desempeño en diversas tareas de procesamiento de lenguaje natural.

Llama 3.1 405B está construido sobre una arquitectura de Transformer, una estructura común en muchos modelos de lenguaje exitosos. Aunque mantiene la estructura central, Meta ha realizado adaptaciones menores para mejorar la estabilidad y el rendimiento durante el entrenamiento. Un aspecto clave es la exclusión de la arquitectura Mixture-of-Experts (MoE), lo que prioriza la estabilidad y escalabilidad del modelo.

El proceso de Llama 3.1 comienza con el texto de entrada dividido en tokens, que luego se convierten en representaciones numéricas llamadas token embeddings. Estas representaciones se procesan a través de múltiples capas de self-attention (autoatención) para analizar las relaciones entre tokens y entender su significado y contexto. Los Transformers con self-attention pueden procesar múltiples palabras simultáneamente. Este paralelismo acelera significativamente los tiempos de entrenamiento e inferencia, haciendo que el modelo sea más eficiente. Posteriormente, la información se pasa a través de una red, combinando y refinando los datos para derivar un significado. Este proceso se repite varias veces, permitiendo al modelo generar respuestas coherentes y relevantes de manera iterativa.

El desarrollo de Llama 3.1 405B implicó un entrenamiento multifase. Inicialmente, el modelo se sometió a un preentrenamiento con una vasta colección de datos que abarcan trillones de tokens. Este preentrenamiento permite al modelo aprender gramática, hechos y habilidades de razonamiento a partir de los patrones y estructuras encontrados en los datos.

Tras el preentrenamiento, el modelo pasa por rondas de ajuste fino supervisado (SFT) y optimización de preferencia directa (DPO). SFT implica entrenar el modelo en tareas específicas con retroalimentación humana, mientras que DPO se centra en refinar las respuestas del modelo basándose en las preferencias de evaluadores humanos. Meta ha puesto un fuerte énfasis en la calidad y cantidad de los datos de entrenamiento. El proceso de preparación de datos incluyó filtrado y limpieza extensivos para mejorar la calidad de los conjuntos de datos. Además, el propio modelo 405B se utiliza para generar datos sintéticos, que se incorporan en el proceso de entrenamiento para refinar aún más sus capacidades.

Entrenar un modelo tan complejo como Llama 3.1 405B requiere una enorme cantidad de poder computacional. Meta utilizó más de 16 mil GPUs NVIDIA H100 (o tres mil 491 Jetson AGX Orin de NVIDIA como la computadora que uso diariamente) para entrenar este modelo eficientemente. Además, aplicaron una técnica llamada cuantización, que reduce la precisión de los pesos del modelo de 16 bits a 8 bits, simplificando los cálculos internos y mejorando la eficiencia del modelo en aplicaciones del mundo real.

Llama 3.1 405B ofrece diversas aplicaciones potenciales gracias a su naturaleza de Open Source. Entre estas aplicaciones se incluyen la generación de datos sintéticos, la destilación de modelos para crear versiones más pequeñas y eficientes, y el desarrollo de soluciones específicas para diversas industrias como la salud, las finanzas y la educación. El compromiso de Meta con la accesibilidad y la transparencia en IA permite que la comunidad global participe plenamente en el desarrollo y aplicación de esta tecnología. Al proporcionar modelos descargables y personalizables, Meta fomenta la innovación y asegura una distribución equitativa de los beneficios de la inteligencia artificial.

Llama 3.1 405B representa un hito significativo en los modelos de lenguaje de Open Source. Con su enfoque en la accesibilidad, la innovación y la seguridad, Meta está allanando el camino para una nueva era en el desarrollo de la inteligencia artificial, donde la colaboración y la participación global son fundamentales para aprovechar plenamente el potencial de esta tecnología transformadora.

*Anuncio original de Mark Zuckenberg https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

**Noticia de Meta en español al respecto del comunicado https://about.fb.com/ltam/news/2024/07/presentamos-llama-3-1-nuestro-modelo-de-lenguaje-a-gran-escala-mas-capaz-hasta-la-fecha/

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

«В Европе во мне должны видеть проект. Не хочу просто отбывать номер». Интервью Пиняева — о мечте, деньгах и семье

Недовольную ночной торговлей алкоголем женщину в Красногорске избили мигранты

Почему следователь и именитые спортсмены Якутии подались в наркокурьеры?

Ликсутов сообщил об участии Москвы в Международной выставке Import Expo – 2024

Музыкальные новости

Египет, Иран, Азербайджан: бойцы оспорят Кубок Ил Дархана и звание чемпиона Eagle FC в Якутске

Кажетта Ахметжанова рассказала, сбываются ли сны с четверга на пятницу

Пока в Якутии была ночь: поражение Харрис, новая мошенническая схема, вирус Коксаки в регионах РФ

Трамвайный маршрут от Купчино до Шушар начнет работу в конце 2025 года

Новости России

Недовольную ночной торговлей алкоголем женщину в Красногорске избили мигранты

Спорная рука Чуни и роковой удар Даку: как ЦСКА спасся в Кубковом матче с «Рубином»

Ликсутов сообщил об участии Москвы в Международной выставке Import Expo – 2024

Президент федерации плавания Республики Ингушетия принял участие в Отчетно-выборной конференции

Экология в России и мире

10 самых опасных продуктов, которые есть в каждом холодильнике

Актерское агентство Киноактер. Актерское агентство в Москве.

Джиган, Artik & Asti и NILETTO спели о худи, а Дина Саева стала новым артистом: в Москве прошел BRUNCH Rocket Group

«585*ЗОЛОТОЙ» рассказала, какие обручальные кольца будут выбирать пары в следующем году

Спорт в России и мире

Александр Зверев: «Очень сложно стать первым без победы на «Шлеме». У меня был шанс в 2022-м, но это редкость, тогда были особые обстоятельства»

В России обесценили матч Елены Рыбакиной с первой ракеткой мира

Неймар назвал белорусскую теннисистку Арину Соболенко королевой

Корнеева проиграла Сёнмез и не смогла выйти в финал турнира WTA в Мериде

Moscow.media

По ком звонит "брутто-колокол"?

В Челябинске вынесли приговор директору "Уралдорстроя" по делу о коррупции

*Meta незаконно использовала финансовые данные пользователей в рекламе

Прогулка на ВДНХ











Топ новостей на этот час

Rss.plus






Молодёжный центр из Иркутска вошёл в Топ-10 по России

Ликсутов сообщил об участии Москвы в Международной выставке Import Expo – 2024

Спорная рука Чуни и роковой удар Даку: как ЦСКА спасся в Кубковом матче с «Рубином»

Недовольную ночной торговлей алкоголем женщину в Красногорске избили мигранты