В настоящее время проводятся новые исследования, посвященные проблемам и возможностям масштабирования систем машинного обучения, питающих модели ИИ, и их результаты довольно плачевны

11.06.2024 00:00

Проводятся новые исследования проблем и возможностей масштабирования систем машинного обучения, лежащих в основе моделей искусственного интеллекта, но результаты довольно мрачные. Эксперты говорят, что у таких компаний, занимающихся искусственным интеллектом, как OpenAI, заканчиваются мировые (искусственные) данные для обучения текста. Модели, более продвинутые, чем нынешние, такие как GPT-5 или GPT-6, могут даже исчерпать доступные источники данных к 2026 году. Возникает вопрос: сможет ли ИИ продолжать развиваться без новых человеческих текстовых данных?

Последние достижения в области языкового моделирования в значительной степени зависят от больших объемов текста, написанного людьми, часто полученного из Интернета или архивов компаний. Фактически общедоступные текстовые базы данных содержат миллиарды слов с миллиардов веб-страниц. Тем не менее, недавние исследования показывают, что компании, занимающиеся искусственным интеллектом, сталкиваются с серьезной проблемой: истощением данных. Столкнувшись с потенциальными препятствиями на пути масштабирования больших языковых моделей (LLM), исследователь искусственного интеллекта Тамай Бесироглу сказал Associated Press: «Здесь есть серьезные узкие места".

«Если вы столкнетесь с ограничениями данных, вы не сможете эффективно расширить модель.

Обратите внимание: Учёные разработали революционную технологию для исследования египетских мумий.

А расширение модели, вероятно, является наиболее важным способом расширить возможности модели и улучшить качество результатов», — добавил он. Инструменты искусственного интеллекта также без разбора используют публичные онлайн-архивы, и это противоречивая тенденция в использовании данных, которая вызвала судебные иски. Так произошло, например, с издателем New York Times, который подал в суд на OpenAI за нарушение авторских прав.

К головокружительному снижению потока нового контента

Исследователи говорят, что если нынешние тенденции в развитии LLM сохранятся, модель сможет работать с набором данных размером примерно с все общедоступные текстовые данные в период с 2026 по 2032 год (или даже раньше, если модель будет переобучена) обучение. Кроме того, исследователи из аналитического центра Epoch AI в Сан-Франциско отметили в отчете, что объем текстовых данных, используемых только для обучения моделей ИИ, увеличивается примерно в 2,5 раза каждый год. Они также полагают, что крупные языковые модели, такие как GPT-4 от OpenAI и Llama 3 от Meta (которая считается экстремистской группировкой в России и чья деятельность запрещена), могут выйти из строя в 2026 году.

Чтобы устранить это препятствие, другие исследователи изучают, как продолжить разработку языковых моделей после того, как наборы данных сгенерированного человеком текста будут исчерпаны. Они утверждают, что наиболее возможным решением является обучение языковых моделей на синтетических (сгенерированных) данных, что предполагает перенос обучения из областей, богатых данными. OpenAI, Google и Anthropic уже работают над этим решением.

Однако, согласно выводам ученых из Университета Райса и Стэнфордского университета, использование в этих моделях контента, созданного ИИ, приводит к значительному снижению качества генерируемого контента. Это может создать цикл самообмана и вызвать множество вопросов: смогут ли алгоритмы ИИ стать более эффективными, производя лучшие результаты с меньшим количеством данных.

«Я думаю, важно помнить, что нам не обязательно обучать все более и более крупные модели», — сказал Николас Паперно, исследователь искусственного интеллекта и доцент кафедры компьютерной инженерии в Университете Торонто. Тем не менее, результаты этого исследования подчеркивают важность продолжения исследований для измерения темпов роста эффективности данных, а также потенциальных улучшений, приносимых новыми методами.

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: В настоящее время проводятся новые исследования, посвященные проблемам и возможностям масштабирования систем машинного обучения, питающих модели ИИ, и их результаты довольно плачевны.

Московская художница подарила Ульяновску новый мурал

Орловские школьники совершат «Путешествие мечты» от Москвы до Владивостока

Якубко: «Сафонову придётся сидеть в «ПСЖ»

Песков: Европе придется еще долго разгребать последствия конфронтации с Россией

К головокружительному снижению потока нового контента

Читайте на 123ru.net

Настроение

Документальные новости

Интернет

Game24.pro

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Московское "Динамо" потеряло очки в матче с "Оренбургом" в рамках РПЛ

Бедрос Киркоров госпитализирован в реанимацию в Москве

В Московском Политехе нашли способы стабилизации дронов в сложных погодных условиях

Массовая гибель птиц произошла в Москве

Прекрасной игры участникам теннисного турнира памяти Ю. М. Лужкова пожелала Елена Батурина

«Спартак» — «Рубин» — 1:0. Видеообзор матча

Токсиколог Кутушов назвал привычку ставить много будильников опасной для здоровья

Дистрибьюция Музыки.

Посол Финляндии Лиивала заявила о необходимости сотрудничать с Россией

Московское "Динамо" потеряло очки в матче с "Оренбургом" в рамках РПЛ

Сотрудники «Мособлпожспаса» напомнили о правилах безопасного поведения на воде

Массовая гибель птиц произошла в Москве

«585*ЗОЛОТОЙ» запускает новый сезон проекта об истории культовых мировых украшений

Прекрасной игры участникам теннисного турнира памяти Ю. М. Лужкова пожелала Елена Батурина

Деловые мероприятия на выставке «Интерткань-2024. Осень» 10-12 сентября

«Мы не могли нормально работать»: как Азербайджан препятствовал оказанию помощи Красного Креста во время блокады Нагорного Карабаха. Фоторяд

Российская теннисистка Потапова проиграла в матче третьего круга US Open

Теннисистка Самсонова вышла в четвертый круг US Upen

Шнайдер: чувствую, что США для меня — второй дом

Раскрыты все болезни Елены Рыбакиной. Она пропустила уже восемь турниров в 2024 году

Мытищинское предприятие ООО «Водомер» получило Диплом победителя в региональном конкурсе «100 лучших товаров России»

В России разработали технологию 3D-печати протезов пальцев

Беломорские закаты...

В Свердловской области повысили плату за капремонт жилья

Топ новостей на этот час

Бедрос Киркоров госпитализирован в реанимацию в Москве

Якубко: «Сафонову придётся сидеть в «ПСЖ»

Тимур Иванов обещал суду не сбегать из России при переводе под домашний арест

Песков: если придётся, то будет сделано всё для защиты наших интересов