Когда кончится все: на сколько еще хватит данных для обучения ИИ

22.06.2024 10:19

«K-News»

Автором материала является K-News. Любое копирование или частичное использование возможно по разрешению редакции K-News.

Запись Когда кончится все: на сколько еще хватит данных для обучения ИИ впервые появилась K-News.

Современные модели искусственного интеллекта, и в частности получившие широкое распространение LLM (большие языковые модели), полагаются на огромные объемы информации, стремясь использовать все существующие качественные источники для обучения. Исторически вычислительные мощности были ключевой проблемой для развития ИИ, но в последние годы темпы технологического прогресса начали опережать скорость создания новых данных для выборок. С появлением мощных чипов многие исследователи стали беспокоиться, что дефицит качественной информации, используемой для тренировки моделей, не за горами. О том, на какое время еще хватит баз данных для обучения нейросетей, в колонке для Forbes рассказывает эксперт по ИИ и анализу данных Павел Балтабаев

Предел не за горами

Насколько актуальна проблема качественных данных для обучения ИИ? Вопрос отнюдь не праздный, если взглянуть на недавние заявления топ-менеджеров и основателей крупнейших AI-проектов. Так, сооснователь ИИ-стартапа Anthropic Джек Кларк отмечает, что их модели были обучены на значительном проценте всех данных, которые когда-либо существовали в интернете. В то же время в интервью WSJ технический директор OpenAI Мира Мурати не дала четкого ответа на вопрос, использовали ли разработчики данные социальных сетей для обучения модели Sora (нейросети для генерации видео). Упомянутые свидетельства — косвенное подтверждение того, что ведущие компании в области ИИ уже так или иначе столкнулись с дефицитом доступной информации для обучения моделей и могут использовать неразрешенные источники.

На этом фоне появляется все больше информации о том, что разработчики ощущают нехватку качественных общедоступных, а главное — легальных данных. Против создателя ChatGPT OpenAI то и дело подают иски о нарушении авторских прав, из-за чего компания даже была вынуждена расширить штат юристов.

В конце декабря 2023 года иск по обвинению OpenAI и Microsoft в незаконном использовании миллионов статей для развития ИИ подало издание The New York Times. Также в суд на владельца ChatGPT подали ряд американских писателей, а одним из первых стал совместный иск комика Сары Сильверман и еще двух артистов против Meta (признана экстремистской организацией и запрещена в России) и OpenAI. Все истцы утверждали, что в обучении ИИ использовались материалы, защищенные авторским правом.

Является ли публикация в СМИ или сцена из мультфильма, использованная искусственным интеллектом, нарушением авторских прав? Ответ на этот вопрос должны дать юристы и законотворцы. Судя по всему, они этим вопросом действительно озабочены. В случае массовой практики по удовлетворению исков обладателей информации разработчики современных нейросетей окажутся в сложном положении и получат серьезные препятствия для масштабирования своих моделей.

Нужно больше контента

В этом году центр HAI (Human-Centered Artificial Intelligence) Стэнфордского университета выпустил отчет о развитии искусственного интеллекта. В его первой главе, в частности, говорится о том, что эксперты ожидают исчерпания публичных текстовых данных в промежутке между 2026 и 2032 годом. Предыдущие оценки этой группы ученых предсказывали нехватку качественных выборок для языковых моделей уже в 2024 году, но впоследствии улучшили свои прогнозы. Более благоприятные перспективы исследователи строят относительно визуальных данных — изображений и видео: их нехватку модели машинного обучения начнут испытывать к 2038-2046 годам.

Основная причина дефицита информации состоит в превышении роста потребности в ней над доступными машинам запасами текстового контента. Причем созданного человеком, а не сгенерированного искусственным интеллектом. Поскольку нет ясности, насколько эффективным и ответственным перед человечеством будет развитие ИИ на основе данных, созданных им же.

Не стоит забывать, что большая часть информации для обучения нейросетей принадлежит большим компаниям и социальным сетям. Это одна из причин, заставляющих бизнесы делать свои разработки в области ИИ. Например, через популярную технику RAG (retrieval augmented generation) — надстройку над базовой (фундаментальной) языковой моделью. Она оптимизирует ответы больших языковых моделей, расширяя их контекст дополнительными внешними данными, необходимыми для ответа на специфичные для той или иной сферы запросы. Таким образом, с помощью этой техники удается с минимальными усилиями адаптировать ИИ под профильные задачи и минимизировать так называемые «галлюцинации» или ложные высказывания.

Монополизация рынка и продажа информации

Все больше крупных корпораций включаются в полномасштабную гонку в сфере искусственного интеллекта. Они создают собственные фундаментальные модели, имея доступ к огромному массиву данных, ограниченных для общего пользования и в условиях жесткого дефицита становящихся большим конкурентным преимуществом. Например, Илон Маск с моделью Grok, обучающейся на основе данных Х (бывшего Twitter). Или Марк Цукерберг с Llama 3, которая еще в прошлом поколении задала стандарт качества для open source ИИ. Или Google с целым семейством моделей Gemini. Вероятнее всего, такое положение дел приведет к монополизации рынка искусственного интеллекта.

Нехватка информации уже подталкивает разработчиков к ее покупке у частных владельцев и компаний, не имеющих серьезных амбиций по развитию ИИ. В середине мая 2024 года появилась информация о том, что Reddit сотрудничает с OpenAI для интеграции ChatGPT. Площадка рассматривает продажу контента для обучения моделей ИИ как источник дохода. Также были сообщения о соглашении платформы Reddit с Alphabet (материнская компания Google), разрешающем моделям искусственного интеллекта Google использовать данные Reddit.

Перспективы на будущее

Судя по всему, есть вероятность, что нехватка данных станет препятствием для создания в ближайшие десятилетия так называемого «общего искусственного интеллекта» (AGI, artificial general intelligence), способного выполнять умственную работу на человеческом уровне. Сейчас исследователи переключат внимание на улучшение качества выборок и освоение внутренней информации корпораций, чтобы в условиях жесткой конкуренции не прекращать развитие ИИ. Большие данные станут дорогим товаром. Это поставит информационные корпорации типа Meta, в распоряжении которой публикации и переписки миллиардов людей, в привилегированное положение.

Однако, когда дело касается машинного обучения, важно не только количество, но и качество информации. В частности, недавнее исследование FineWeb Edu показало, что большие языковые модели обучаются значительно эффективнее, если тщательно отобрать данные и отфильтровать низкосортные материалы, даже если объем финальной выборки будет на порядок меньше изначальной. Выяснилось, что особенно ценным для тюнинга оказался именно образовательный контент, а доверить обработку данных можно непосредственно ИИ-алгоритму.

Таким образом, проблема с дефицитом данных для обучения моделей искусственного интеллекта, с одной стороны, создаст рынок приватных выборок, а с другой — вынудит разработчиков прибегать к более тщательному сбору информации и изобретать новые архитектурные решения. Несмотря на неутешительные прогнозы по исчерпанию запасов доступных текстов у рынка еще есть достаточно инструментов, чтобы продолжать совершенствовать и масштабировать текущие алгоритмы в ближайшее десятилетие.

Запись Когда кончится все: на сколько еще хватит данных для обучения ИИ впервые появилась K-News.

Вы поцарапали «Бентли». Как не стать жертвой автоподставы

Главбанкрот: Надежный партнер в решении юридических вопросов банкротства

Соревнования по кикбоксингу игр «Дети Азии» стартовали в Якутске

Сад Хаяо Миядзаки снова откроется в Санкт-Петербурге

Предел не за горами

Нужно больше контента

Монополизация рынка и продажа информации

Перспективы на будущее

Читайте на 123ru.net

Реклама

Религия

Объявления

Досуг

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Вы поцарапали «Бентли». Как не стать жертвой автоподставы

Собянин представил результаты четырех лет работы Агентства креативных индустрий

В Подмосковье оштрафуют хозяйку напавших на женщину и терьера бойцовских собак

Первая неделя Игр: счастье и слёзы детей

Фестиваль троечной езды и гастрономии "Русский драйв"

"Интеррос", "Атомайз", Эрмитаж и Т-Банк готовят второй этап проекта «Цифровое искусство»

"Спартак" объявил об окончании контракта с Промесом, которому в Нидерландах грозит тюремный срок

Сбербанк поднял ставки по рыночным ипотечным программам

Главбанкрот: Надежный партнер в решении юридических вопросов банкротства

Вы поцарапали «Бентли». Как не стать жертвой автоподставы

Сад Хаяо Миядзаки снова откроется в Санкт-Петербурге

Рынок дикоросов в России может вырасти в 20 раз до 1,5 трлн рублей

«Фанагория» выступила партнером юбилейного семинара директоров литературных музеев

В Турции эвакуированы 2 отеля, тысячи российских туристов могут оказаться в заложниках: туроператоры дали оценку сложившейся ситуации

Ужалила медуза: что делать и как себя вести, рассказал доктор Кутушов

В этих летних нарядах вы будете выглядеть моложе

Медведев остался на пятом месте в рейтинге ATP перед стартом Уимблдона

Лучшая теннисистка России повторила достижение Рыбакиной

Зарубежное СМИ оценило шансы «больной» Рыбакиной на старте Уимблдона-2024

Уимблдон. 2 июля. Джокович сыграет вторым запуском на Центральном корте, Маррей – третьим, турнир начнут Рублев, Сафиуллин, Швентек, Самсонова

Как снимали фильм "Афоня": Кадры со съемок и 23 интересных факта о фильме

S&P повысило прогноз по рейтингу «дочек» Freedom Holding Corp. до позитивного

Орловскую область атаковали два дрона

Портативный ТСД корпоративного класса Saotron RT-T70

Топ новостей на этот час

Главбанкрот: Надежный партнер в решении юридических вопросов банкротства

В Кузбассе завершился VI Всероссийский фестиваль детского творчества «Утренняя звезда»

Соревнования по кикбоксингу игр «Дети Азии» стартовали в Якутске

Вы поцарапали «Бентли». Как не стать жертвой автоподставы