Когда кончится все: на сколько еще хватит данных для обучения ИИ

22.06.2024 10:19

«K-News»

Автором материала является K-News. Любое копирование или частичное использование возможно по разрешению редакции K-News.

Запись Когда кончится все: на сколько еще хватит данных для обучения ИИ впервые появилась K-News.

Современные модели искусственного интеллекта, и в частности получившие широкое распространение LLM (большие языковые модели), полагаются на огромные объемы информации, стремясь использовать все существующие качественные источники для обучения. Исторически вычислительные мощности были ключевой проблемой для развития ИИ, но в последние годы темпы технологического прогресса начали опережать скорость создания новых данных для выборок. С появлением мощных чипов многие исследователи стали беспокоиться, что дефицит качественной информации, используемой для тренировки моделей, не за горами. О том, на какое время еще хватит баз данных для обучения нейросетей, в колонке для Forbes рассказывает эксперт по ИИ и анализу данных Павел Балтабаев

Предел не за горами

Насколько актуальна проблема качественных данных для обучения ИИ? Вопрос отнюдь не праздный, если взглянуть на недавние заявления топ-менеджеров и основателей крупнейших AI-проектов. Так, сооснователь ИИ-стартапа Anthropic Джек Кларк отмечает, что их модели были обучены на значительном проценте всех данных, которые когда-либо существовали в интернете. В то же время в интервью WSJ технический директор OpenAI Мира Мурати не дала четкого ответа на вопрос, использовали ли разработчики данные социальных сетей для обучения модели Sora (нейросети для генерации видео). Упомянутые свидетельства — косвенное подтверждение того, что ведущие компании в области ИИ уже так или иначе столкнулись с дефицитом доступной информации для обучения моделей и могут использовать неразрешенные источники.

На этом фоне появляется все больше информации о том, что разработчики ощущают нехватку качественных общедоступных, а главное — легальных данных. Против создателя ChatGPT OpenAI то и дело подают иски о нарушении авторских прав, из-за чего компания даже была вынуждена расширить штат юристов.

В конце декабря 2023 года иск по обвинению OpenAI и Microsoft в незаконном использовании миллионов статей для развития ИИ подало издание The New York Times. Также в суд на владельца ChatGPT подали ряд американских писателей, а одним из первых стал совместный иск комика Сары Сильверман и еще двух артистов против Meta (признана экстремистской организацией и запрещена в России) и OpenAI. Все истцы утверждали, что в обучении ИИ использовались материалы, защищенные авторским правом.

Является ли публикация в СМИ или сцена из мультфильма, использованная искусственным интеллектом, нарушением авторских прав? Ответ на этот вопрос должны дать юристы и законотворцы. Судя по всему, они этим вопросом действительно озабочены. В случае массовой практики по удовлетворению исков обладателей информации разработчики современных нейросетей окажутся в сложном положении и получат серьезные препятствия для масштабирования своих моделей.

Нужно больше контента

В этом году центр HAI (Human-Centered Artificial Intelligence) Стэнфордского университета выпустил отчет о развитии искусственного интеллекта. В его первой главе, в частности, говорится о том, что эксперты ожидают исчерпания публичных текстовых данных в промежутке между 2026 и 2032 годом. Предыдущие оценки этой группы ученых предсказывали нехватку качественных выборок для языковых моделей уже в 2024 году, но впоследствии улучшили свои прогнозы. Более благоприятные перспективы исследователи строят относительно визуальных данных — изображений и видео: их нехватку модели машинного обучения начнут испытывать к 2038-2046 годам.

Основная причина дефицита информации состоит в превышении роста потребности в ней над доступными машинам запасами текстового контента. Причем созданного человеком, а не сгенерированного искусственным интеллектом. Поскольку нет ясности, насколько эффективным и ответственным перед человечеством будет развитие ИИ на основе данных, созданных им же.

Не стоит забывать, что большая часть информации для обучения нейросетей принадлежит большим компаниям и социальным сетям. Это одна из причин, заставляющих бизнесы делать свои разработки в области ИИ. Например, через популярную технику RAG (retrieval augmented generation) — надстройку над базовой (фундаментальной) языковой моделью. Она оптимизирует ответы больших языковых моделей, расширяя их контекст дополнительными внешними данными, необходимыми для ответа на специфичные для той или иной сферы запросы. Таким образом, с помощью этой техники удается с минимальными усилиями адаптировать ИИ под профильные задачи и минимизировать так называемые «галлюцинации» или ложные высказывания.

Монополизация рынка и продажа информации

Все больше крупных корпораций включаются в полномасштабную гонку в сфере искусственного интеллекта. Они создают собственные фундаментальные модели, имея доступ к огромному массиву данных, ограниченных для общего пользования и в условиях жесткого дефицита становящихся большим конкурентным преимуществом. Например, Илон Маск с моделью Grok, обучающейся на основе данных Х (бывшего Twitter). Или Марк Цукерберг с Llama 3, которая еще в прошлом поколении задала стандарт качества для open source ИИ. Или Google с целым семейством моделей Gemini. Вероятнее всего, такое положение дел приведет к монополизации рынка искусственного интеллекта.

Нехватка информации уже подталкивает разработчиков к ее покупке у частных владельцев и компаний, не имеющих серьезных амбиций по развитию ИИ. В середине мая 2024 года появилась информация о том, что Reddit сотрудничает с OpenAI для интеграции ChatGPT. Площадка рассматривает продажу контента для обучения моделей ИИ как источник дохода. Также были сообщения о соглашении платформы Reddit с Alphabet (материнская компания Google), разрешающем моделям искусственного интеллекта Google использовать данные Reddit.

Перспективы на будущее

Судя по всему, есть вероятность, что нехватка данных станет препятствием для создания в ближайшие десятилетия так называемого «общего искусственного интеллекта» (AGI, artificial general intelligence), способного выполнять умственную работу на человеческом уровне. Сейчас исследователи переключат внимание на улучшение качества выборок и освоение внутренней информации корпораций, чтобы в условиях жесткой конкуренции не прекращать развитие ИИ. Большие данные станут дорогим товаром. Это поставит информационные корпорации типа Meta, в распоряжении которой публикации и переписки миллиардов людей, в привилегированное положение.

Однако, когда дело касается машинного обучения, важно не только количество, но и качество информации. В частности, недавнее исследование FineWeb Edu показало, что большие языковые модели обучаются значительно эффективнее, если тщательно отобрать данные и отфильтровать низкосортные материалы, даже если объем финальной выборки будет на порядок меньше изначальной. Выяснилось, что особенно ценным для тюнинга оказался именно образовательный контент, а доверить обработку данных можно непосредственно ИИ-алгоритму.

Таким образом, проблема с дефицитом данных для обучения моделей искусственного интеллекта, с одной стороны, создаст рынок приватных выборок, а с другой — вынудит разработчиков прибегать к более тщательному сбору информации и изобретать новые архитектурные решения. Несмотря на неутешительные прогнозы по исчерпанию запасов доступных текстов у рынка еще есть достаточно инструментов, чтобы продолжать совершенствовать и масштабировать текущие алгоритмы в ближайшее десятилетие.

Запись Когда кончится все: на сколько еще хватит данных для обучения ИИ впервые появилась K-News.

Французский политик Филиппо: браво российским атлетам

«Пусть Россия платит золотом»: читатели Newsweek о сотрудничестве России и КНР

Подмосковные коммунальщики ликвидировали последствия непогоды

Названа самая популярная «летняя» кличка собак в России

Предел не за горами

Нужно больше контента

Монополизация рынка и продажа информации

Перспективы на будущее

Читайте на 123ru.net

Авто Новости

Религия

Документальные новости

Видео-новости

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

В сентябре в Самарской области откроется масштабная выставка «Самара»

Оперативники СБУ затримали екс-прокурора, якого оголосили у розшук після гучного весілля у Львові

Загитова восхитила глубоким вырезом, Трусова прилюдно целовалась с женихом. Главные фото шоу в «Лужниках»

«Солнцепёки» продолжают выжигать позиции врага в Торецке, поддерживая штурм города (ВИДЕО)

«Она такая пацанка! Мне нравятся сильные женщины, я подкаблучник», — заявление Киркорова о новых отношениях вызвало волну слухов и предположений

Вильфанд сообщил о прекращении опасных для здоровья "египетских ночей" в столице

Моди собирается обсудить торговый дисбаланс с Путиным в Москве

Собянин: московские школьники бесплатно посетили музеи города 3,3 млн раз

Умерла диктор и ведущая программы "Время" Аза Лихитченко

«Тебя бьют рублем»: Башаров раскрыл причину исчезновения с телеэкранов

Названа самая популярная «летняя» кличка собак в России

"Конечно, это всё неправда": Шевцова опровергла свой отъезд из России

Выставка «Интерткань» представляет участников раздела «Пряжа и нити»

На курорты Анапы, Новороссийска и Геленджика пришла новая напасть: туристы уже опасаются выходить на улицу

Как выглядеть молодо после 50 лет: рабочие способы

Артисты с удовольствием поздравляли друг друга - Театр и Концерт, Россия и Дети, Культура

Помощник Медведева заявил, что «дух Навального жив» и продолжает публиковать фейки о связи с «Мираторгом»

Медведев едва не проиграл на неудобном корте Уимблдона. Россиянин с трудом вышел в третий круг

Звезда «Гонки» Даниэль Брюль снимет байопик о немецком теннисисте Готфриде фон Крамме

Шарапова обнимала принцессу Беатрис и получила поздравления от Доронина: 20-летие победы теннисистки на Уимблдоне

Челябинского экс-чиновника арестовали по делу о взятке в 10 миллионов рублей

Беспроводной сканер штрих-кодов Heroje S-H29W

Военные следователи провели в Ялте проверку лиц, не вставших на воинский учет

Топ новостей на этот час

Экспозицию Коми с выставки-форума «Россия» перевезут в Сыктывкар

«Тебя бьют рублем»: Башаров раскрыл причину исчезновения с телеэкранов

МЧС Подмосковья: ураган повалил 123 дерева и повредил 11 машин

Черчесов: сегодня английский тренер выиграл, но Якин не проиграл