Добавить новость

Шампанское в РФ в преддверии Нового года подорожало на 13%

Диетолог Панова: чем больше свежих овощей в салате — тем полезнее

Агентура в РФ играла активную роль в подавлении попыток объединить Русский мир

Москвичи перечислили баллы программы «Миллион призов» благотворительным фондам





Новости сегодня

Новости от TheMoneytizer

Синтетические данные для обучения ИИ: ошибка или панацея?

Искусственный интеллект уперся в потолок: количество используемых для обучения данных ограничено, и они быстро заканчиваются. В связи с этим стартапы прибегают к помощи синтетических данных — информации, сгенерированной другим нейросетям. 

ИИ-стартап Anthropic применил синтетические данные для обучения одной из своих флагманских моделей Claude 3.5 Sonnet. Meta доработала свои нейросети Llama 3.1 с помощью созданных ИИ данных. OpenAI также применяет синтетическую информацию для обучения o1 — «рассуждающего» искусственного интеллекта.

TechCrunch обратили внимание на преимущества и недостатки такого подхода.

Аннотация

Системы искусственного интеллекта — это статистические машины. Они обучаются на большом количестве примеров и изучают закономерности для дальнейших предсказаний. 

Аннотации — текстовые метки, обозначающие смысл или части данных — являются ключевым элементом в этих примерах. Они служат ориентирами, «обучая» модель различать предметы, места и идеи.

Например, если нейросети показать множество фотографий кухни и пометить их словом «кухня», со временем она начнет ассоциировать ее общие характеристики вроде наличия холодильника или столешницы. После обучения модель сможет распознать фотографию кухни, которая раньше ей не показывалась. 

В процессе обучения важно грамотно классифицировать аннотации. Например, если изображения с кухнями помечать словом «корова», ИИ будет связывать холодильник с животным. 

Необходимость применения помеченных данных создал целый рынок аннотационных услуг, который оценивается в $838,2 млн, а в течение 10 лет достигнет $10,34 млрд. 

В некоторых случаях маркировка данных требует специализированных знаний и опыта, например, если это касается математики. Существуют фирмы, специализирующиеся на аннотации данных. Работа в таких компаниях может быть как высокооплачиваемой, так и наоборот. В развивающихся странах работники получают менее $2 в час.

Нужно заменить людей

Платить маркировщикам данных иногда дорого, плюс они способны ошибаться. Также само получение информации может быть затратным. Shutterstock взимает десятки миллионов долларов с ИИ-поставщиков за доступ к своим архивам. Reddit заработал сотни миллионов на лицензировании информации для Google, OpenAI и других.

Наконец, данные становится все труднее получить. Более 35% из 1000 лучших веб-сайтов блокируют доступ для OpenAI. Если тенденция сохранится, ИИ способен исчерпать всю общедоступную информацию к 2026–2032 годам. 

Все это, а также риски судебных исков за использование лицензированной информации, привело к необходимости генерировать синтетическую информацию.

Синтетические альтернативы

Если данные — это нефть, синтетическая информация позиционируется как биотопливо, которое можно создать без негативных внешних последствий, отметил кандидат наук Вашингтонского университета Ос Киз. 

«Вы можете взять небольшой стартовый набор данных и моделировать и экстраполировать новую информацию из него», — отметил он. 

ИИ-индустрия взяла технологию на вооружение и начала применять. В декабре компания Writer представила модель Palmyra X 004, обученную почти полностью на синтетических данных. Разработка обошлась в $700 000 по сравнению с $4,6 млн, которые затратил OpenAI за создание нейросети аналогичного размера. 

Открытые модели Phi от Microsoft частично обучались на синтетических данных, также как и Gemma от Google. Этим летом Nvidia представила семейство моделей, предназначенных для создания синтетической обучающей информации, а ИИ-стартап Hugging Face выпустил «самый большой» набор информации для настройки ИИ, состоящий из искусственного текста.

Генерация синтетических данных стала бизнесом, стоимость которого может вырасти до $2,34 млрд к 2030 году. 

Синтетические риски

Применение синтетических данных несет в себе определенные риски. Если информация, применяемая для создания искусственных сведений, имеет предвзятость или ограничения, результат будет испорчен. 

Чрезмерное применение синтетических данных в ходе обучения нейросетей приводит к снижению качества и разнообразия модели, говорится в исследовании Университетов Райса и Стэнфорда. 

Большие нейросети вроде o1 способны создавать более сложные для обнаружения галлюцинации, что приведет к снижение точности ИИ, обученного на подобных данных. 

Опубликованное в июле исследование показывает, что модели, обученные на ошибочных данных, генерируют еще более неправдивую информацию. Это создает петлю деградации для последующих нейросетей. Впоследствии искусственный интеллект может давать ответ, вообще никак не связанный с вопросом.

Другое исследование наглядно показало снижение качества работы модели на примере изображений.

Данные: TechCrunch.

Старший научный сотрудник Института искусственного интеллекта Аллена Лука Солдайни считает, что применение синтетических данных целесообразно в случае их тщательной проверки, фильтрации и сопоставления с реальной информацией.

Несоблюдение этого требования может привести к краху модели, она станет менее «творческой» и более предвзятой в своих выводах, что в конечном итоге серьезно снизит ее функциональность. 

«Конвейеры синтетических данных не являются самосовершенствующимися машинами. Их результаты должны быть тщательно проверены и улучшены, перед их использованием для для обучения», — отметил он.

Ранее CEO OpenAI Сэм Альтман отметил, что когда-нибудь ИИ будет создавать синтетические данные, достаточно хорошие для эффективного самообучения. 

Напомним, в декабре соучредитель OpenAI Илья Суцкевер спрогнозировал конец эпохи предварительного обучения искусственного интеллекта и предсказал появление суперинтеллекта.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Небоскреб Wildberries в «Москва-Сити» оценили в 75-130 миллиардов рублей

Чтобы все успели. На МЖД в праздники запустят 205 дополнительных электричек

Путин назвал ЕАЭС одним из самостоятельных центров многополярного мира

Леонид Якубович: "Соборная площадь" имеет важное историческое значение

Музыкальные новости

Память начальника войск РХБ защиты Игоря Кириллова почтили сотрудники Росгвардии в Костроме

«Полгода по островам…», встреча с российским путешественником пройдёт в Москве

В Московской области при силовой поддержке ОМОН 'Пересвет" Росгвардии задержаны подозреваемые в разбойном нападении на пенсионерку

Заседание оперативного штаба состоялось в Управлении Росгвардии по Тюменской области

Новости России

В Оренбуржье московские блогеры-миллионники не попадали

Дети из Тверской области побывали на «Елке Победы» в Москве

В России за неделю задержали 44 подозреваемых в поджогах административных зданий

Музей Победы подготовил виртуальное путешествие для жителей Псковской области

Экология в России и мире

В филиале «Южный» по итогам 2024 года программа по улучшению условий и охраны труда выполнена на 100%

Эксперты «Будь Здоров» оценили проекты участников акселерационной программы Государственного университета управления «Технологии здоровой жизни 2.0»

«Хорошо, средне, плохо»: Врачи московских поликлиник получили первые оценки за свою работу на основе аудиомониторинга

Актриса Фатеева рассказала о повлиявших на ее жизнь врачебных ошибках

Спорт в России и мире

Путинцева о том, как с травмой колена победила Швентек на «Уимблдоне»: «Думала: блин, пусть после этого матча вообще больше ничего не сыграю, но ее я сегодня обыграю»

Путинцева высказалась о переезде в Казахстан

Елена Рыбакина проводит 100-ю неделю подряд в топ-10 рейтинга WTA

Теннисистка Путинцева: решила выступать за Казахстан из-за лучших условий

Moscow.media

В Болховском районе под влиянием горячительных напитков началась поножовщина

Свыше 6,5 тысячи жителей Москвы и Московской области получили справки о статусе предпенсионера в клиентских службах регионального Отделения СФР и МФЦ

ПЕРВОЛЕДЬЕ

На месте дач УрО РАН на Шарташе создадут туристическую зону











Топ новостей на этот час

Rss.plus






Спецборт с выжившими в авиакатастрофе в Актау россиянами приземлился в Жуковском

В России за неделю задержали 44 подозреваемых в поджогах административных зданий

В Абхазии после 1 января введут новый график отключения электричества

Режим ЧС федерального уровня могут объявить из-за разлива мазута в Черном море