Добавить новость

Облачность с прояснениями ждет Москву 5 октября

Производство безредукторных лебедок для лифтов запустят в Москве в 2025 году

Производство мяса выросло в России с начала 2024 года

FT: эскалация конфликта на Ближнем Востоке вызвала сильный скачок цен на нефть





Новости сегодня

Новости от TheMoneytizer

У ИИ заканчиваются данные? Скоро у компаний могут закончиться текстовые данные для обучения моделей

В настоящее время проводятся новые исследования, посвященные проблемам и возможностям масштабирования систем машинного обучения, питающих модели ИИ, и их результаты довольно плачевны. По мнению экспертов, у компаний, занимающихся разработкой ИИ, таких как OpenAI, заканчиваются мировые (созданные человеком) текстовые обучающие данные. Более продвинутые модели, чем нынешние (такие, как GPT-5 или GPT-6), могут даже исчерпать доступные источники данных к 2026 году. Возникает вопрос: сможет ли ИИ продолжать прогрессировать без новых человеческих текстовых данных?

Последние достижения в области языкового моделирования в значительной степени опираются на большие объемы текстов, написанных людьми, часто из Интернета или архивных корпораций. Фактически, общедоступные текстовые базы данных содержат миллиарды слов с миллиардов веб-страниц. Несмотря на это, последние исследования показали, что компании, занимающиеся разработкой ИИ, сталкиваются с серьезной проблемой: истощением данных. Столкнувшись с этим потенциальным препятствием для масштабирования больших языковых моделей (LLM), исследователь ИИ Тамай Бесироглу сказал в интервью Associated Press: «Здесь есть серьезное узкое место».

«Если вы столкнетесь с ограничениями по количеству данных, вы не сможете эффективно масштабировать свои модели. А масштабирование моделей — это, пожалуй, самый важный способ расширить их возможности и повысить качество результатов«, — добавил он. Инструменты ИИ также без разбора используют общедоступные онлайн-архивы, и эта противоречивая тенденция в использовании данных уже привела к судебным искам. Так, например, произошло с издателями газеты New York Times, которые подали на OpenAI в суд за нарушение авторских прав.

К головокружительному снижению потока нового контента

По мнению исследователей, если нынешние тенденции в развитии LLM сохранятся, то, скорее всего, модели будут обучены на наборах данных, примерно эквивалентных по объему всем общедоступным текстовым данным о человеке, в период с 2026 по 2032 год (или даже немного раньше, если модели будут переобучены). Более того, в докладе исследователей из аналитического центра Epoch AI, расположенного в Сан-Франциско, говорится, что объем текстовых данных, на которых обучаются модели ИИ, увеличивается примерно в 2,5 раза только каждый год. Они также утверждают, что большие языковые модели, такие как GPT-4 от OpenAI и Llama 3 от Meta (признана в России экстремистской организацией, ее деятельность запрещена), могут исчерпать свой ресурс к 2026 году.

Чтобы обойти это препятствие, другие исследователи изучают, как можно продолжить развитие языковых моделей после того, как будут исчерпаны наборы текстовых данных, созданные человеком. Наиболее жизнеспособным решением, по их мнению, является обучение языковых моделей на синтетических (сгенерированных) данных, что предполагает перенос обучения из областей, богатых данными. OpenAI, Google и Anthropic уже работают над этим решением.

Однако, согласно выводам ученых из Райса и Стэнфордского университета, подпитка этих моделей контентом, созданным искусственным интеллектом, ведет к значительному снижению качества производимого контента. Это чревато возникновением «петли самообмана» и вызывает множество вопросов о том, могут ли алгоритмы ИИ стать более эффективными, выдавая лучшие результаты при меньшем количестве данных.

«Я думаю, важно помнить, что нам не обязательно нужно обучать все большие и большие модели«, — говорит Николя Паперно, исследователь ИИ и доцент кафедры компьютерной инженерии Университета Торонто. В любом случае, результаты этого исследования подчеркивают важность продолжения исследований для измерения темпов роста эффективности данных, а также потенциальных улучшений, вызванных появлением новых методов.

Запись У ИИ заканчиваются данные? Скоро у компаний могут закончиться текстовые данные для обучения моделей впервые опубликована на сайте Про технологии.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Ирландский степ и кельтские мелодии: где в Крыму представят шоу Celtica

В Подмосковье открыли еще один реконструированный парк

Самая длинная в Европе: началось восстановление знаменитой Смоленской крепостной стены

«Василиса и хранители времени» или «Агент на Уикенд»: что посмотреть в кинотеатрах

Музыкальные новости

«Динамо» Москва — «Трактор». Видеотрансляция матча КХЛ, смотреть бесплатно

История современной Золушки в новом клипе Натальи Гордиенко «Телефонный звонок»

Путин поздравил Рахмона с днем рождения в преддверии его визита в Москву

Samsung добавляет AI Cast и ChatGPT в телевизоры с Tizen

Новости России

В Москве начнут производить батареи для электровелосипедов, самокатов и гироскутеров

Самая длинная в Европе: началось восстановление знаменитой Смоленской крепостной стены

ЧТО ДЕЛАЮТ ПРЯМО НА ТЕННИСНОМ КОРТЕ! ВИДЕО. И очень важные данные для России, США, Европы и всего мира.

«Василиса и хранители времени» или «Агент на Уикенд»: что посмотреть в кинотеатрах

Экология в России и мире

Певица Астрид Хан представила песню "Дом"

В Новокузнецке пройдет международный конкурс искусств «МОЯ ЗВЕЗДА» им. А.И. Ленского

Дочь Любови Успенской нашлась: у матери нервы на пределе

Гастроэнтеролог Садыков назвал 3 основные причины непреодолимой тяги к сладкому

Спорт в России и мире

Рублев рассказал об операции перед турниром в Пекине

Соболенко проиграла в ¼ финала турнира WTA-1000 в Пекине

Рублев рассказал, что ему грозила ампутация после US Open

Тату, побег, анорексия. Как бунтуют дети Яковлевой, Успенской, Кафельникова

Moscow.media

Нонконформизм из коллекции Q-ART

Портативный ТСД корпоративного класса Saotron RT-T70

StarLine: Умный комфорт в твоих руках!

Певица Астрид Хан представила песню "Дом"











Топ новостей на этот час

Rss.plus






Октябрь будет аномальным: синоптики рассказали, к чему готовиться россиянам

Пластика или серьезная болезнь: пользователи гадают, какую операцию перенесла девушка Павла Дурова — Юлия

В Подмосковье почтили подвиг Подольских курсантов

Президент Киргизии Жапаров 7-8 октября совершит визит в Москву