Добавить новость

В Смоленске секретарь регионального отделения «Единой России» Игорь Ляхов открыл Декаду приёмов граждан

Введен запрет на езду без зимних шин: как водителям не получить штраф

Удобное бронирование жилья в Дивноморском и Геленджике с помощью ТутОтель

Четыре «золота» взяли российские школьники на олимпиаде по математике в КНР

News in English


Новости сегодня

Новости от TheMoneytizer

One million public Bluesky posts scraped for AI training

Bluesky is already facing its first major AI scrape, despite the stance of its owners that it will never train generative AI on user data.

Reported by 404Media on Nov. 26, one million public Bluesky posts — complete with identifying user information — were crawled and then uploaded to AI company Hugging Face. The dataset was created by machine learning librarian Daniel van Strien, intended to be used in the development of language models and natural language processing, as well as general analysis of social media trends, content moderation, and posting patterns. It contains users' decentralized identifiers (DIDs) and even has a search function to find content from specific users.

According to the dataset's description, the set "contains 1 million public posts collected from Bluesky Social's firehose API (Application Programming Interface), intended for machine learning research and experimentation with social media data. Each post contains text content, metadata, and information about media attachments and reply relationships."

Bluesky users didn't opt-in to such uses of their content, but neither is it expressly prohibited by Bluesky. The platform's firehose API is an "aggregated, chronological stream of all the public data updates as they happen in the network, including posts, likes, follows, handle changes, and more." Bluesky's API — coupled with the public and decentralized Authenticated Transfer (AT) Protocol the site is built on — means Bluesky content is open and available to the third party developers the platform is trying to court, 404Media explains.

This could be a major warning sign to many of the site's millions of new users, many of whom left competitor X in the wake of an alarming new AI training policy. A Bluesky representative responded to 404Media's requests for comment: "Bluesky is an open and public social network, much like websites on the Internet itself. Just as robots.txt files don't always prevent outside companies from crawling those sites, the same applies here. We'd like to find a way for Bluesky users to communicate to outside orgs/developers whether they consent to this and that outside orgs respect user consent, and we're actively discussing how to achieve this."

Shortly after the article's publication, the dataset was removed from Hugging Face. "I've removed the Bluesky data from the repo. While I wanted to support tool development for the platform, I recognize this approach violated principles of transparency and consent in data collection. I apologize for this mistake," van Strien wrote in a follow-up Bluesky post.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

В Смоленске секретарь регионального отделения «Единой России» Игорь Ляхов открыл Декаду приёмов граждан

Бурак Озчивит приехал в Россию для съемок в сериале

Удобное бронирование жилья в Дивноморском и Геленджике с помощью ТутОтель

В Москве назвали топовые высокооплачиваемые профессии

Музыкальные новости

Токсиколог Кутушов перечислил топ-5 наиболее токсичных веществ в бытовой химии

WSJ: Китай стал изучать опыт России по противодействию западным санкциям

Режиссера Андрея Перевалова избили в центре Петербурга

«В туалете будешь смотреть?»: Лепс пристыдил зрителя на концерте в Челнах

Новости России

Школьники из Подольска победили на чемпионате России по лазертагу

Дамы на пике: в России становится больше женщин-руководителей

Андрей Воробьев: в Подмосковье появятся 5 питающих центров в 2026–2027 годах

Пророчества на Год Змеи: разрушение мавзолея, мировая война и вторжение НЛО

Экология в России и мире

Хейли Бибер вышла на связь после слухов о разладе с Джастином: фото

Токсиколог Кутушов перечислил топ-5 наиболее токсичных веществ в бытовой химии

Новогодний хит! от MYAKESH Слушайте «Новогоднюю»!

Продвижение Песни в Мою Волну музыкального стриминга Яндекс Музыка.

Спорт в России и мире

Олимпийская чемпионка Веснина проиграла в своём прощальном матче

Трофеи Северной Пальмиры. Бублик сыграет с Баутиста-Агутом, Мыскина и Давыденко поборются с Весниной и Бахрами

«Он талисман!» Беккер предложил «Ливерпулю» продлить контракт с Салахом

Казахстанская теннисистка из топ-30 WTA одержала победу на турнире в России

Moscow.media

В Москве раскрыто убийство предпринимателя в 2001 году

Глава Чечни проверил строительство многоуровневой развязки в районе имени Владимира Путина

Портативный ТСД корпоративного класса Saotron RT-T70

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса











Топ новостей на этот час

Rss.plus






Введен запрет на езду без зимних шин: как водителям не получить штраф

В Москве назвали топовые высокооплачиваемые профессии

Страховщики назвали самый угоняемый автомобиль в 2024 году в России

Стартовый прокол: почему Большунов неудачно начал сезон