Нейросетям не хватает открытых данных для изучения
Развитие искусственного интеллекта сталкивается с проблемой ограниченного доступа к данным.
Согласно исследованию, проведенному в рамках проекта Data Provenance Initiative, многие ресурсы в интернете начали ограничивать использование своих данных. Это может негативно сказаться на обучении мощных систем искусственного интеллекта. Об этом сообщает издание New York Times.
В ходе анализа более чем 14 тысяч доменов, которые используются в трех основных базах данных для обучения искусственного интеллекта, была выявлена тенденция к "кризису согласия". Оказалось, что около 5% всех данных и 25% самых ценных данных уже ограничены с помощью протокола "исключения роботов" (Robots Exclusion Protocol). Этот протокол позволяет владельцам сайтов блокировать автоматическое получение данных.
Кроме того, почти 45% данных из набора данных C4 теперь ограничены условиями обслуживания сайтов. Новая политика ограничений будет распространяться не только на компании, разрабатывающие искусственный интеллект, но и на ученых, исследователей и некоммерческие организации, использующие веб-данные.