Internet Archive достиг отметки в один триллион сохраненных веб-страниц
Некоммерческий цифровой архив Internet Archive преодолел историческую отметку — триллион сохраненных веб-страниц. За этим достижением — почти три десятилетия непрерывной работы по архивированию интернет-контента, сообщает Popular Science.
Организация основана в 1996 году с миссией формировать «постоянную летопись эволюции интернета». Специализированные поисковые роботы автоматически обходят общедоступные сайты, а пользователи загружают материалы самостоятельно — от редких книг до аудиозаписей. Потребность в такой работе очевидна — цифровой контент чрезвычайно недолговечен и исчезает, как только кто-то перестает его поддерживать.
В настоящее время хранилище насчитывает более 866 млрд веб-страниц и около 41 млн текстовых материалов. Ежедневно архив пополняется примерно на 500 млн страниц, а общий объем данных уже достиг 100 тыс. терабайт.
Впрочем, у проекта есть серьезная проблема. Крупные медиакомпании все чаще закрывают доступ к свежим публикациям — они опасаются, что материалы будут использованы для обучения генеративных систем искусственного интеллекта (ИИ). Это существенно затрудняет архивирование современного веба и угрожает сохранению цифрового наследия.
В Internet Archive, однако, смотрят в будущее с оптимизмом. Там надеются, что вопрос доступа к контенту будет урегулирован, а проект сможет двигаться вперед — навстречу второму триллиону сохраненных страниц.
The post Internet Archive достиг отметки в один триллион сохраненных веб-страниц first appeared on Mediasat.