Задача: есть несколько тысяч (~9000) HTML-файлов от старого сайта.
Они аналогичны друг другу по структуре, из них нужно достать данные:
- имя исходного файла,
- дата публикации,
- заголовок страницы (title),
- содержимое <h1>,
- meta description,
- meta keywords,
- содержимое публикации и т.д.

Файлы аналогичны друг другу по структуре. Примеры - во вложении.
На выходе нужен CSV-файл.

Читайте на 123ru.net

Частные объявления в Вашем городе, в Вашем регионе и в России

Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Байден проговорился об истинном отношении к Китаю

Такого не было почти 200 лет: синоптики обновили прогноз на октябрь

В Красноярске предприниматели начали продавать пункты выдачи Wildberries

В Тамбовской области иностранца приговорили к 9 годам лишения свободы за попытку сбыта наркотиков

Музыкальные новости

Bigpot.news

В Республике Таджикистан стартует проект «Русский язык: читаем, слушаем, смотрим в странах СНГ»

В Подмосковье сотрудники Росгвардии провели встречу со студентами финансового университета

Лавров заявил об отсутствии у Москвы предпочтений на выборах президента США

Чемпионат России по футболу: «Зенит» одержал волевую победу и вернулся на первое место в турнирной таблице

Новости России

29ru.net

Несколько авиарейсов из Москвы и Санкт-Петербурга задержаны из-за сильного тумана

Маркиньос пропустит матч с «Динамо» из-за смерти отца

«Спартак» — «Динамо» Москва: стартовые составы команд на матч 9-го тура РПЛ

Эксперты назвали самые привлекательные направления для путешествий в Новый год

Экология в России и мире

Life24.pro

Сырые и опасные. Какие продукты могут заразить вас паразитами

В Ставропольском крае разработана новая медико-психологическая услуга

N°21, коллекция весна-лето 2025

Лучшие каратисты со всей России собрались в Екатеринбурге

Спорт в России и мире

News.tennis

Теннисистка Потапова: считаю Квинси Промеса одной из легенд «Спартака»

Марии Шараповой завидуют все русские женщины. И вот почему

Теннисистка Касаткина прошла в полуфинал турнира WTA в Сеуле

Хромачева и Данилина вышли в финал турнира в Хуахине

Moscow.media

News24.pro

Солнечный денёк...

Песня под Ключ. Купить Песню под Ключ. Запись Песни под Ключ.

Полноводный Студёный...

Две структуры мэрии Екатеринбурга оказались в списке злостных неплательщиков за тепло

Life24.pro

Sportmax, коллекция весна-лето 2025 Золото, гранат и жемчуг: стилист «585*ЗОЛОТОЙ» составила топ ювелирных трендов осени 2024 Лучшие каратисты со всей России собрались в Екатеринбурге Лучшие каратисты со всей России собрались в Екатеринбурге

News-life

Футболист «Спартака» Маркиньос пропустит матч с «Динамо» Несколько авиарейсов из Москвы и Санкт-Петербурга задержаны из-за сильного тумана В Подмосковье сотрудники Росгвардии провели встречу со студентами финансового университета Психолог Алексеева рассказала, почему круглые даты возраста могут являться причиной измен

Топ новостей на этот час

Rss.plus

Агрегатор новостей 24СМИ

Все новости 123ru.net сегодня

Smi24.net

Несколько авиарейсов из Москвы и Санкт-Петербурга задержаны из-за сильного тумана

Такого не было почти 200 лет: синоптики обновили прогноз на октябрь

Эксперты назвали самые привлекательные направления для путешествий в Новый год

«ВМ»: раскрыты прижившиеся в России национальные кухни

Спонсорский контент

Все новости smi24.net

Генпрокуратура РФ: в страну доставили заочно осужденного наркоторговца Салахова

Двух фигурантов дела WB арестовали за попытку проникнуть в больницу

Храм Христа Спасителя: как построили, разрушили и восстановили кафедральный собор Москвы

РИА Новости: в доме Владислава Бакальчука начали проводить обыски

Читайте на 123ru.net

Здоровье

Game24.pro

Путешествия

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Байден проговорился об истинном отношении к Китаю

Такого не было почти 200 лет: синоптики обновили прогноз на октябрь

В Красноярске предприниматели начали продавать пункты выдачи Wildberries

В Тамбовской области иностранца приговорили к 9 годам лишения свободы за попытку сбыта наркотиков

В Республике Таджикистан стартует проект «Русский язык: читаем, слушаем, смотрим в странах СНГ»

В Подмосковье сотрудники Росгвардии провели встречу со студентами финансового университета

Лавров заявил об отсутствии у Москвы предпочтений на выборах президента США

Чемпионат России по футболу: «Зенит» одержал волевую победу и вернулся на первое место в турнирной таблице

Несколько авиарейсов из Москвы и Санкт-Петербурга задержаны из-за сильного тумана

Маркиньос пропустит матч с «Динамо» из-за смерти отца

«Спартак» — «Динамо» Москва: стартовые составы команд на матч 9-го тура РПЛ

Эксперты назвали самые привлекательные направления для путешествий в Новый год

Сырые и опасные. Какие продукты могут заразить вас паразитами

В Ставропольском крае разработана новая медико-психологическая услуга

N°21, коллекция весна-лето 2025

Лучшие каратисты со всей России собрались в Екатеринбурге

Теннисистка Потапова: считаю Квинси Промеса одной из легенд «Спартака»

Марии Шараповой завидуют все русские женщины. И вот почему

Теннисистка Касаткина прошла в полуфинал турнира WTA в Сеуле

Хромачева и Данилина вышли в финал турнира в Хуахине

Солнечный денёк...

Песня под Ключ. Купить Песню под Ключ. Запись Песни под Ключ.

Полноводный Студёный...

Две структуры мэрии Екатеринбурга оказались в списке злостных неплательщиков за тепло

Топ новостей на этот час

Несколько авиарейсов из Москвы и Санкт-Петербурга задержаны из-за сильного тумана

Такого не было почти 200 лет: синоптики обновили прогноз на октябрь

Эксперты назвали самые привлекательные направления для путешествий в Новый год

«ВМ»: раскрыты прижившиеся в России национальные кухни