Задача: есть несколько тысяч (~9000) HTML-файлов от старого сайта.
Они аналогичны друг другу по структуре, из них нужно достать данные:
- имя исходного файла,
- дата публикации,
- заголовок страницы (title),
- содержимое <h1>,
- meta description,
- meta keywords,
- содержимое публикации и т.д.
Файлы аналогичны друг другу по структуре. Примеры - во вложении.
На выходе нужен CSV-файл.