Требуется написать парсер клиник с сайта 32top.ru. Парсер должен пройтись по списку (
http://www.32top.ru/search/clinic/) по всем страницам и собрать информацию о клиниках.
Это Москва. Позже нужно будет сделать аналогично по региональным поддоменам.
Какую информацию надо собрать:
0. ID клиники на 32top
1. Город - пока moscow (по умолчанию, потом со всех остальных соберем аналогично)
2. Название клиники
3. Станции метро - желательно их выделить в справочник, чтобы можно было фильтровать потом, а не просто текстом
4. Адрес
5. Время работы (текстом, полный график на неделю)
6. Кол-во отзывов
7. Телефон(ы)
8. Описание
9. Выделена ли клиника в каталоге (желтые в списке) - да/нет
10. Сетевая клиника - кол-во филиалов и связи с филиалами (подумать как реализовать)
Парсер должен быть реализован на AJAX или типа того, т.е. чтобы в реальном времени был виден процесс парсинга. Должна быть возможность в какой-то переменной выставить задержку между запросами.
Сохранение результатов парсинга делать в БД. Но есть один нюанс. Т.к. парсинг может быть запущен в разное время, быть прерван, информация о клиниках может устареть и т.п. - предлагаю хранить в БД результаты каждого парсинга. Т.е. добавляем все, просто у каждой записи есть атрибут к какому результату парсинга относится.
Результаты парсинга имеют id, дату начала парсинга, кол-во собранных клиник, текстовое примечание.
Каждая запись в БД клиник относится к какому-то результату парсинга (по id).
Результаты парсинга можно удалить, - удалятся все клиники к нему относящиеся.
Когда мы заходим в парсер мы видим список результатов парсинга, пример:
#2 - "32top - Москва" - 23.12.2016 21:37 - 3617 клиник [ просмотр | удалить ]
#1 - "32top - Москва" - 21.12.2016 12:15 - 3600 клиник [ просмотр | удалить ]
*(32top - Москва - это текстове примечание произвольное...)
Под списком форма - начать новый парсинг, поле для указания текстового примечания к нему, и кнопка Начать.
Результаты парсинга можно посмотреть - откроется таблица с клиниками данного результата парсинга, которую можно по кнопке экспортировать в Excel в кодировке 1251.